<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; HOMER</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/homer/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>自学CHIP-seq分析第八讲~寻找motif</title>
		<link>http://www.bio-info-trainee.com/1767.html</link>
		<comments>http://www.bio-info-trainee.com/1767.html#comments</comments>
		<pubDate>Thu, 07 Jul 2016 12:45:38 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[tutorial]]></category>
		<category><![CDATA[CHIP-seq]]></category>
		<category><![CDATA[findMotifsGenome]]></category>
		<category><![CDATA[HOMER]]></category>
		<category><![CDATA[meme]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1767</guid>
		<description><![CDATA[motif是比较有特征的短序列，会多次出现的，一般认为它的生物学意义重大，做完C &#8230; <a href="http://www.bio-info-trainee.com/1767.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>
<div>motif是比较有特征的短序列，会多次出现的，一般认为它的生物学意义重大，做完CHIP-seq分析之后，一般都会寻找motif 。查找有两种，一种是de novo的，要求的输入文件的fasta序列，一般是根据peak的区域的坐标提取好序列 。另一种是依赖于数据库的搜寻匹配，很多课题组会将现有的ChIP-seq数据进行整合，提供更全面，更准确的motif数据库。</div>
</div>
<p><span id="more-1767"></span></p>
<div><span style="color: #ff0000;">motif的定义如下：</span></div>
<div>
<p>motif: recurring pattern. eg, sequence motif, structure motif or network motif</p>
<p>DNA sequence motif: short, recurring patterns in DNA that are presumed to have a biological function.</p>
<p>从上边的定义可以看出，其实motif这个<b>单词</b>就是形容一种反复出现的模式，而<b>序列motif</b>往往是DNA上的反复出现的模式，并被假设拥有生物学功能。而且，经常是一些具有序列特异性的蛋白的结合位点（如，转录因子）或者是涉及到重要生物过程的（如，RNA 起始，RNA 终止， RNA 剪切等等）。</p>
<p>摘抄自：<a href="http://blog.163.com/zju_whw/blog/static/225753129201532104815301/">http://blog.163.com/zju_whw/blog/static/225753129201532104815301/</a></p>
</div>
<div>
<div>motif最先是通过实验的方法发现的，换句话说，不是说有了ChIP-seq才有了motif分析，起始很早人们就开始研究motif了！例如，‘TATAAT’ box在1975年就被pribnow发现了，它与‘上游的‘TTGACA’motif是RNA聚合酶结合位点的特异性序列。而且，当时的人们就知道，不是所有的结合位点都一定完美地与motif匹配，大部分都只匹配了12个碱基中的7-9个。结合位点与motif的匹配程度往往也与蛋白质与DNA的结合强弱有关。目前被人们识别出来的motif也越来越多，如TRANSFAC和JASPAR数据库都有着大量转录因子的motif。而随着ChIP-seq数据的大量产出，motif的研究会进一步深入，有一些课题组会将现有的ChIP-seq数据进行整合，提供更全面，更准确的motif数据库。</div>
<div>从算法上来讲，这是很复杂的，我就不多说了，我这里主要讲best practice：</div>
</div>
<div></div>
<div>一篇文献列出了2014年以前的近乎所有知名的A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data 链接见：<a href="https://biologydirect.biomedcentral.com/articles/10.1186/1745-6150-9-4">https://biologydirect.biomedcentral.com/articles/10.1186/1745-6150-9-4</a></div>
<div>
<h3><strong><span style="text-decoration: underline;"><span style="color: #ff6600; text-decoration: underline;">最常用的是 meme工具套件 ：</span></span></strong></h3>
<div> <a href="http://meme-suite.org/">http://meme-suite.org/</a>  输入文件是fasta序列，需要对peaks进行转换，根据bed的基因坐标从基因组里面提取对应的序列咯： <a href="http://bedtools.readthedocs.io/en/latest/content/tools/getfasta.html">http://bedtools.readthedocs.io/en/latest/content/tools/getfasta.html</a></div>
<div>它里面集成了4个寻找motif 的工具，每个工具都是一篇文章，里面有详细描述具体原理，但是整个网页给人的感觉是too busy，让初学者无从下手。<a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/07/meme-suit-motif-finding.png"><img class="alignnone size-full wp-image-1768" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/07/meme-suit-motif-finding.png" alt="meme-suit-motif-finding" width="523" height="371" /></a></div>
<div><img src="file:///C:/Users/Jimmy/AppData/Local/YNote/data/jmzeng1314@163.com/f448c5c8560d4612b2b2bafcbca25f37/clipboard.png" alt="" data-media-type="image" data-inited="true" /></div>
</div>
<div>把自己的fasta序列上传上去即可，还是选取我们本次系列教程的数据</div>
<div>
<div><b>$ ls -lh  *fasta</b></div>
<div>-rw-r--r-- 1 Jimmy 197121  18M Jul  7 19:40 <span style="color: #ff6600;">GSM1278641_Xu_MUT_rep1_BAF155_MUT_sequence.fasta</span></div>
<div>-rw-r--r-- 1 Jimmy 197121 9.9M Jul  7 19:38 GSM1278643_Xu_MUT_rep2_BAF155_MUT_sequence.fasta</div>
<div>-rw-r--r-- 1 Jimmy 197121  26M Jul  7 19:41 GSM1278645_Xu_WT_rep1_BAF155_sequence.fasta</div>
<div>-rw-r--r-- 1 Jimmy 197121  14M Jul  7 19:41 GSM1278647_Xu_WT_rep2_BAF155_sequence.fasta</div>
<div> 然后就可以看到所有结果啦，大家可以试试看。</div>
</div>
<div></div>
<div>另外一个比较常见的寻找motif工具，是<a href="http://homer.salk.edu/homer/motif/">HOMER</a> 这个软件附带的一个perl脚本findMotifsGenome.pl ，但是这个工具不是很好安装，而且对服务器资源要求还有一点，所以我这里就不推荐了。</div>
<div>安装使用如下：</div>
<div>
<blockquote>
<div>## Download and install homer (Hypergeometric Optimization of Motif EnRichment)<br />
## // http://homer.salk.edu/homer/<br />
## // http://blog.qiubio.com:8080/archives/3024<br />
## pre-install: Ghostscript，seqlogo,blat<br />
cd ~/biosoft<br />
mkdir homer &amp;&amp; cd homer<br />
wget http://homer.salk.edu/homer/configureHomer.pl<br />
perl configureHomer.pl -install<br />
perl configureHomer.pl -install hg19</div>
</blockquote>
</div>
<blockquote>
<div>如果是对MACS找到的peaks记录文件，还需提取对应的列给HOMER作为输入文件：</div>
</blockquote>
<div>
<blockquote>
<div>awk '{print $4"\t"$1"\t"$2"\t"$3"\t+"}' sample_peaks.bed &gt;sample_homer.bed</div>
<div>findMotifsGenome.pl<b> sample_homer.bed </b>hg19 motifDir<b> -len 8,10,12</b></div>
</blockquote>
</div>
<div>最后得到的文件夹里面有一个详细的网页版报告，所以很多人都喜欢用这个软件，而且<a href="http://homer.salk.edu/homer/motif/">HOMER</a> 这个软件是一个大杂烩，能解决几乎所有的高通量测序数据的分析。</div>
<div></div>
<div>最后值得一提的就是现在流行的R的bioconductor系列包，也可以寻找motif：</div>
<div>
<div>一般的R包都可以直接从BED文件里面记录的基因坐标来找motif，有点需要输入fasta序列，就需要自己根据bed的基因坐标从基因组里面提取对应的序列咯：</div>
<div>rGADEM (motif discovery): <a href="http://bioconductor.org/packages/devel/bioc/html/rGADEM.html">http://bioconductor.org/packages/devel/bioc/html/rGADEM.html</a></div>
<div>MotIV (motif validation): <a href="http://bioconductor.org/packages/devel/bioc/html/MotIV.html">http://bioconductor.org/packages/devel/bioc/html/MotIV.html</a></div>
<div><a href="http://lgsun.grc.nia.nih.gov/CisFinder/">http://lgsun.grc.nia.nih.gov/CisFinder/</a></div>
<div><a href="http://bioinfo.cs.technion.ac.il/drim/">http://bioinfo.cs.technion.ac.il/drim/</a></div>
<div><a href="http://www.ncbi.nlm.nih.gov/pubmed/20736340">http://www.ncbi.nlm.nih.gov/pubmed/20736340</a></div>
</div>
<div></div>
<div>
<div>还有一个PICS (ChIP-seq): 虽然不是bioconductor的包 <a href="http://www.rglab.org/pics-probabilistic-inference-for-chip-seq/">http://www.rglab.org/pics-probabilistic-inference-for-chip-seq/</a> 貌似国内被墙了，无法打开</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1767.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
