<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; ChIPpeakAnno</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/chippeakanno/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>对CHIP-seq数据call peaks应该选取unique比对的reads吗？</title>
		<link>http://www.bio-info-trainee.com/1869.html</link>
		<comments>http://www.bio-info-trainee.com/1869.html#comments</comments>
		<pubDate>Sun, 07 Aug 2016 13:13:18 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[CHIP-seq]]></category>
		<category><![CDATA[ChIPpeakAnno]]></category>
		<category><![CDATA[makeVennDiagram]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1869</guid>
		<description><![CDATA[对于CHIP-seq数据处理完全是自学的，所以有很多细节得慢慢学习回来，这次记录 &#8230; <a href="http://www.bio-info-trainee.com/1869.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>对于CHIP-seq数据处理完全是自学的，所以有很多细节得慢慢学习回来，这次记录的就是当我们把测序仪的fastq数据比对到参考基因组之后，应该对比对的结果文件做什么样的处理，然后去给peaks caller软件拿来call peaks呢？<strong><span style="color: #ff0000;">我看过博客 提到只保留比对质量值大于30的，也看过博客提到只保留unique比对的reads</span></strong>，我这里拿一篇公共数据测试了一下它们的区别！数据描述如下：<span id="more-1869"></span></p>
<div>
<div><a href="http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311">http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311</a></div>
</div>
<div>参考流程：<a href="https://github.com/jmzeng1314/NGS-pipeline/tree/master/CHIPseq">https://github.com/jmzeng1314/NGS-pipeline/tree/master/CHIPseq</a></div>
<div>
<div>
<table border="1" cellspacing="0" cellpadding="2">
<tbody>
<tr>
<td valign="top"><a href="http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM1916974">GSM1916974</a></td>
<td valign="top">H3K27ac ChIP-seq</td>
<td valign="top">
<div>
<h2>SRR2774675</h2>
</div>
</td>
</tr>
<tr>
<td valign="top"><a href="http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM1916975">GSM1916975</a></td>
<td valign="top">input DNA</td>
<td valign="top">
<div>
<h2>SRR2774676</h2>
</div>
</td>
</tr>
</tbody>
</table>
</div>
<div>首先在SRA数据库下载  SRR2774675.sra 和 SRR2774676.sra</div>
<div>
<div><a href="http://www.ncbi.nlm.nih.gov/sra?term=SRP065184">http://www.ncbi.nlm.nih.gov/sra?term=SRP065184</a></div>
<div>应用我github的流程很快就可以对比对，我把两种方法处理的比对结果都拿去call peaks，然后得到了，两个peaks文件。</div>
<div>39709 highQuaily_peaks.bed<br />
39709 highQuaily_summits.bed</div>
<div>可以看到两次结果得到的peaks条数并没有显著区别，我们简单看看前几行！</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/08/12.png"><img class="alignnone size-full wp-image-1870" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/08/12.png" alt="1" width="767" height="181" /></a></div>
<div>其实用bedtools就可以看看左右两边的文件的交集情况，但是我这里选用了ChIPpeakAnno这个R包集成好的函数，直接得到结果即可！</div>
<div>ChIPpeakAnno 包直接看说明书吧，我这里贴出代码：</div>
<blockquote>
<div>library(ChIPpeakAnno)<br />
highPeak &lt;- readPeakFile( 'highQuaily_peaks.bed' )<br />
uniquePeak &lt;- readPeakFile( 'unique_peaks.bed' )<br />
ol &lt;- findOverlapsOfPeaks(highPeak, uniquePeak)<br />
png('overlapVenn.png')<br />
makeVennDiagram(ol)<br />
dev.off()</div>
</blockquote>
<div>然后打开画好的韦恩图：</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/08/overlapVenn.png"><img class="alignnone size-full wp-image-1871" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/08/overlapVenn.png" alt="overlapVenn" width="480" height="480" /></a></div>
<div>可以看到这两种情况得到的结果几乎没有区别，如果大家感兴趣可以自己看看它们那些独特的peaks到底是什么原因！</div>
<div>结论就是，说明CHIP-seq数据分析的时候，call peaks那个步骤，<strong>只保留比对质量值大于30的，或者只保留unique比对的reads，从数据处理的角度来讲差别不大，主要看你具体实验意义。</strong></div>
<div></div>
</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1869.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>自学CHIP-seq分析第七讲~peaks注释</title>
		<link>http://www.bio-info-trainee.com/1752.html</link>
		<comments>http://www.bio-info-trainee.com/1752.html#comments</comments>
		<pubDate>Wed, 06 Jul 2016 00:17:17 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[tutorial]]></category>
		<category><![CDATA[CHIP-seq]]></category>
		<category><![CDATA[ChIPpeakAnno]]></category>
		<category><![CDATA[Peak]]></category>
		<category><![CDATA[注释]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1752</guid>
		<description><![CDATA[经过前面的CHIP-seq测序数据处理的常规分析，我们已经成功的把测序仪下机数据 &#8230; <a href="http://www.bio-info-trainee.com/1752.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>经过前面的CHIP-seq测序数据处理的常规分析，我们已经成功的把测序仪下机数据变成了BED格式的peaks记录文件，我选取的这篇文章里面做了4次CHIP-seq实验，分别是两个重复的野生型MCF7细胞系的 BAF155 immunoprecipitates和两个重复的突变型MCF7细胞系的 BAF155 immunoprecipitates，这样通过比较野生型和突变型MCF7细胞系的 BAF155 immunoprecipitates的结果的不同就知道该细胞系的BAF155 突变，对它在全基因组的结合功能的影响啦。</p>
<blockquote><p>#我这里直接从GEO里面下载了peaks结果，它们详情如下：wc -l *bed<br />
<span style="color: #ff0000;">6768 GSM1278641_Xu_MUT_rep1_BAF155_MUT.peaks.bed</span><br />
<span style="color: #ff0000;"> 3660 GSM1278643_Xu_MUT_rep2_BAF155_MUT.peaks.bed</span><br />
<span style="color: #ff0000;"> 11022 GSM1278645_Xu_WT_rep1_BAF155.peaks.bed</span><br />
<span style="color: #ff0000;"> 5260 GSM1278647_Xu_WT_rep2_BAF155.peaks.bed</span><br />
49458 GSM601398_Ini1HeLa-peaks.bed<br />
24477 GSM601398_Ini1HeLa-peaks-stringent.bed<br />
12725 GSM601399_Brg1HeLa-peaks.bed<br />
12316 GSM601399_Brg1HeLa-peaks-stringent.bed<br />
46412 GSM601400_BAF155HeLa-peaks.bed<br />
37920 GSM601400_BAF155HeLa-peaks-stringent.bed<br />
30136 GSM601401_BAF170HeLa-peaks.bed<br />
25432 GSM601401_BAF170HeLa-peaks-stringent.bed</p></blockquote>
<p>每个BED的peaks记录，本质是就3列是需要我们注意的，就是<span style="color: #ff0000;">染色体，以及在该染色体上面的起始和终止坐标</span>，如下：</p>
<blockquote><p>#PeakID chr start end strand Normalized Tag Count region size findPeaks Score Clonal Fold Change<br />
<span style="color: #ff0000;">chr20 52221388 52856380</span> chr20-8088 41141 +<br />
<span style="color: #ff0000;">chr20 45796362 46384917</span> chr20-5152 31612 +<br />
<span style="color: #ff0000;">chr17 59287502 59741943</span> chr17-2332 29994 +<br />
chr17 59755459 59989069 chr17-667 19943 +<br />
chr20 52993293 53369574 chr20-7059 12642 +<br />
chr1 121482722 121485861 chr1-995 9070 +<br />
chr20 55675229 55855175 chr20-6524 7592 +<br />
chr3 64531319 64762040 chr3-4022 7213 +<br />
chr20 49286444 49384563 chr20-4482 6165 +</p></blockquote>
<p>我们所谓的peaks注释，就是想看看该peaks在基因组的哪一个区段，看看它们在各种基因组区域(基因上下游，5,3端UTR，启动子，内含子，外显子，基因间区域，microRNA区域)分布情况，但是一般的peaks都有近万个，所以需要<span style="color: #ff0000;">批量注释</span>，如果脚本学的好，自己下载参考基因组的GFF注释文件，完全可以自己写一个，我这里会介绍一个R的bioconductor包ChIPpeakAnno来做CHIP-seq的peaks注释，下面的包自带的示例：</p>
<blockquote><p>library(ChIPpeakAnno)<br />
bed &lt;- system.file("extdata", "MACS_output.bed", package="ChIPpeakAnno")<br />
gr1 &lt;- <span style="color: #ff0000;">toGRanges</span>(bed, <span style="color: #ff0000;">format</span>="BED", header=FALSE)<br />
## one can also try import from rtracklayer<br />
library(rtracklayer)<br />
gr1.import &lt;- <span style="color: #ff0000;">import</span>(bed, <span style="color: #ff0000;">format</span>="BED")<br />
identical(start(gr1), start(gr1.import))<br />
gr1[1:2]<br />
gr1.import[1:2] #note the name slot is different from gr1<br />
gff &lt;- system.file("extdata", "GFF_peaks.gff", package="ChIPpeakAnno")<br />
gr2 &lt;- <span style="color: #ff0000;">toGRanges</span>(gff, <span style="color: #ff0000;">format</span>="GFF", header=FALSE, skip=3)<br />
ol &lt;- findOverlapsOfPeaks(gr1, gr2)<br />
makeVennDiagram(ol)</p>
<p>##还可以用binOverFeature来根据特定的GRanges对象(通常是TSS)来画分布图<br />
## Distribution of aggregated peak scores or peak numbers around transcript start sites.</p></blockquote>
<p>可以看到这个包使用起来非常简单，只需要把我们做好的peaks文件(GSM1278641_Xu_MUT_rep1_BAF155_MUT.peaks.bed等等)用toGRanges或者import读进去，成一个GRanges对象即可，上面的代码是比较两个peaks文件的overlap。然后还可以根据R很多包都自带的数据来注释基因组特征：</p>
<blockquote><p>data(TSS.human.GRCh37) ## 主要是借助于这个GRanges对象来做注释，也可以用getAnnotation来获取其它GRanges对象来做注释<br />
## featureType ： TSS, miRNA, Exon, 5'UTR, 3'UTR, transcript or Exon plus UTR<br />
peaks=MUT_rep1_peaks<br />
macs.anno &lt;- annotatePeakInBatch(peaks, AnnotationData=TSS.human.GRCh37,<br />
output="overlapping", maxgap=5000L)</p>
<p>## 得到的macs.anno对象就是已经注释好了的，每个peaks是否在基因上，或者距离基因多远，都是写的清清楚楚<br />
if(require(TxDb.Hsapiens.UCSC.hg19.knownGene)){<br />
aCR&lt;-assignChromosomeRegion(peaks, nucleotideLevel=FALSE,<br />
precedence=c("Promoters", "immediateDownstream",<br />
"fiveUTRs", "threeUTRs",<br />
"Exons", "Introns"),<br />
TxDb=TxDb.Hsapiens.UCSC.hg19.knownGene)<br />
<span style="color: #ff0000;">barplot(aCR$percentage)</span><br />
}</p></blockquote>
<p>得到的条形图如下，虽然很丑，但这就是peaks注释的精髓，搞清楚每个peaks在基因组的位置特征：</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/07/ChIPpeakAnno-genomic-region-distribution.png"><img class="alignnone  wp-image-1753" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/07/ChIPpeakAnno-genomic-region-distribution.png" alt="ChIPpeakAnno-genomic-region-distribution" width="696" height="395" /></a></p>
<p>&nbsp;</p>
<p>同理，对每个peaks文件，都可以做类似的分析！</p>
<p>但是对多个peaks文件，比如本文中的，想比较野生型和突变型MCF7细胞系的 BAF155 immunoprecipitates的结果的不同，就需要做peaks之间的差异分析，已经后续的差异基因注释啦</p>
<p>当然，值得一提的是peaks注释我更喜欢网页版工具，反正peaks文件非常小，直接上传到别人做好的web tools，就可立即出一大堆可视化图表分析结果啦，大家可以去试试看：</p>
<div>
<div><a href="http://chipseek.cgu.edu.tw/">http://chipseek.cgu.edu.tw/</a></div>
</div>
<div>
<div><a href="http://bejerano.stanford.edu/great/public/html/">http://bejerano.stanford.edu/great/public/html/</a></div>
</div>
<div>
<div><a href="http://liulab.dfci.harvard.edu/CEAS/">http://liulab.dfci.harvard.edu/CEAS/</a></div>
<div></div>
<div>虽然我花费了大部分篇幅来描述ChIPpeakAnno这个包的用法，<strong><span style="color: #ff0000;">但是真正的重点是你得明白peaks记录了什么，要注释什么，已经把这3个网页工具的可视化图表分析结果全部看懂，这网页版工具才是重点！！！</span></strong></div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1752.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
