对CHIP-seq数据call peaks应该选取unique比对的reads吗？

对于CHIP-seq数据处理完全是自学的，所以有很多细节得慢慢学习回来，这次记录的就是当我们把测序仪的fastq数据比对到参考基因组之后，应该对比对的结果文件做什么样的处理，然后去给peaks caller软件拿来call peaks呢？我看过博客提到只保留比对质量值大于30的，也看过博客提到只保留unique比对的reads，我这里拿一篇公共数据测试了一下它们的区别！数据描述如下：

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311

参考流程：https://github.com/jmzeng1314/NGS-pipeline/tree/master/CHIPseq

GSM1916974	H3K27ac ChIP-seq	SRR2774675
GSM1916975	input DNA	SRR2774676

首先在SRA数据库下载 SRR2774675.sra 和 SRR2774676.sra

http://www.ncbi.nlm.nih.gov/sra?term=SRP065184

应用我github的流程很快就可以对比对，我把两种方法处理的比对结果都拿去call peaks，然后得到了，两个peaks文件。

39709 highQuaily_peaks.bed
39709 highQuaily_summits.bed

可以看到两次结果得到的peaks条数并没有显著区别，我们简单看看前几行！

其实用bedtools就可以看看左右两边的文件的交集情况，但是我这里选用了ChIPpeakAnno这个R包集成好的函数，直接得到结果即可！

ChIPpeakAnno 包直接看说明书吧，我这里贴出代码：

library(ChIPpeakAnno)
highPeak <- readPeakFile( 'highQuaily_peaks.bed' )
uniquePeak <- readPeakFile( 'unique_peaks.bed' )
ol <- findOverlapsOfPeaks(highPeak, uniquePeak)
png('overlapVenn.png')
makeVennDiagram(ol)
dev.off()

然后打开画好的韦恩图：

可以看到这两种情况得到的结果几乎没有区别，如果大家感兴趣可以自己看看它们那些独特的peaks到底是什么原因！

结论就是，说明CHIP-seq数据分析的时候，call peaks那个步骤，只保留比对质量值大于30的，或者只保留unique比对的reads，从数据处理的角度来讲差别不大，主要看你具体实验意义。

一	二	三	四	五	六	日
« 九
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

对CHIP-seq数据call peaks应该选取unique比对的reads吗？

SRR2774675

SRR2774676