<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; pcr重复</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/pcr%e9%87%8d%e5%a4%8d/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>探究各个步骤对snp-calling的影响</title>
		<link>http://www.bio-info-trainee.com/813.html</link>
		<comments>http://www.bio-info-trainee.com/813.html#comments</comments>
		<pubDate>Mon, 08 Jun 2015 12:51:40 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[杂谈-随笔]]></category>
		<category><![CDATA[pcr重复]]></category>
		<category><![CDATA[snp]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=813</guid>
		<description><![CDATA[做snp-calling时很多标准流程都会提到去除PCR重复这个步骤，但是这个步 &#8230; <a href="http://www.bio-info-trainee.com/813.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<h4><b></b>做snp-calling时很多标准流程都会提到去除PCR重复这个步骤，但是这个步骤对找snp的影响到底有多大呢？这里我们来探究一下</h4>
<p>&nbsp;</p>
<table>
<tbody>
<tr>
<td width="189">去除PCR重复前</td>
<td width="189">样本名</td>
<td width="189">去除PCR重复后</td>
</tr>
<tr>
<td width="189">   106082</td>
<td width="189">BC1-1.snp</td>
<td width="189">103829</td>
</tr>
<tr>
<td width="189">   101443</td>
<td width="189">BC1-2.snp</td>
<td width="189">99500</td>
</tr>
<tr>
<td width="189">   103937</td>
<td width="189">BC2-1.snp</td>
<td width="189">101833</td>
</tr>
<tr>
<td width="189">   102979</td>
<td width="189">BC2-2.snp</td>
<td width="189">101022</td>
</tr>
<tr>
<td width="189">   105876</td>
<td width="189">BC3-1.snp</td>
<td width="189">103562</td>
</tr>
<tr>
<td width="189">   109168</td>
<td width="189">BC3-2.snp</td>
<td width="189">107052</td>
</tr>
<tr>
<td width="189">   107155</td>
<td width="189">BC4-1.snp</td>
<td width="189">104894</td>
</tr>
<tr>
<td width="189">   108335</td>
<td width="189">BC4-2.snp</td>
<td width="189">106031</td>
</tr>
<tr>
<td width="189">   100236</td>
<td width="189">BC5-1.snp</td>
<td width="189">98417</td>
</tr>
<tr>
<td width="189">   102322</td>
<td width="189">BC5-2.snp</td>
<td width="189">100395</td>
</tr>
<tr>
<td width="189">   103466</td>
<td width="189">BC6-1.snp</td>
<td width="189">101405</td>
</tr>
<tr>
<td width="189">   112940</td>
<td width="189">BC6-2.snp</td>
<td width="189">110611</td>
</tr>
<tr>
<td width="189">   113166</td>
<td width="189">BC7-1.snp</td>
<td width="189">110948</td>
</tr>
<tr>
<td width="189">   114038</td>
<td width="189">BC7-2.snp</td>
<td width="189">116090</td>
</tr>
<tr>
<td width="189">   123670</td>
<td width="189">PC1-1.snp</td>
<td width="189">121697</td>
</tr>
<tr>
<td width="189">   111402</td>
<td width="189">PC1-2.snp</td>
<td width="189">109389</td>
</tr>
<tr>
<td width="189">   106917</td>
<td width="189">PC2-1.snp</td>
<td width="189">105149</td>
</tr>
<tr>
<td width="189">   108724</td>
<td width="189">PC2-2.snp</td>
<td width="189">106776</td>
</tr>
</tbody>
</table>
<p>&nbsp;</p>
<p>可以看到去除pcr重复这个脚本对snp-calling的结果影响甚小，就是少了那么一千多个snp，脚本如下，我是用<b>picard-tools进行的去除PCR重复，当然也可以用samtools来进行同样的步骤</b></p>
<p>[shell]</p>
<p>&lt;b&gt;for i in *.sorted.bam&lt;/b&gt;</p>
<p>&lt;b&gt;do&lt;/b&gt;</p>
<p>&lt;b&gt;echo $i&lt;/b&gt;</p>
<p>&lt;b&gt;java  -Xmx120g  -jar /home/jmzeng/snp-calling/resources/apps/picard-tools-1.119/MarkDuplicates.jar \&lt;/b&gt;</p>
<p>&lt;b&gt;CREATE_INDEX=true REMOVE_DUPLICATES=True \&lt;/b&gt;</p>
<p>&lt;b&gt;ASSUME_SORTED=True VALIDATION_STRINGENCY=LENIENT METRICS_FILE=/dev/null \&lt;/b&gt;</p>
<p>&lt;b&gt;INPUT=$i OUTPUT=${i%%.*}.sort.dedup.bam&lt;/b&gt;</p>
<p>&lt;b&gt;done&lt;/b&gt;</p>
<p>[/shell]</p>
<p>然后我们首先看看没有产生变化的那些snp信息的改变</p>
<p><b>head -50  ../rmdup/out/snp/BC1-1.snp  |tail |cut -f 1,2,8</b></p>
<p>chr1 17222 ADP=428;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 17999 ADP=185;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 18091 ADP=147;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 18200 ADP=278;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 24786 ADP=238;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 25072 ADP=24;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29256 ADP=44;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29265 ADP=44;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29790 ADP=351;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29939 ADP=109;WT=0;HET=1;HOM=0;NC=0</p>
<p><b>head -50   BC1-1.snp  |tail |cut -f 1,2,8</b></p>
<p>chr1 17222 ADP=457;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 17999 ADP=196;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 18091 ADP=155;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 18200 ADP=313;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 24786 ADP=254;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 25072 ADP=25;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29256 ADP=46;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29265 ADP=46;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29790 ADP=440;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29939 ADP=123;WT=0;HET=1;HOM=0;NC=0</p>
<p>可以看到，同一位点的snp仍然可以找到，仅仅是对测序深度产生了影响</p>
<p>&nbsp;<br />
然后我们再看看去除PCR重复这个步骤减少了的snp，在原snp里面是怎么样的</p>
<p>perl -alne '{$file++ if eof(ARGV);unless ($file){$hash{"$F[0]_$F[1]"}=1} else {print if not exists $hash{"$F[0]_$F[1]"} } }' ../rmdup/out/snp/BC1-1.snp BC1-1.snp |less</p>
<p>这个脚本就可以把去除PCR重复找到的snp位点在没有去除PCR重复的找到的snp文件里面过滤掉，查看那些去除PCR重复之前独有的snp</p>
<p>Min. 1st Qu.  Median    Mean 3rd Qu.    Max.</p>
<p>8.00    8.00   11.00   44.26   25.00 7966.00</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/06/图片1.png"><img class="alignnone size-full wp-image-814" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/06/图片1.png" alt="图片1" width="747" height="615" /></a></p>
<p>&nbsp;</p>
<p>可以看到被过滤的snp大多都是测序深度太低了的，如下面的例子</p>
<p>chr1 726325 a 9 CCC.ccc,^:, IEHGHHG/9</p>
<p>chr1 726325 a 5 C.c,^:, IGH/9</p>
<p>&nbsp;</p>
<p>chr1 726338 g 16 TTT.ttt,,....,,, IHGI:9&lt;HIIFIHC5H</p>
<p>chr1 726338 g 10 T.t,,...,, II:HIIFH5H</p>
<p>&nbsp;</p>
<p>可以看到这一步还是很有用的，但是怎么说呢，因为最后对snp的过滤本来就包含了一个步骤是对snp的测序深度小于20的给过滤掉</p>
<p>&nbsp;</p>
<p>但是也有个别的测序深度非常高的snp居然也是被去除PCR重复这个步骤给搞没了！很奇怪，我还在探索之中.</p>
<p><b>grep 13777 BC1-1.mpileup  |head</b></p>
<p>chr1 13777 G 263 ........,.C,,,,,.,,,.......,,,..,....,,......,.....c,........,,,,,,,..,...,,,,,.........,......C.......,,,,,,,,,,.....,,,,,,,.,,,..C,,,,,,CC,c,,,...C..,,,,cC.C..CC.CC,,cc,.C...C,,,,CCc,c,,,,,,,c,C.C.CC...C.cc,c...,C.CCcc...,CCC.C.CC..CCC..CC.c,cc,cc,,cc,C.,,^!.^6.^6.^6.^!, HIHIIIIEIEIHGIIIFIHIG?IIIIHIIHIFHIIHICIIIHIIGIEIIGIIIGHIIIIIIHIIHIHIIIIIIIHII1I?GHHHEHHIIEIEHIIEIIHHIIFIIIFHIHIIIIHIHIIHIIHHIIEIIIIIIHIIIIIIIIIG1HIIIIHIHIEHIHIHIIIIIIIIIIIHICIHIIIIIEIIIIHICIHGGIIIIIIIIEHIHIIIIIIHFIGGIIIIGIIIGICIIIHIIIIIIIIIIIHHHIIIIIHIIHDDII&gt;&gt;&gt;&gt;&gt;</p>
<p><b>grep 13777 BC1-1.rmdup.mpileup  |head</b></p>
<p>chr1 13777 G 240 ........,.C,,,,,.,,,.......,,,..,....,,......,....c,......,,,,,,,..,...,,,,,.........,......C......,,,,,,,,,,.....,,,,,,,.,,,..C,,,,,,CC,c,,,...C..,,,,cC..CC.CC,cc,.C...C,,,,CCc,c,,,,,,,cC.C.C..C.c,c...,C.CCcc...,CC.C.CCC..C.c,cc,,c,.,,^!.^6.^6.^!, HIHIIIIEIEIHGIIIFIHIG?IIIIHIIHIFHIIHICIIIHIIGIEIIIIIHIIIIIHIIHIHIIIIIIIHII1I?GHHHEHHIIEIEHIIEIHHIIFIIIFHIHIIIIHIHIIHIIHHIIEIIIIIIHIIIIIIIIIG1HIIIIHIHIEHIHIIIIIIIIIIHICIHIIIIIEIIIIHICIHGGIIIIIIHIHIIIIIHFIGGIIIIGIIIGCIIIIIIIIIIHHIIIHIHDII&gt;&gt;&gt;&gt;</p>
<p>&nbsp;</p>
<p>然后我再搜索了一些</p>
<p>chr8 43092928 . A T . PASS ADP=7966;WT=0;HET=1;HOM=0;NC=0 GT:GQ:SDP:DP:RD:AD:FREQ:PVAL:RBQ:ABQ:RDF:RDR:ADF:ADR 0/1:255:7967:7966:6261:1663:<b>20.9%</b>:0E0:39:39:3647:2614:1224:439</p>
<p>chr8 43092908 . T C . PASS ADP=6968;WT=0;HET=1;HOM=0;NC=0 GT:GQ:SDP:DP:RD:AD:FREQ:PVAL:RBQ:ABQ:RDF:RDR:ADF:ADR 0/1:255:7002:6968:5315:1537:<b>22.06%</b>:0E0:37:38:3022:2293:890:647</p>
<p>chr8 43092898 . T G . PASS ADP=6517;WT=0;HET=1;HOM=0;NC=0 GT:GQ:SDP:DP:RD:AD:FREQ:PVAL:RBQ:ABQ:RDF:RDR:ADF:ADR 0/1:255:6517:6517:4580:1587:<b>24.35%</b>:0E0:38:38:2533:2047:920:667</p>
<p>chr7 100642950 . T C . PASS ADP=770;WT=0;HET=1;HOM=0;NC=0 GT:GQ:SDP:DP:RD:AD:FREQ:PVAL:RBQ:ABQ:RDF:RDR:ADF:ADR 0/1:255:771:770:615:155:<b>20.13%:</b>3.9035E-51:38:38:277:338:65:90</p>
<p>终于发现规律啦！！！原来它们的突变率都略高于20%，在没有去处PCR重复之前，是高于snp的阈值的，但是去除PCR重复对该位点的突变率产生了影响，使之未能通过筛选。</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/813.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
