<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; snp</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/snp/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>仅仅对感兴趣的基因call variation</title>
		<link>http://www.bio-info-trainee.com/2013.html</link>
		<comments>http://www.bio-info-trainee.com/2013.html#comments</comments>
		<pubDate>Mon, 14 Nov 2016 07:20:18 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[bcftools]]></category>
		<category><![CDATA[samtools]]></category>
		<category><![CDATA[snp]]></category>
		<category><![CDATA[variation]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=2013</guid>
		<description><![CDATA[有这个需求，是因为我们经常对某些细胞系进行有针对性的设计变异，比如BAF155的 &#8230; <a href="http://www.bio-info-trainee.com/2013.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>有这个需求，是因为我们经常对某些细胞系进行有针对性的设计变异，比如BAF155的R1064K呀，H3F3A的K27呀，那我我们拿到高通量测序数据的时候，就肯定希望可以快速的看看这个基因是否被突变成功了。现在比对几乎不耗费什么时间了，但是得到的sam要sort的时候还是蛮耗费时间的。假设，我们已经得到了所有样本的sort好的bam文件，想看看自己设计的基因突变是否成功了，可以有针对性的只call 某个基因的突变！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/11/11.png"><img class="alignnone size-full wp-image-2014" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/11/11.png" alt="1" width="328" height="129" /></a></p>
<p><span id="more-2013"></span></p>
<p>代码很简单：</p>
<blockquote><p>grep H3F3A ~/reference/gtf/gencode/protein_coding.hg19.position<br />
samtools mpileup -r chr1:226249552-226259702  -ugf ~/reference/genome/hg19/hg19.fa *sorted.bam | bcftools call -vmO z -o H3F3A.vcf.gz<br />
gunzip H3F3A.vcf.gz<br />
~/biosoft/ANNOVAR/annovar/convert2annovar.pl -format vcf4old H3F3A.vcf &gt;H3F3A.annovar<br />
~/biosoft/ANNOVAR/annovar/annotate_variation.pl -buildver hg19 --geneanno --outfile H3F3A.anno H3F3A.annovar ~/biosoft/ANNOVAR/annovar/humandb/<br />
~/biosoft/ANNOVAR/annovar/annotate_variation.pl -buildver hg19 --dbtype knownGene --geneanno --outfile H3F3A.anno H3F3A.annovar ~/biosoft/ANNOVAR/annovar/humandb/</p></blockquote>
<p>需要自己制作好基因的起始终止坐标文件，这样就可以找到自己的基因的位置，比如我的H3F3A是chr1:226249552-226259702，用bcftoolls简单的call variation即可，得到的vcf文件用annovar注释一下，看看是否在自己设计的蛋白质的某个位点的氨基酸！</p>
<p>PS:需要自己安装annovar，可以看我以前的博客！</p>
<p>是不是很简单呀~</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/2013.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>数据库批量注释不可盲目-annovar数据库错误</title>
		<link>http://www.bio-info-trainee.com/2000.html</link>
		<comments>http://www.bio-info-trainee.com/2000.html#comments</comments>
		<pubDate>Fri, 11 Nov 2016 03:17:42 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[杂谈-随笔]]></category>
		<category><![CDATA[annovar]]></category>
		<category><![CDATA[snp]]></category>
		<category><![CDATA[批量注释]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=2000</guid>
		<description><![CDATA[我对H3F3A这个基因做了两个突变的cellline，分别是G34V和K27M， &#8230; <a href="http://www.bio-info-trainee.com/2000.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>我对H3F3A这个基因做了两个突变的cellline，分别是G34V和K27M，现在知道这个基因在hg38上面的坐标是：</p>
<p>Genomic Location for <span style="color: #ff0000;">H3F3A</span> Gene<br />
Chromosome:  1<br />
Start:226,061,851 bp from pter  End:226,072,002 bp from pter<br />
Size:10,152 bases    Orientation:Plus strand</p>
<p>然后我用samtools结合bcftools把该基因区域的snp位点call出来：</p>
<p>samtools mpileup<strong><span style="color: #ff0000;"> -r chr1:226061851-226072001</span> </strong>-t "DP4" -ugf ~/reference/genome/hg38/hg38.fa  *sorted.bam | bcftools call -vmO z -o  H3F3A.vcf.gz</p>
<p><span id="more-2000"></span></p>
<p>但是得到的vcf只有DP4和染色体起始终止坐标坐标信息，我并不知道该坐标是蛋白质的第几个位点，所以需要注释，我首先想到的就是ANNOVAR啦，毕竟用了它很久。</p>
<p>~/biosoft/ANNOVAR/annovar/convert2annovar.pl -format vcf4old H3F3A.vcf &gt;tmp.annovar<br />
~/biosoft/ANNOVAR/annovar/annotate_variation.pl -buildver hg38 --geneanno --outfile tmp.anno tmp.annovar ~/biosoft/ANNOVAR/annovar/humandb/</p>
<p>但是注释过后，很诡异的事情发生了！只有一个位点被认为是exon什么的，而且造成的蛋白质改变是G35R，很明显不是我所设计的突变位点，我设计的是G34V，它们这么近，我怀疑还是基因坐标表现形式的问题，而且该位点测序深度高达6000，应该是没有问题 的</p>
<p>line4 nonsynonymous SNV H3F3A:NM_002107:exon2:c.G103A:p.G35R, chr1 226064454 226064454 G A hom 219 6592 60</p>
<p>然后我查看了那些不在exon区域的位点，发现了更奇怪的事情，居然全部在H3F3AP4上面，这个时候我就傻眼了，这个假基因命名定位在</p>
<p>/home/jianmingzeng/reference/gtf/gencode/allGene.hg19.position:chr2 175584636 175585046 H3F3AP4<br />
/home/jianmingzeng/reference/gtf/gencode/allGene.hg38.position:chr2 174719908 174720318 H3F3AP4</p>
<p>怎么也不可能跑到chr1来呀！！！！ANNOVAR到底是如何给我注释的！！！！</p>
<p>我只好去查ANNOVAR的database，发现它居然真的有如此无厘头的记录：</p>
<p>grep H3F3AP4 humandb/hg38_refGene.txt<br />
2309 NR_002315 chr1 + 226062726 226072002 226072002 226072002 4 226062726,226064328,226065655,226071350, 226062811,226064479,226065809,226072002, 0 H3F3AP4 unk unk -1,-1,-1,-1,<br />
1918 NR_002315 chr2 + 174719799 174720841 174720841 174720841 1 174719799, 174720841, 0 H3F3AP4 unk unk -1,</p>
<p>一个基因被记录两个位置，让我好生郁闷！！！而且H3F3AP4很明显是与H3F3A重合了的，我敢打包票，肯定是某人写脚本的时候，没有考虑周全，跟我上一个文章提到的原因一模一样，搞这些数据库维护的单位太多了，总会有不一致的地方。</p>
<p>2309 NM_002107 chr1 + 226062706 226072002 226064351 226071479 4 226062706,226064328,226065655,226071350, 226062811,226064479,226065809,226072002, 0 H3F3A cmpl cmpl -1,0,2,0,</p>
<p>所以，当我们尤其是想确认某一个问题的事情，请务必再三检查！！！</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/2000.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>拷贝数变异检测芯片介绍</title>
		<link>http://www.bio-info-trainee.com/1295.html</link>
		<comments>http://www.bio-info-trainee.com/1295.html#comments</comments>
		<pubDate>Wed, 06 Jan 2016 01:00:08 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据格式]]></category>
		<category><![CDATA[cnv]]></category>
		<category><![CDATA[snp]]></category>
		<category><![CDATA[拷贝数]]></category>
		<category><![CDATA[芯片]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1295</guid>
		<description><![CDATA[这里的拷贝数变异检测芯片指的是Affymetrix Genome-Wide Hu &#8230; <a href="http://www.bio-info-trainee.com/1295.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>这里的拷贝数变异检测芯片指的是Affymetrix Genome-Wide Human SNP Array 6.0</p>
<div>cel数据，需要处理成segment及genotype数据</div>
</div>
<div>这个芯片在TCGA计划里面用的非常多，是标配了。大家只要记住，这是一个跟拷贝数变异检测相关的芯片，而且还可以测一些genotype <span class="Apple-converted-space"> </span></div>
<div>Affymetrix Genome-Wide Human SNP Array 6.0是唯一可以真正将CNP(拷贝数多态性)转化成高分辨率的参考图谱的平台。主要应用领域包括全基因组SNP分型、全基因组CNV分型、全基因组关联 分析、全基因组连锁分析。除了进行基因分型外，还为拷贝数研究和LOH研究提供帮助，从而能够进行：UPD检测、亲子鉴定、异常的亲代起源分析（针对 UPD和缺失）、纯合性分析、血缘关系鉴定。</div>
<div>参考：<a href="http://www.affymetrix.com/support/technical/byproduct.affx?product=genomewidesnp_6">http://www.affymetrix.com/support/technical/byproduct.affx?product=genomewidesnp_6</a></div>
<div></div>
<div>SNP Array 6.0是昂飞公司继Mapping10k、100k、500k和SNP5.0芯片后推出的新一代SNP芯片。在一张芯片上可以分析一个样本<b>906,600 个SNP的基因型</b>, 大约有482，000个SNP来自于前代产品500K和SNP5.0芯片。剩下424，000个SNP包括了来源于国际HapMap计划中的标签 SNP，X，Y染色体和线粒体上更具代表性的SNP,以及来自于重组热点区域和500K芯片设计完成后新加入dbSNP数据库的SNP。<b>该芯片同时含 946,000个非多态性CNV探针</b>，用于检测拷贝数变异，其中202,000个用于检测5677个已知拷贝数变异区域的探针，这些区域来源于多伦多基因 组变异体数据库。该数据库中每隔3,182个非重叠片段区域分别用61个探针来检测。除了检测这些已知的拷贝数多态区域，还有超过744,000个探针平 均分配到整个基因组上，用来发现未知的拷贝数变异区域。SNP和CNV两种探针高密度且均匀地分布在整个基因组<b>，作为拷贝数变异和杂合性缺失(LOH)检 测的工具来发现微小的染色体增加和缺失</b>。为广大生命科学研究者提高发现复杂疾病相关基因的可能提供了强有力的工具。<br />
通过与哈佛大学合办的Broad研究所合作，SNP6.0芯片在数据准确性和一致性方面达到了新的高度。相应推出的Genotyping Console用来处理SNP6.0芯片数据和全基因组遗传分析及质量控制。</div>
<div>
<p><strong>产品特点：</strong></p>
<p>1.涵盖超过1,800,000个遗传变异标志物：包括超过<b>906,600个SNP和超过946,000个用于检测拷贝数变化（CNV，Copy Number Variation）</b>的探针；</p>
<p>2.SNP和CNV两种探针高密度且均匀地分布在整个基因组，不仅可以用于SNP基因精确分型，还可用于拷贝数变异CNV的研究；</p>
<p>3.744,000个探针平均分配到整个基因组上，用来发现未知的拷贝数变异区域；</p>
<p>4.可用于Copy-neutral LOH/UPD检测，亲子鉴定，纯合性分析、血缘关系鉴定、遗传病或其它疾病的研究。</p>
<p>参考：<a href="http://www.biomart.cn/specials/cnv2014/article/84169">http://www.biomart.cn/specials/cnv2014/article/84169</a></div>
<div>在NCBI的GEO数据库里面可以查到这个芯片，已经有一万多个样本数据啦!</div>
<div>图中第一个是CCLE计划的近千个样本，可能是定制化了的snp6.0芯片吧</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/clipboard.png"><img class="alignnone size-full wp-image-1296" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/clipboard.png" alt="clipboard" width="1028" height="343" /></a></div>
<div>使用这个芯片数据来发文章的非常多，见列表：<a href="http://media.affymetrix.com/support/technical/other/snp6_array_publications.pdf">http://media.affymetrix.com/support/technical/other/snp6_array_publications.pdf</a></div>
<div>还有一篇2010-nature文章讲了如何用picnic来研究cnv，<a href="http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3145113/">http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3145113/</a></div>
<div>也有一篇2010年的文章提出了新的软件来分析这个芯片cnv数据<a href="http://bioinformatics.oxfordjournals.org/content/26/11/1395.long">http://bioinformatics.oxfordjournals.org/content/26/11/1395.long</a></div>
<div>实现同样功能的软件，非常之多，还有一个R的bioconductor系列的包</div>
<div><a href="http://www.bioconductor.org/help/search/index.html?q=cnv/">http://www.bioconductor.org/help/search/index.html?q=cnv/</a></div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/clipboard2.png"><img class="alignnone size-full wp-image-1297" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/clipboard2.png" alt="clipboard2" width="710" height="602" /></a></div>
<div>随便进去都可以找到很多raw data，可以自己进行分析的！</div>
<div><a href="http://www.ncbi.nlm.nih.gov/geo/browse/?view=samples&amp;platform=6801">http://www.ncbi.nlm.nih.gov/geo/browse/?view=samples&amp;platform=6801</a></div>
<div>比如：<a href="ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM1949nnn/GSM1949207/suppl/GSM1949207_SB_CID0102B_071708.CEL.gz">ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM1949nnn/GSM1949207/suppl/GSM1949207%5FSB%5FCID0102B%5F071708%2ECEL%2Egz</a></div>
<div></div>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1295.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>WES（三）snp-filter</title>
		<link>http://www.bio-info-trainee.com/1137.html</link>
		<comments>http://www.bio-info-trainee.com/1137.html#comments</comments>
		<pubDate>Sun, 01 Nov 2015 10:02:59 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[全外显子组软件]]></category>
		<category><![CDATA[snp]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1137</guid>
		<description><![CDATA[其中freebayes,bcftools,gatk都是把所有的snp细节都cal &#8230; <a href="http://www.bio-info-trainee.com/1137.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>其中freebayes,bcftools,gatk都是把所有的snp细节都call出来了，可以看到下面这些软件的结果有的高达一百多万个snp，而一般文献都说外显子组测序可鉴定约8万个变异！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0013.png"><img class="alignnone size-full wp-image-1139" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0013.png" alt="image001" width="410" height="305" /></a></p>
<p>这样得到突变太多了，所以需要过滤。这里过滤的统一标准都是qual大于20，测序深度大于10。过滤之后的snp数量如下</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0023.png"><img class="alignnone size-full wp-image-1140" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0023.png" alt="image002" width="413" height="241" /></a></p>
<p>perl -alne '{next if $F[5]&lt;20;/DP=(\d+)/;next if $1&lt;10;next if /INDEL/;/(DP4=.*?);/;print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$1"}' Sample3.bcftools.vcf &gt;Sample3.bcftools.vcf.filter</p>
<p>perl -alne '{next if $F[5]&lt;20;/DP=(\d+)/;next if $1&lt;10;next if /INDEL/;/(DP4=.*?);/;print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$1"}' Sample4.bcftools.vcf &gt;Sample4.bcftools.vcf.filter</p>
<p>perl -alne '{next if $F[5]&lt;20;/DP=(\d+)/;next if $1&lt;10;next if /INDEL/;/(DP4=.*?);/;print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$1"}' Sample5.bcftools.vcf &gt;Sample5.bcftools.vcf.filter</p>
<p>&nbsp;</p>
<p>perl -alne '{next if $F[5]&lt;20;/DP=(\d+)/;next if $1&lt;10;next unless /TYPE=snp/;@tmp=split/:/,$F[9];print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$tmp[0]:$tmp[1]"}'  Sample3.freebayes.vcf &gt; Sample3.freebayes.vcf.filter</p>
<p>perl -alne '{next if $F[5]&lt;20;/DP=(\d+)/;next if $1&lt;10;next unless /TYPE=snp/;@tmp=split/:/,$F[9];print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$tmp[0]:$tmp[1]"}'  Sample4.freebayes.vcf &gt; Sample4.freebayes.vcf.filter</p>
<p>perl -alne '{next if $F[5]&lt;20;/DP=(\d+)/;next if $1&lt;10;next unless /TYPE=snp/;@tmp=split/:/,$F[9];print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$tmp[0]:$tmp[1]"}'  Sample5.freebayes.vcf &gt; Sample5.freebayes.vcf.filter</p>
<p>&nbsp;</p>
<p>perl -alne '{next if $F[5]&lt;20;/DP=(\d+)/;next if $1&lt;10;next if length($F[3]) &gt;1;next if length($F[4]) &gt;1;@tmp=split/:/,$F[9];print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$tmp[0]:$tmp[1]:$tmp[2]"}'  Sample3.gatk.UG.vcf  &gt;Sample3.gatk.UG.vcf.filter</p>
<p>perl -alne '{next if $F[5]&lt;20;/DP=(\d+)/;next if $1&lt;10;next if length($F[3]) &gt;1;next if length($F[4]) &gt;1;@tmp=split/:/,$F[9];print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$tmp[0]:$tmp[1]:$tmp[2]"}'  Sample4.gatk.UG.vcf  &gt;Sample4.gatk.UG.vcf.filter</p>
<p>perl -alne '{next if $F[5]&lt;20;/DP=(\d+)/;next if $1&lt;10;next if length($F[3]) &gt;1;next if length($F[4]) &gt;1;@tmp=split/:/,$F[9];print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$tmp[0]:$tmp[1]:$tmp[2]"}'  Sample5.gatk.UG.vcf  &gt;Sample5.gatk.UG.vcf.filter</p>
<p>&nbsp;</p>
<p>perl -alne '{@tmp=split/:/,$F[9];next if $tmp[3]&lt;10;print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$tmp[0]:$tmp[3]"}' Sample3.varscan.snp.vcf &gt;Sample3.varscan.snp.vcf.filter</p>
<p>perl -alne '{@tmp=split/:/,$F[9];next if $tmp[3]&lt;10;print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$tmp[0]:$tmp[3]"}' Sample4.varscan.snp.vcf &gt;Sample4.varscan.snp.vcf.filter</p>
<p>perl -alne '{@tmp=split/:/,$F[9];next if $tmp[3]&lt;10;print "$F[0]\t$F[1]\t$F[3]\t$F[4]:$tmp[0]:$tmp[3]"}' Sample5.varscan.snp.vcf &gt;Sample5.varscan.snp.vcf.filter</p>
<p>这样不同工具产生的snp记录数就比较整齐了，我们先比较四种不同工具的call snp的情况，然后再比较三个人的区别。</p>
<p>然后写了一个程序把所有的snp合并起来比较</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0033.png"><img class="alignnone size-full wp-image-1141" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0033.png" alt="image003" width="493" height="562" /></a></p>
<p>得到了一个很有趣的表格，我放在excel里面看了看 ，主要是要看生物学意义，但是我的生物学知识好多都忘了，得重新学习了 <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0043.png"><img class="alignnone size-full wp-image-1142" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0043.png" alt="image004" width="955" height="454" /></a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1137.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>WES（二）snp-calling</title>
		<link>http://www.bio-info-trainee.com/1114.html</link>
		<comments>http://www.bio-info-trainee.com/1114.html#comments</comments>
		<pubDate>Sun, 01 Nov 2015 10:00:37 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[全外显子组软件]]></category>
		<category><![CDATA[snp]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1114</guid>
		<description><![CDATA[准备文件：下载必备的软件和参考基因组数据 1、软件 ps：还有samtools， &#8230; <a href="http://www.bio-info-trainee.com/1114.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>准备文件：下载必备的软件和参考基因组数据</p>
<p>1、软件</p>
<p>ps：还有samtools，freebayes和varscan软件，我以前下载过，这次就没有再弄了，但是下面会用到</p>
<p>2、参考基因组</p>
<p>3、参考 突变数据</p>
<p>第一步，下载数据</p>
<p>第二步，bwa比对</p>
<p>第三步，sam转为bam，并sort好</p>
<p>第四步，标记PCR重复，并去除</p>
<p>第五步，产生需要重排的坐标记录</p>
<p>第六步，根据重排记录文件把比对结果重新比对</p>
<p>第七步，把最终的bam文件转为mpileup文件</p>
<p>第八步，用bcftools 来call snp</p>
<p>第九步，用freebayes来call snp</p>
<p>第十步，用gatk     来call snp</p>
<p>第十一步，用varscan来call snp</p>
<p>下面的图片是按照顺序来的，我就不整理了</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0012.png"><img class="alignnone size-full wp-image-1115" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0012.png" alt="image001" width="762" height="252" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0022.png"><img class="alignnone size-full wp-image-1116" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0022.png" alt="image002" width="411" height="162" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0032.png"><img class="alignnone size-full wp-image-1117" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0032.png" alt="image003" width="677" height="128" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0042.png"><img class="alignnone size-full wp-image-1118" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0042.png" alt="image004" width="505" height="126" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0051.png"><img class="alignnone size-full wp-image-1119" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0051.png" alt="image005" width="518" height="327" /></a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image006.png"><img class="alignnone size-full wp-image-1120" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image006.png" alt="image006" width="298" height="63" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image007.png"><img class="alignnone size-full wp-image-1121" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image007.png" alt="image007" width="589" height="389" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image008.png"><img class="alignnone size-full wp-image-1122" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image008.png" alt="image008" width="385" height="129" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image009.png"><img class="alignnone size-full wp-image-1123" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image009.png" alt="image009" width="783" height="222" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image010.png"><img class="alignnone size-full wp-image-1124" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image010.png" alt="image010" width="368" height="126" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image011.png"><img class="alignnone size-full wp-image-1125" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image011.png" alt="image011" width="871" height="256" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image012.png"><img class="alignnone size-full wp-image-1126" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image012.png" alt="image012" width="356" height="67" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image013.png"><img class="alignnone size-full wp-image-1127" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image013.png" alt="image013" width="783" height="241" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image014.png"><img class="alignnone size-full wp-image-1128" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image014.png" alt="image014" width="376" height="129" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image015.png"><img class="alignnone size-full wp-image-1129" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image015.png" alt="image015" width="704" height="122" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image016.png"><img class="alignnone size-full wp-image-1130" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image016.png" alt="image016" width="385" height="68" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image017.png"><img class="alignnone size-full wp-image-1131" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image017.png" alt="image017" width="726" height="157" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image018.png"><img class="alignnone size-full wp-image-1132" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image018.png" alt="image018" width="562" height="137" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image019.png"><img class="alignnone size-full wp-image-1133" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image019.png" alt="image019" width="469" height="288" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image020.png"><img class="alignnone size-full wp-image-1134" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image020.png" alt="image020" width="715" height="151" /></a> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image021.png"><img class="alignnone size-full wp-image-1135" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image021.png" alt="image021" width="445" height="309" /></a></p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1114.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>3000多份水稻全基因组测序数据共享-主要是突变数据</title>
		<link>http://www.bio-info-trainee.com/1053.html</link>
		<comments>http://www.bio-info-trainee.com/1053.html#comments</comments>
		<pubDate>Fri, 16 Oct 2015 11:35:01 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[未分类]]></category>
		<category><![CDATA[snp]]></category>
		<category><![CDATA[水稻]]></category>
		<category><![CDATA[突变]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1053</guid>
		<description><![CDATA[感觉最近接触的生物信息学知识越多，越对大数据时代的到来更有同感了。现在的研究者， &#8230; <a href="http://www.bio-info-trainee.com/1053.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>感觉最近接触的生物信息学知识越多，越对大数据时代的到来更有同感了。现在的研究者，其实很多都可以自己在家里做了，大量的数据基本都是公开的， 但是一个人闭门造车成就真的有限，与他人交流的思想碰撞还是蛮重要的。</p>
<div><a href="https://aws.amazon.com/cn/blogs/aws/new-aws-public-data-set-3000-rice-genome/">https://aws.amazon.com/cn/blogs/aws/new-aws-public-data-set-3000-rice-genome/</a></div>
<div><a href="https://aws.amazon.com/cn/public-data-sets/3000-rice-genome/">https://aws.amazon.com/cn/public-data-sets/3000-rice-genome/</a></div>
<div><a href="https://wiki.dnanexus.com/Featured-Projects/3000-rice-genomes">https://wiki.dnanexus.com/Featured-Projects/3000-rice-genomes</a></div>
<div>这里面列出了3000多份水稻全基因组测序数据，都共享在亚马逊云上面，是全基因组的双端测序数据，共3,024个水稻数据，比对到了五种不同的水稻参考基因组上面，而且主要是用GATK来找差异基因的。</div>
<div>而且，数据收集者还给出了一个snp calling的标准流程</div>
<div>
<pre>我以前也是用这样的流程
SNP Pipeline Commands

1. Index the reference genome using bwa index

   /software/bwa-0.7.10/bwa index /reference/japonica/reference.fa

2. Align the paired reads to reference genome using bwa mem. 
   Note: Specify the number of threads or processes to use using the -t parameter. The possible number of threads depends on the machine where the command will run.

   /software/bwa-0.7.10/bwa mem -M -t 8 /reference/japonica/reference.fa /reads/filename_1.fq.gz /reads/filename_2.fq.gz &gt; /output/filename.sam

3. Sort SAM file and output as BAM file

   java -Xmx8g -jar /software/picard-tools-1.119/SortSam.jar INPUT=/output/filename.sam OUTPUT=/output/filename.sorted.bam VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE

4. Fix mate information

   java -Xmx8g -jar /software/picard-tools-1.119/FixMateInformation.jar INPUT=/output/filename.sorted.bam OUTPUT=/output/filename.fxmt.bam SO=coordinate VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE

5. Mark duplicate reads

   java -Xmx8g -jar /software/picard-tools-1.119/MarkDuplicates.jar INPUT=/output/filename.fxmt.bam OUTPUT=/output/filename.mkdup.bam METRICS_FILE=/output/filename.metrics VALIDATION_STRINGENCY=LENIENT CREATE_INDEX=TRUE MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000

6. Add or replace read groups

   java -Xmx8g -jar /software/picard-tools-1.119/AddOrReplaceReadGroups.jar INPUT=/output/filename.mkdup.bam OUTPUT=/output/filename.addrep.bam RGID=readname PL=Illumina SM=readname CN=BGI VALIDATION_STRINGENCY=LENIENT SO=coordinate CREATE_INDEX=TRUE

7. Create index and dictionary for reference genome

   /software/samtools-1.0/samtools faidx /reference/japonica/reference.fa
   
   java -Xmx8g -jar /software/picard-tools-1.119/CreateSequenceDictionary.jar REFERENCE=/reference/japonica/reference.fa OUTPUT=/reference/reference.dict

8. Realign Target 

   java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T RealignerTargetCreator -I /output/filename.addrep.bam -R /reference/japonica/reference.fa -o /output/filename.intervals -fixMisencodedQuals -nt 8

9. Indel Realigner

   java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T IndelRealigner -fixMisencodedQuals -I /output/filename.addrep.bam -R /reference/japonica/reference.fa -targetIntervals /output/filename.intervals -o /output/filename.realn.bam 

10. Merge individual BAM files if there are multiple read pairs per sample

   /software/samtools-1.0/samtools merge /output/filename.merged.bam /output/*.realn.bam

11. Call SNPs using Unified Genotyper

   java -Xmx8g -jar /software/GenomeAnalysisTK-3.2-2/GenomeAnalysisTK.jar -T UnifiedGenotyper -R /reference/japonica/reference.fa -I /output/filename.merged.bam -o filename.merged.vcf -glm BOTH -mbq 20 --genotyping_mode DISCOVERY -out_mode EMIT_ALL_SITES</pre>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1053.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用freebayes来call snps</title>
		<link>http://www.bio-info-trainee.com/1011.html</link>
		<comments>http://www.bio-info-trainee.com/1011.html#comments</comments>
		<pubDate>Thu, 24 Sep 2015 13:20:26 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[freebayes]]></category>
		<category><![CDATA[snp]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1011</guid>
		<description><![CDATA[软件地址：http://clavius.bc.edu/~erik/freebay &#8230; <a href="http://www.bio-info-trainee.com/1011.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>软件地址：<a href="http://clavius.bc.edu/~erik/freebayes/">http://clavius.bc.edu/~erik/freebayes/</a></p>
<div>软件教程：<a href="http://clavius.bc.edu/~erik/CSHL-advanced-sequencing/freebayes-tutorial.html">http://clavius.bc.edu/~erik/CSHL-advanced-sequencing/freebayes-tutorial.html</a></div>
</div>
<div>step1：，软件安装</div>
<div>
<pre><code>wget http://clavius.bc.edu/~erik/freebayes/freebayes-5d5b8ac0.tar.gz
tar xzvf freebayes-5d5b8ac0.tar.gz
cd freebayes
make
一个小插曲，安装的过程报错：/bin/sh: 1: cmake: not found
所以我需要自己下载安装cmake，然后把cmake添加到环境变量
</code></pre>
<p>首先下载源码包http://www.cmake.org/cmake/resources/software.html</p>
<p>wget http://cmake.org/files/v3.3/cmake-3.3.2.tar.gz</p>
<pre class="brush: bash; title: Example; notranslate" title="Example"> 解压进去，然后源码安装三部曲,首先 ./configu  然后make 最后make install  
</pre>
<p>cmake 会默认安装在 /usr/local/bin 下面<code>，这里需要修改，因为你可能没有 /usr/local/bin 权限,安装到自己的目录，然后把它添加到环境变量！<br />
</code></p>
<p>step2：准备数据</p>
</div>
<div>an alignment file (in<span class="Apple-converted-space"> </span><a href="https://en.wikipedia.org/wiki/BAM_format">BAM</a><span class="Apple-converted-space"> </span>format)</div>
<div>a<span class="Apple-converted-space"> </span><a href="https://en.wikipedia.org/wiki/Reference_genome">reference genome</a><span class="Apple-converted-space"> </span>in (uncompressed)<span class="Apple-converted-space"> </span><a href="https://en.wikipedia.org/wiki/FASTA_format">FASTA format</a>.</div>
<div>正好我的服务器里面有很多</div>
<div>不过，该软件也可以出了一个测试数据集</div>
<div>
<pre><code>wget http://bioinformatics.bc.edu/marthlab/download/gkno-cshl-2013/chr20.fa</code></pre>
<pre><code>wget ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/data/NA12878/alignment/NA12878.chrom20.ILLUMINA.bwa.CEU.low_coverage.20121211.bam
wget ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/data/NA12878/alignment/NA12878.chrom20.ILLUMINA.bwa.CEU.low_coverage.20121211.bam.bai</code></pre>
<p>用这个代码就可以下载千人基因组计划的NA12878样本的第20号染色体相关数据啦</p>
</div>
<div></div>
<div>step3：运行命令</div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">网站给出的实例是：</span></div>
<div>
<pre><code>freebayes -f chr20.fa \
    NA12878.chrom20.ILLUMINA.bwa.CEU.low_coverage.20121211.bam &gt;NA12878.chr20.freebayes.vcf</code></pre>
<p><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">一般就用默认参数即可</span></p>
</div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;"> </span></div>
<div>step4：输出结果解读</div>
<div>没什么好解读的了，反正是vcf文件，都看烂了，就那些东西</div>
<div>不过该软件的作者倒是拿该软件与broad用GATK做出的NA12878样本的突变数据做了比较</div>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1011.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GATK使用注意事项</title>
		<link>http://www.bio-info-trainee.com/838.html</link>
		<comments>http://www.bio-info-trainee.com/838.html#comments</comments>
		<pubDate>Mon, 06 Jul 2015 23:27:05 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[生信基础]]></category>
		<category><![CDATA[bwa]]></category>
		<category><![CDATA[gatk]]></category>
		<category><![CDATA[picard]]></category>
		<category><![CDATA[samtools]]></category>
		<category><![CDATA[snp]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=838</guid>
		<description><![CDATA[GATK这个软件在做snp-calling的时候使用率非常高，因为之前一直是简单 &#8230; <a href="http://www.bio-info-trainee.com/838.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>GATK这个软件在做snp-calling的时候使用率非常高，因为之前一直是简单粗略的看看snp情况而已，所以没有具体研究它。</p>
<p>这些天做一些外显子项目以找snp为重点，所以想了想还是用起它，报错非常多，调试了好久才成功。</p>
<p>所以记录一些注意事项!</p>
<p>GATK软件本身是受版权保护的，所以需要申请才能下载使用，大家自己去broad institute申请即可。</p>
<p>下载软件就可以直接使用，java软件不需要安装，但是需要你的机器上面有java，当然软件只是个开始，重点是你还得下载很多配套数据，<a href="https://software.broadinstitute.org/gatk/download/bundle" target="_blank">https://software.broadinstitute.org/gatk/download/bundle</a>（ps:这个链接可能会失效，下面的文件，请自己谷歌找到地址哈。），而且这个时候要明确你的参考基因组版本了！！！ <span style="color: #ff6600;">b36/b37/hg18/hg19/hg38，记住b37和hg19并不是完全一样的，有些微区别哦！！！</span><br />
<span id="more-838"></span></p>
<p>比如我选择了hg19</p>
<p>第一点是hg19的下载：这个下载地址非常多，常用的就是NCBI，ensembl和UCSC了，但是这里推荐用这个脚本下载</p>
<p>for i in $(seq 1 22) X Y M;</p>
<p>do echo $i;</p>
<p>wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;</p>
<p>done</p>
<p>gunzip *.gz</p>
<p>for i in $(seq 1 22) X Y M;</p>
<p>do cat chr${i}.fa &gt;&gt; hg19.fasta;</p>
<p>done</p>
<p>rm -fr chr*.fasta</p>
<p>看得懂shell脚本的应该知道这是一个个的下载hg19的染色体，再用cat按照染色体的顺序拼接起来，因为GATK后面的一些步骤对染色体顺序要求非常变态，如果下载整个hg19，很难保证染色体顺序是1-22，X,Y,M。如下</p>
<p>然后需要对下载的hg19进行索引（bwa和samtools）和建立dict文件（用picard）</p>
<p>bwa index -a bwtsw hg19.fasta</p>
<p>samtools faidx hg19.fasta</p>
<p>然后还要下载几个参考文件，这个是可以选择的.</p>
<p>对我的hg19来说，就应该是去，ftp://ftp.broadinstitute.org/bundle/hg19/ 下载咯。</p>
<p><strong><span style="color: #ff6600;">最后，所有必备的文件如下：</span></strong></p>
<p>231M Jul 2 05:14 1000G_phase1.indels.hg19.sites.vcf<br />
1.2M Jul 2 10:45 1000G_phase1.indels.hg19.sites.vcf.idx<br />
11G Jul 2 08:05 dbsnp_138.hg19.vcf<br />
2.5K Jul 1 04:31 hg19.dict<br />
3.0G Jun 30 21:29 hg19.fasta<br />
6.6K Jun 30 22:54 hg19.fasta.amb<br />
944 Jun 30 22:54 hg19.fasta.ann<br />
2.9G Jun 30 22:54 hg19.fasta.bwt<br />
788 Jul 2 01:53 hg19.fasta.fai<br />
739M Jun 30 22:54 hg19.fasta.pac<br />
1.5G Jun 30 23:23 hg19.fasta.sa<br />
87M Jul 2 05:37 Mills_and_1000G_gold_standard.indels.hg19.sites.vcf<br />
2.3M Jul 2 10:45 Mills_and_1000G_gold_standard.indels.hg19.sites.vcf.idx</p>
<p>&nbsp;</p>
<p>接下来开始跑程序</p>
<p>第一步就是生成sam文件啦bwa mem -t 12 -M  hg19.fasta tmp*fq &gt;tmp.sam</p>
<p>第二步是sort，我用的是picard工具java  -Xmx100g -jar AddOrReplaceReadGroups.jar I=tmp.sam  O=tmp.sorted.bam</p>
<p>SORT_ORDER=coordinate</p>
<p>CREATE_INDEX=true</p>
<p>RGID=tmp</p>
<p>RGLB="pe"</p>
<p>RGPU="HiSeq-2000"</p>
<p>RGSM=PC3-2</p>
<p>RGCN="Human Genetics of Infectious Disease"</p>
<p>RGDS=hg19 RGPL=illumina</p>
<p>VALIDATION_STRINGENCY=SILENT</p>
<p>第三步是去除PCR重复，我还是选择用picard工具</p>
<p>java  -Xmx100g  -jar MarkDuplicates.jar</p>
<p>CREATE_INDEX=true REMOVE_DUPLICATES=True</p>
<p>ASSUME_SORTED=True VALIDATION_STRINGENCY=LENIENT</p>
<p>I=tmp.sorted.bam OUTPUT=tmp.dedup.bam METRICS_FILE=tmp.metrics</p>
<p>第四步是终于要开始用GATK啦，主要是确定要进行重新比对的区域，这个步骤分成三个小步骤：</p>
<p>首先用RealignerTargetCreator找到需要重新比对的区域，输出文件intervals</p>
<p>java -Xmx200g -jar ~/apps/gatk/GenomeAnalysisTK.jar</p>
<p>-R hg19.fasta  #这里需要用这个参考基因组，所以参考基因组特别重要，DICT也要按照流程生成</p>
<p>-T RealignerTargetCreator</p>
<p>-I tmp.dedup.bam -o tmp.intervals</p>
<p>-known /home/ldzeng/EXON/ref/1000G_phase1.indels.hg19.sites.vcf</p>
<p>这一步骤好像非常耗时</p>
<p>&nbsp;</p>
<p>可以看到，我总共就测试了5014个reads，结果就花了近半个小时才搞定，只有947个reads被过滤了。</p>
<p>输出的tmp.intervals 文件是一个1404946行的文件</p>
<p>chr1:13957-13958</p>
<p>chr1:46402-46403</p>
<p>chr1:47190-47191</p>
<p>chr1:52185-52188</p>
<p>chr1:53234-53236</p>
<p>chr1:55249-55250</p>
<p>chr1:63735-63738</p>
<p>人的外显子只有二三十万，所以我暂时也不确定这个文件是什么！</p>
<p>&nbsp;</p>
<p>然后用输出的 tmp.intervals 做输入文件来进行重新比对，也就是用IndelRealigner在这些区域内进行重新比对</p>
<p>java -Xmx150g -jar ~/apps/gatk/GenomeAnalysisTK.jar \</p>
<p>-R hg19.fasta \</p>
<p>-T IndelRealigner \</p>
<p>-targetIntervals tmp.intervals \</p>
<p>-I tmp.dedup.bam -o tmp.dedup.realgn.bam \</p>
<p>-known /home/ldzeng/EXON/ref/1000G_phase1.indels.hg19.sites.vcf</p>
<p>&nbsp;</p>
<p>我只需要它的重新比对，所以后面的一些功能没有怎么用，一个是call snp，一个是算比对质量值</p>
<p>java -Xmx200g -jar ~apps/gatk/GenomeAnalysisTK.jar</p>
<p>-nct 20 -T HaplotypeCaller -R hg19.fasta</p>
<p>-I tmp.dedup.realgn.bam</p>
<p>-o tmp.gatk.vcf</p>
<p>最后输出的文件如下</p>
<p>639K Jul 5 10:17 tmp1.fq<br />
639K Jul 5 10:19 tmp2.fq<br />
1.5M Jul 5 10:26 tmp.dedup.bai<br />
403K Jul 5 10:26 tmp.dedup.bam<br />
12K Jul 5 12:02 tmp.gatk.vcf<br />
3.4K Jul 5 12:02 tmp.gatk.vcf.idx<br />
32M Jul 5 11:24 tmp.intervals<br />
950 Jul 5 10:26 tmp.metrics<br />
1.5M Jul 5 11:31 tmp.realgn.bai<br />
409K Jul 5 11:31 tmp.realgn.bam<br />
1.6M Jul 5 10:20 tmp.sam<br />
1.5M Jul 5 10:23 tmp.sorted.bai<br />
399K Jul 5 10:23 tmp.sorted.bam</p>
<p>&nbsp;</p>
<p>备注：GATK对基因组要求一个字典文件</p>
<p>使用picard工具包的CreateSequenceDictionary.jar生成。以hg19.fa为例，生成的命令为：</p>
<div>    java -Xmx2g -jar /path_to_picard/CreateSequenceDictionary.jar R=hg19.fa O=hg19.dict</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/838.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>探究各个步骤对snp-calling的影响</title>
		<link>http://www.bio-info-trainee.com/813.html</link>
		<comments>http://www.bio-info-trainee.com/813.html#comments</comments>
		<pubDate>Mon, 08 Jun 2015 12:51:40 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[杂谈-随笔]]></category>
		<category><![CDATA[pcr重复]]></category>
		<category><![CDATA[snp]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=813</guid>
		<description><![CDATA[做snp-calling时很多标准流程都会提到去除PCR重复这个步骤，但是这个步 &#8230; <a href="http://www.bio-info-trainee.com/813.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<h4><b></b>做snp-calling时很多标准流程都会提到去除PCR重复这个步骤，但是这个步骤对找snp的影响到底有多大呢？这里我们来探究一下</h4>
<p>&nbsp;</p>
<table>
<tbody>
<tr>
<td width="189">去除PCR重复前</td>
<td width="189">样本名</td>
<td width="189">去除PCR重复后</td>
</tr>
<tr>
<td width="189">   106082</td>
<td width="189">BC1-1.snp</td>
<td width="189">103829</td>
</tr>
<tr>
<td width="189">   101443</td>
<td width="189">BC1-2.snp</td>
<td width="189">99500</td>
</tr>
<tr>
<td width="189">   103937</td>
<td width="189">BC2-1.snp</td>
<td width="189">101833</td>
</tr>
<tr>
<td width="189">   102979</td>
<td width="189">BC2-2.snp</td>
<td width="189">101022</td>
</tr>
<tr>
<td width="189">   105876</td>
<td width="189">BC3-1.snp</td>
<td width="189">103562</td>
</tr>
<tr>
<td width="189">   109168</td>
<td width="189">BC3-2.snp</td>
<td width="189">107052</td>
</tr>
<tr>
<td width="189">   107155</td>
<td width="189">BC4-1.snp</td>
<td width="189">104894</td>
</tr>
<tr>
<td width="189">   108335</td>
<td width="189">BC4-2.snp</td>
<td width="189">106031</td>
</tr>
<tr>
<td width="189">   100236</td>
<td width="189">BC5-1.snp</td>
<td width="189">98417</td>
</tr>
<tr>
<td width="189">   102322</td>
<td width="189">BC5-2.snp</td>
<td width="189">100395</td>
</tr>
<tr>
<td width="189">   103466</td>
<td width="189">BC6-1.snp</td>
<td width="189">101405</td>
</tr>
<tr>
<td width="189">   112940</td>
<td width="189">BC6-2.snp</td>
<td width="189">110611</td>
</tr>
<tr>
<td width="189">   113166</td>
<td width="189">BC7-1.snp</td>
<td width="189">110948</td>
</tr>
<tr>
<td width="189">   114038</td>
<td width="189">BC7-2.snp</td>
<td width="189">116090</td>
</tr>
<tr>
<td width="189">   123670</td>
<td width="189">PC1-1.snp</td>
<td width="189">121697</td>
</tr>
<tr>
<td width="189">   111402</td>
<td width="189">PC1-2.snp</td>
<td width="189">109389</td>
</tr>
<tr>
<td width="189">   106917</td>
<td width="189">PC2-1.snp</td>
<td width="189">105149</td>
</tr>
<tr>
<td width="189">   108724</td>
<td width="189">PC2-2.snp</td>
<td width="189">106776</td>
</tr>
</tbody>
</table>
<p>&nbsp;</p>
<p>可以看到去除pcr重复这个脚本对snp-calling的结果影响甚小，就是少了那么一千多个snp，脚本如下，我是用<b>picard-tools进行的去除PCR重复，当然也可以用samtools来进行同样的步骤</b></p>
<p>[shell]</p>
<p>&lt;b&gt;for i in *.sorted.bam&lt;/b&gt;</p>
<p>&lt;b&gt;do&lt;/b&gt;</p>
<p>&lt;b&gt;echo $i&lt;/b&gt;</p>
<p>&lt;b&gt;java  -Xmx120g  -jar /home/jmzeng/snp-calling/resources/apps/picard-tools-1.119/MarkDuplicates.jar \&lt;/b&gt;</p>
<p>&lt;b&gt;CREATE_INDEX=true REMOVE_DUPLICATES=True \&lt;/b&gt;</p>
<p>&lt;b&gt;ASSUME_SORTED=True VALIDATION_STRINGENCY=LENIENT METRICS_FILE=/dev/null \&lt;/b&gt;</p>
<p>&lt;b&gt;INPUT=$i OUTPUT=${i%%.*}.sort.dedup.bam&lt;/b&gt;</p>
<p>&lt;b&gt;done&lt;/b&gt;</p>
<p>[/shell]</p>
<p>然后我们首先看看没有产生变化的那些snp信息的改变</p>
<p><b>head -50  ../rmdup/out/snp/BC1-1.snp  |tail |cut -f 1,2,8</b></p>
<p>chr1 17222 ADP=428;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 17999 ADP=185;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 18091 ADP=147;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 18200 ADP=278;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 24786 ADP=238;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 25072 ADP=24;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29256 ADP=44;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29265 ADP=44;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29790 ADP=351;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29939 ADP=109;WT=0;HET=1;HOM=0;NC=0</p>
<p><b>head -50   BC1-1.snp  |tail |cut -f 1,2,8</b></p>
<p>chr1 17222 ADP=457;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 17999 ADP=196;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 18091 ADP=155;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 18200 ADP=313;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 24786 ADP=254;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 25072 ADP=25;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29256 ADP=46;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29265 ADP=46;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29790 ADP=440;WT=0;HET=1;HOM=0;NC=0</p>
<p>chr1 29939 ADP=123;WT=0;HET=1;HOM=0;NC=0</p>
<p>可以看到，同一位点的snp仍然可以找到，仅仅是对测序深度产生了影响</p>
<p>&nbsp;<br />
然后我们再看看去除PCR重复这个步骤减少了的snp，在原snp里面是怎么样的</p>
<p>perl -alne '{$file++ if eof(ARGV);unless ($file){$hash{"$F[0]_$F[1]"}=1} else {print if not exists $hash{"$F[0]_$F[1]"} } }' ../rmdup/out/snp/BC1-1.snp BC1-1.snp |less</p>
<p>这个脚本就可以把去除PCR重复找到的snp位点在没有去除PCR重复的找到的snp文件里面过滤掉，查看那些去除PCR重复之前独有的snp</p>
<p>Min. 1st Qu.  Median    Mean 3rd Qu.    Max.</p>
<p>8.00    8.00   11.00   44.26   25.00 7966.00</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/06/图片1.png"><img class="alignnone size-full wp-image-814" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/06/图片1.png" alt="图片1" width="747" height="615" /></a></p>
<p>&nbsp;</p>
<p>可以看到被过滤的snp大多都是测序深度太低了的，如下面的例子</p>
<p>chr1 726325 a 9 CCC.ccc,^:, IEHGHHG/9</p>
<p>chr1 726325 a 5 C.c,^:, IGH/9</p>
<p>&nbsp;</p>
<p>chr1 726338 g 16 TTT.ttt,,....,,, IHGI:9&lt;HIIFIHC5H</p>
<p>chr1 726338 g 10 T.t,,...,, II:HIIFH5H</p>
<p>&nbsp;</p>
<p>可以看到这一步还是很有用的，但是怎么说呢，因为最后对snp的过滤本来就包含了一个步骤是对snp的测序深度小于20的给过滤掉</p>
<p>&nbsp;</p>
<p>但是也有个别的测序深度非常高的snp居然也是被去除PCR重复这个步骤给搞没了！很奇怪，我还在探索之中.</p>
<p><b>grep 13777 BC1-1.mpileup  |head</b></p>
<p>chr1 13777 G 263 ........,.C,,,,,.,,,.......,,,..,....,,......,.....c,........,,,,,,,..,...,,,,,.........,......C.......,,,,,,,,,,.....,,,,,,,.,,,..C,,,,,,CC,c,,,...C..,,,,cC.C..CC.CC,,cc,.C...C,,,,CCc,c,,,,,,,c,C.C.CC...C.cc,c...,C.CCcc...,CCC.C.CC..CCC..CC.c,cc,cc,,cc,C.,,^!.^6.^6.^6.^!, HIHIIIIEIEIHGIIIFIHIG?IIIIHIIHIFHIIHICIIIHIIGIEIIGIIIGHIIIIIIHIIHIHIIIIIIIHII1I?GHHHEHHIIEIEHIIEIIHHIIFIIIFHIHIIIIHIHIIHIIHHIIEIIIIIIHIIIIIIIIIG1HIIIIHIHIEHIHIHIIIIIIIIIIIHICIHIIIIIEIIIIHICIHGGIIIIIIIIEHIHIIIIIIHFIGGIIIIGIIIGICIIIHIIIIIIIIIIIHHHIIIIIHIIHDDII&gt;&gt;&gt;&gt;&gt;</p>
<p><b>grep 13777 BC1-1.rmdup.mpileup  |head</b></p>
<p>chr1 13777 G 240 ........,.C,,,,,.,,,.......,,,..,....,,......,....c,......,,,,,,,..,...,,,,,.........,......C......,,,,,,,,,,.....,,,,,,,.,,,..C,,,,,,CC,c,,,...C..,,,,cC..CC.CC,cc,.C...C,,,,CCc,c,,,,,,,cC.C.C..C.c,c...,C.CCcc...,CC.C.CCC..C.c,cc,,c,.,,^!.^6.^6.^!, HIHIIIIEIEIHGIIIFIHIG?IIIIHIIHIFHIIHICIIIHIIGIEIIIIIHIIIIIHIIHIHIIIIIIIHII1I?GHHHEHHIIEIEHIIEIHHIIFIIIFHIHIIIIHIHIIHIIHHIIEIIIIIIHIIIIIIIIIG1HIIIIHIHIEHIHIIIIIIIIIIHICIHIIIIIEIIIIHICIHGGIIIIIIHIHIIIIIHFIGGIIIIGIIIGCIIIIIIIIIIHHIIIHIHDII&gt;&gt;&gt;&gt;</p>
<p>&nbsp;</p>
<p>然后我再搜索了一些</p>
<p>chr8 43092928 . A T . PASS ADP=7966;WT=0;HET=1;HOM=0;NC=0 GT:GQ:SDP:DP:RD:AD:FREQ:PVAL:RBQ:ABQ:RDF:RDR:ADF:ADR 0/1:255:7967:7966:6261:1663:<b>20.9%</b>:0E0:39:39:3647:2614:1224:439</p>
<p>chr8 43092908 . T C . PASS ADP=6968;WT=0;HET=1;HOM=0;NC=0 GT:GQ:SDP:DP:RD:AD:FREQ:PVAL:RBQ:ABQ:RDF:RDR:ADF:ADR 0/1:255:7002:6968:5315:1537:<b>22.06%</b>:0E0:37:38:3022:2293:890:647</p>
<p>chr8 43092898 . T G . PASS ADP=6517;WT=0;HET=1;HOM=0;NC=0 GT:GQ:SDP:DP:RD:AD:FREQ:PVAL:RBQ:ABQ:RDF:RDR:ADF:ADR 0/1:255:6517:6517:4580:1587:<b>24.35%</b>:0E0:38:38:2533:2047:920:667</p>
<p>chr7 100642950 . T C . PASS ADP=770;WT=0;HET=1;HOM=0;NC=0 GT:GQ:SDP:DP:RD:AD:FREQ:PVAL:RBQ:ABQ:RDF:RDR:ADF:ADR 0/1:255:771:770:615:155:<b>20.13%:</b>3.9035E-51:38:38:277:338:65:90</p>
<p>终于发现规律啦！！！原来它们的突变率都略高于20%，在没有去处PCR重复之前，是高于snp的阈值的，但是去除PCR重复对该位点的突变率产生了影响，使之未能通过筛选。</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/813.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Samtools无法同时得到mpileup格式的数据和bcftools格式的数据</title>
		<link>http://www.bio-info-trainee.com/809.html</link>
		<comments>http://www.bio-info-trainee.com/809.html#comments</comments>
		<pubDate>Mon, 01 Jun 2015 01:47:15 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[未分类]]></category>
		<category><![CDATA[bcf]]></category>
		<category><![CDATA[mpileup]]></category>
		<category><![CDATA[samtools]]></category>
		<category><![CDATA[snp]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=809</guid>
		<description><![CDATA[ 来自于： https://www.biostars.org/p/63429/  &#8230; <a href="http://www.bio-info-trainee.com/809.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<h3> 来自于： <a href="https://www.biostars.org/p/63429/">https://www.biostars.org/p/63429/</a></h3>
<p>I'm using <a href="http://samtools.sourceforge.net/">samtools</a> mpileup and would like to generate both a pileup file and a vcf file as output. I can see how to generate one or the other, but not both (unless I run mpileup twice). I suspect I am missing something simple.</p>
<p>Specifically, calling mpileup with the -g or -u flag causes it to compute genotype likelihoods and output a bcf. Leaving these flags off just gives a pileup. Is there any way to get both, without redoing the work of producing the pileup file? Can I get <a href="http://samtools.sourceforge.net/">samtools</a> to generate the bcf _from_ the pileup file in some way? Generating the bcf from the <a href="http://samtools.sourceforge.net/SAM1.pdf">bam</a> file, when I already have the pileup, seems wasteful.</p>
<p>Thanks for any help!</p>
<p>我写了脚本来运行，才发现我居然需要两个重复的步骤来得到mpileup格式的数据和bcftools格式的数据，而这很明显的重复并且浪费时间的工作</p>
<p>for i in *sam</p>
<p>do</p>
<p>echo $i</p>
<p>samtools view -bS $i &gt;${i%.*}.bam</p>
<p>samtools sort ${i%.*}.bam ${i%.*}.sorted</p>
<p>samtools index ${i%.*}.sorted.bam</p>
<p>samtools mpileup -f /home/jmzeng/ref-database/hg19.fa  ${i%.*}.sorted.bam  &gt;${i%.*}.mpileup</p>
<p>samtools mpileup -guSDf  /home/jmzeng/ref-database/hg19.fa  ${i%.*}.sorted.bam  | bcftools view -cvNg - &gt; ${i%.*}.vcf</p>
<p>Done</p>
<p>我想得到mpileup格式，是因为后续的varscan等软件需要这个文件来call snp</p>
<p>而得到bcftools格式可以直接用bcftools进行snp-calling</p>
<p>samtools mpileup 命令只有用了-g或者-u那么就只会输出bcf文件</p>
<p>如果想得到mpileup格式的数据，就只能用-f参数。</p>
<ul>
<li>bcftools doesn't work on pileup format data. It works on bcf/vcf files.</li>
<li>samtools provides a script called sam2vcf.pl, which works on the output of "samtools pileup". However, this command is deserted in newer versions. The output of "samtools mpileup" does not satisfy the requirement of sam2vcf.pl. You can check the required pileup format on lines 95-99, which is different from output of "samtools mpileup".</li>
</ul>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/809.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
