<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; gatk</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/gatk/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>用broad出品的软件来处理bam文件几次遇到文件头错误</title>
		<link>http://www.bio-info-trainee.com/1354.html</link>
		<comments>http://www.bio-info-trainee.com/1354.html#comments</comments>
		<pubDate>Thu, 14 Jan 2016 12:41:28 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[未分类]]></category>
		<category><![CDATA[gatk]]></category>
		<category><![CDATA[RNA-SeQC]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1354</guid>
		<description><![CDATA[报错如下：ERROR MESSAGE: SAM/BAM file input.m &#8230; <a href="http://www.bio-info-trainee.com/1354.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>报错如下：ERROR MESSAGE: SAM/BAM file input.marked.bam is malformed: SAM file doesn't have any read groups defined in the header.  The GATK no longer supports SAM files without read groups ！</p>
<div><span style="color: #333333; font-family: Helvetica Neue,Helvetica,Arial,sans-serif;">有些人遇到的是bam的染色体顺序不一样，还有可能是染色体的名字不一样，比如&gt;1和&gt;chr1的区别，虽然很傻，但是遇到这样问题的还不少！</span></div>
<div><span style="color: #333333; font-family: Helvetica Neue,Helvetica,Arial,sans-serif;">还有一些人是遇到基因组没有dict文件，也是用picard处理一下就好。<br />
</span></p>
<div>大部分人是在GATK遇到的，我是在RNA-SeQC遇到的，不过原理都是一样的。</div>
<div>都是因为做alignment的时候<b>并未添加头信息</b>，比如：</div>
<div>bwa samse ref.fa my.sai my.fastq &gt; my.sam</div>
<div>samtools view -bS my.sam &gt; my.bam</div>
<div>samtools sort my.bam my_sorted</div>
<div>java -jar ReordereSam.jar I=/path/my_sorted.bam O=/path/my_reordered.bam R=/path/ref.fa</div>
<div>通过这个代码可以得到<b>排序好的bam</b>，但是接下来用GATK就会报错</div>
<div>java -jar GenomeAnalysisTK.jar -T DepthOfCoverage -R /paht/ref.fa -I /path/aln_reordered.bam</div>
<div>就是因为没有头信息，group相关信息，解决方法有两种：</div>
<div>bwa samse -r<span class="Apple-converted-space"> </span><b>@RG\tID:IDa\tSM:SM\tPL:Illumina<span class="Apple-converted-space"> </span></b>ref.fa my.sai my.fastq &gt; my.sam</div>
<div>java -jar AddOrReplaceReadGroups I=my.bam O=myGr.bam<span class="Apple-converted-space"> </span><b>LB=whatever PL=illumina PU=whatever SM=whatever</b></div>
<div>一种是比对的时候就加入头信息，这个需要比对工具的支持。</div>
<div>第二种是用picard工具来修改bam，推荐用这个！虽然我其实并不懂这些头文件信息是干嘛的， 但是broad开发的软件就是需要！希望将来去读PHD能系统性的学习一些基础知识！</div>
<div></div>
<div>参考：<a href="http://seqanswers.com/forums/showthread.php?t=17233">http://seqanswers.com/forums/showthread.php?t=17233</a></div>
<div><a href="https://www.biostars.org/p/115819/">https://www.biostars.org/p/115819/</a></div>
<div><a href="http://gatkforums.broadinstitute.org/gatk/discussion/2667/bam-is-malformed-depthofcoverage">http://gatkforums.broadinstitute.org/gatk/discussion/2667/bam-is-malformed-depthofcoverage</a></div>
</div>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1354.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>GATK使用注意事项</title>
		<link>http://www.bio-info-trainee.com/838.html</link>
		<comments>http://www.bio-info-trainee.com/838.html#comments</comments>
		<pubDate>Mon, 06 Jul 2015 23:27:05 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[生信基础]]></category>
		<category><![CDATA[bwa]]></category>
		<category><![CDATA[gatk]]></category>
		<category><![CDATA[picard]]></category>
		<category><![CDATA[samtools]]></category>
		<category><![CDATA[snp]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=838</guid>
		<description><![CDATA[GATK这个软件在做snp-calling的时候使用率非常高，因为之前一直是简单 &#8230; <a href="http://www.bio-info-trainee.com/838.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>GATK这个软件在做snp-calling的时候使用率非常高，因为之前一直是简单粗略的看看snp情况而已，所以没有具体研究它。</p>
<p>这些天做一些外显子项目以找snp为重点，所以想了想还是用起它，报错非常多，调试了好久才成功。</p>
<p>所以记录一些注意事项!</p>
<p>GATK软件本身是受版权保护的，所以需要申请才能下载使用，大家自己去broad institute申请即可。</p>
<p>下载软件就可以直接使用，java软件不需要安装，但是需要你的机器上面有java，当然软件只是个开始，重点是你还得下载很多配套数据，<a href="https://software.broadinstitute.org/gatk/download/bundle" target="_blank">https://software.broadinstitute.org/gatk/download/bundle</a>（ps:这个链接可能会失效，下面的文件，请自己谷歌找到地址哈。），而且这个时候要明确你的参考基因组版本了！！！ <span style="color: #ff6600;">b36/b37/hg18/hg19/hg38，记住b37和hg19并不是完全一样的，有些微区别哦！！！</span><br />
<span id="more-838"></span></p>
<p>比如我选择了hg19</p>
<p>第一点是hg19的下载：这个下载地址非常多，常用的就是NCBI，ensembl和UCSC了，但是这里推荐用这个脚本下载</p>
<p>for i in $(seq 1 22) X Y M;</p>
<p>do echo $i;</p>
<p>wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;</p>
<p>done</p>
<p>gunzip *.gz</p>
<p>for i in $(seq 1 22) X Y M;</p>
<p>do cat chr${i}.fa &gt;&gt; hg19.fasta;</p>
<p>done</p>
<p>rm -fr chr*.fasta</p>
<p>看得懂shell脚本的应该知道这是一个个的下载hg19的染色体，再用cat按照染色体的顺序拼接起来，因为GATK后面的一些步骤对染色体顺序要求非常变态，如果下载整个hg19，很难保证染色体顺序是1-22，X,Y,M。如下</p>
<p>然后需要对下载的hg19进行索引（bwa和samtools）和建立dict文件（用picard）</p>
<p>bwa index -a bwtsw hg19.fasta</p>
<p>samtools faidx hg19.fasta</p>
<p>然后还要下载几个参考文件，这个是可以选择的.</p>
<p>对我的hg19来说，就应该是去，ftp://ftp.broadinstitute.org/bundle/hg19/ 下载咯。</p>
<p><strong><span style="color: #ff6600;">最后，所有必备的文件如下：</span></strong></p>
<p>231M Jul 2 05:14 1000G_phase1.indels.hg19.sites.vcf<br />
1.2M Jul 2 10:45 1000G_phase1.indels.hg19.sites.vcf.idx<br />
11G Jul 2 08:05 dbsnp_138.hg19.vcf<br />
2.5K Jul 1 04:31 hg19.dict<br />
3.0G Jun 30 21:29 hg19.fasta<br />
6.6K Jun 30 22:54 hg19.fasta.amb<br />
944 Jun 30 22:54 hg19.fasta.ann<br />
2.9G Jun 30 22:54 hg19.fasta.bwt<br />
788 Jul 2 01:53 hg19.fasta.fai<br />
739M Jun 30 22:54 hg19.fasta.pac<br />
1.5G Jun 30 23:23 hg19.fasta.sa<br />
87M Jul 2 05:37 Mills_and_1000G_gold_standard.indels.hg19.sites.vcf<br />
2.3M Jul 2 10:45 Mills_and_1000G_gold_standard.indels.hg19.sites.vcf.idx</p>
<p>&nbsp;</p>
<p>接下来开始跑程序</p>
<p>第一步就是生成sam文件啦bwa mem -t 12 -M  hg19.fasta tmp*fq &gt;tmp.sam</p>
<p>第二步是sort，我用的是picard工具java  -Xmx100g -jar AddOrReplaceReadGroups.jar I=tmp.sam  O=tmp.sorted.bam</p>
<p>SORT_ORDER=coordinate</p>
<p>CREATE_INDEX=true</p>
<p>RGID=tmp</p>
<p>RGLB="pe"</p>
<p>RGPU="HiSeq-2000"</p>
<p>RGSM=PC3-2</p>
<p>RGCN="Human Genetics of Infectious Disease"</p>
<p>RGDS=hg19 RGPL=illumina</p>
<p>VALIDATION_STRINGENCY=SILENT</p>
<p>第三步是去除PCR重复，我还是选择用picard工具</p>
<p>java  -Xmx100g  -jar MarkDuplicates.jar</p>
<p>CREATE_INDEX=true REMOVE_DUPLICATES=True</p>
<p>ASSUME_SORTED=True VALIDATION_STRINGENCY=LENIENT</p>
<p>I=tmp.sorted.bam OUTPUT=tmp.dedup.bam METRICS_FILE=tmp.metrics</p>
<p>第四步是终于要开始用GATK啦，主要是确定要进行重新比对的区域，这个步骤分成三个小步骤：</p>
<p>首先用RealignerTargetCreator找到需要重新比对的区域，输出文件intervals</p>
<p>java -Xmx200g -jar ~/apps/gatk/GenomeAnalysisTK.jar</p>
<p>-R hg19.fasta  #这里需要用这个参考基因组，所以参考基因组特别重要，DICT也要按照流程生成</p>
<p>-T RealignerTargetCreator</p>
<p>-I tmp.dedup.bam -o tmp.intervals</p>
<p>-known /home/ldzeng/EXON/ref/1000G_phase1.indels.hg19.sites.vcf</p>
<p>这一步骤好像非常耗时</p>
<p>&nbsp;</p>
<p>可以看到，我总共就测试了5014个reads，结果就花了近半个小时才搞定，只有947个reads被过滤了。</p>
<p>输出的tmp.intervals 文件是一个1404946行的文件</p>
<p>chr1:13957-13958</p>
<p>chr1:46402-46403</p>
<p>chr1:47190-47191</p>
<p>chr1:52185-52188</p>
<p>chr1:53234-53236</p>
<p>chr1:55249-55250</p>
<p>chr1:63735-63738</p>
<p>人的外显子只有二三十万，所以我暂时也不确定这个文件是什么！</p>
<p>&nbsp;</p>
<p>然后用输出的 tmp.intervals 做输入文件来进行重新比对，也就是用IndelRealigner在这些区域内进行重新比对</p>
<p>java -Xmx150g -jar ~/apps/gatk/GenomeAnalysisTK.jar \</p>
<p>-R hg19.fasta \</p>
<p>-T IndelRealigner \</p>
<p>-targetIntervals tmp.intervals \</p>
<p>-I tmp.dedup.bam -o tmp.dedup.realgn.bam \</p>
<p>-known /home/ldzeng/EXON/ref/1000G_phase1.indels.hg19.sites.vcf</p>
<p>&nbsp;</p>
<p>我只需要它的重新比对，所以后面的一些功能没有怎么用，一个是call snp，一个是算比对质量值</p>
<p>java -Xmx200g -jar ~apps/gatk/GenomeAnalysisTK.jar</p>
<p>-nct 20 -T HaplotypeCaller -R hg19.fasta</p>
<p>-I tmp.dedup.realgn.bam</p>
<p>-o tmp.gatk.vcf</p>
<p>最后输出的文件如下</p>
<p>639K Jul 5 10:17 tmp1.fq<br />
639K Jul 5 10:19 tmp2.fq<br />
1.5M Jul 5 10:26 tmp.dedup.bai<br />
403K Jul 5 10:26 tmp.dedup.bam<br />
12K Jul 5 12:02 tmp.gatk.vcf<br />
3.4K Jul 5 12:02 tmp.gatk.vcf.idx<br />
32M Jul 5 11:24 tmp.intervals<br />
950 Jul 5 10:26 tmp.metrics<br />
1.5M Jul 5 11:31 tmp.realgn.bai<br />
409K Jul 5 11:31 tmp.realgn.bam<br />
1.6M Jul 5 10:20 tmp.sam<br />
1.5M Jul 5 10:23 tmp.sorted.bai<br />
399K Jul 5 10:23 tmp.sorted.bam</p>
<p>&nbsp;</p>
<p>备注：GATK对基因组要求一个字典文件</p>
<p>使用picard工具包的CreateSequenceDictionary.jar生成。以hg19.fa为例，生成的命令为：</p>
<div>    java -Xmx2g -jar /path_to_picard/CreateSequenceDictionary.jar R=hg19.fa O=hg19.dict</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/838.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
