<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; 批量注释</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/%e6%89%b9%e9%87%8f%e6%b3%a8%e9%87%8a/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>数据库批量注释不可盲目-annovar数据库错误</title>
		<link>http://www.bio-info-trainee.com/2000.html</link>
		<comments>http://www.bio-info-trainee.com/2000.html#comments</comments>
		<pubDate>Fri, 11 Nov 2016 03:17:42 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[杂谈-随笔]]></category>
		<category><![CDATA[annovar]]></category>
		<category><![CDATA[snp]]></category>
		<category><![CDATA[批量注释]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=2000</guid>
		<description><![CDATA[我对H3F3A这个基因做了两个突变的cellline，分别是G34V和K27M， &#8230; <a href="http://www.bio-info-trainee.com/2000.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>我对H3F3A这个基因做了两个突变的cellline，分别是G34V和K27M，现在知道这个基因在hg38上面的坐标是：</p>
<p>Genomic Location for <span style="color: #ff0000;">H3F3A</span> Gene<br />
Chromosome:  1<br />
Start:226,061,851 bp from pter  End:226,072,002 bp from pter<br />
Size:10,152 bases    Orientation:Plus strand</p>
<p>然后我用samtools结合bcftools把该基因区域的snp位点call出来：</p>
<p>samtools mpileup<strong><span style="color: #ff0000;"> -r chr1:226061851-226072001</span> </strong>-t "DP4" -ugf ~/reference/genome/hg38/hg38.fa  *sorted.bam | bcftools call -vmO z -o  H3F3A.vcf.gz</p>
<p><span id="more-2000"></span></p>
<p>但是得到的vcf只有DP4和染色体起始终止坐标坐标信息，我并不知道该坐标是蛋白质的第几个位点，所以需要注释，我首先想到的就是ANNOVAR啦，毕竟用了它很久。</p>
<p>~/biosoft/ANNOVAR/annovar/convert2annovar.pl -format vcf4old H3F3A.vcf &gt;tmp.annovar<br />
~/biosoft/ANNOVAR/annovar/annotate_variation.pl -buildver hg38 --geneanno --outfile tmp.anno tmp.annovar ~/biosoft/ANNOVAR/annovar/humandb/</p>
<p>但是注释过后，很诡异的事情发生了！只有一个位点被认为是exon什么的，而且造成的蛋白质改变是G35R，很明显不是我所设计的突变位点，我设计的是G34V，它们这么近，我怀疑还是基因坐标表现形式的问题，而且该位点测序深度高达6000，应该是没有问题 的</p>
<p>line4 nonsynonymous SNV H3F3A:NM_002107:exon2:c.G103A:p.G35R, chr1 226064454 226064454 G A hom 219 6592 60</p>
<p>然后我查看了那些不在exon区域的位点，发现了更奇怪的事情，居然全部在H3F3AP4上面，这个时候我就傻眼了，这个假基因命名定位在</p>
<p>/home/jianmingzeng/reference/gtf/gencode/allGene.hg19.position:chr2 175584636 175585046 H3F3AP4<br />
/home/jianmingzeng/reference/gtf/gencode/allGene.hg38.position:chr2 174719908 174720318 H3F3AP4</p>
<p>怎么也不可能跑到chr1来呀！！！！ANNOVAR到底是如何给我注释的！！！！</p>
<p>我只好去查ANNOVAR的database，发现它居然真的有如此无厘头的记录：</p>
<p>grep H3F3AP4 humandb/hg38_refGene.txt<br />
2309 NR_002315 chr1 + 226062726 226072002 226072002 226072002 4 226062726,226064328,226065655,226071350, 226062811,226064479,226065809,226072002, 0 H3F3AP4 unk unk -1,-1,-1,-1,<br />
1918 NR_002315 chr2 + 174719799 174720841 174720841 174720841 1 174719799, 174720841, 0 H3F3AP4 unk unk -1,</p>
<p>一个基因被记录两个位置，让我好生郁闷！！！而且H3F3AP4很明显是与H3F3A重合了的，我敢打包票，肯定是某人写脚本的时候，没有考虑周全，跟我上一个文章提到的原因一模一样，搞这些数据库维护的单位太多了，总会有不一致的地方。</p>
<p>2309 NM_002107 chr1 + 226062706 226072002 226064351 226071479 4 226062706,226064328,226065655,226071350, 226062811,226064479,226065809,226072002, 0 H3F3A cmpl cmpl -1,0,2,0,</p>
<p>所以，当我们尤其是想确认某一个问题的事情，请务必再三检查！！！</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/2000.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
