<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; hg19</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/hg19/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>Vcf文件的突变ID号注释</title>
		<link>http://www.bio-info-trainee.com/631.html</link>
		<comments>http://www.bio-info-trainee.com/631.html#comments</comments>
		<pubDate>Wed, 15 Apr 2015 13:53:20 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[hg19]]></category>
		<category><![CDATA[snp]]></category>
		<category><![CDATA[注释]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=631</guid>
		<description><![CDATA[VCF是1000genome计划定义的测序比对突变说明文件，熟悉VCF文件的都知 &#8230; <a href="http://www.bio-info-trainee.com/631.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>VCF是1000genome计划定义的测序比对突变说明文件，熟悉VCF文件的都知道，第三列是ID号，也就是说对该突变在dbsnp的数据库的编号。大多时候都是用点号占位，代表不知道在dbsnp的数据库的编号，这时候就需要我们自己来注释了。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Vcf文件的突变ID号注释134.png"><img class="alignnone size-full wp-image-632" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Vcf文件的突变ID号注释134.png" alt="Vcf文件的突变ID号注释134" width="442" height="221" /></a></p>
<p>其实，这是一个非常简单的事情，因为有了CHROM和pos，只要找到一个文件，就可以自己写脚本来映射到它的ID号，但是找这个文件比较困难，我也是搜索了好久才找到的。</p>
<p><a href="http://varianttools.sourceforge.net/Annotation/DbSNP">http://varianttools.sourceforge.net/Annotation/DbSNP</a></p>
<p>这里面提到了最新版的数据库是dbSNP138</p>
<p>The default version of our dbSNP annotation is currently referring to dbSNP138 (using hg19 coordinates) as shown below. However, users can also retrieve older versions of dbSNP: db135, dbSNP129, dbSNP130, dbSNP131 and dbSNP132. The 129 and 130 versions use hg18 as a reference genome and 131, 132, 135 and later use hg19. The archived versions can be used by a variant tools project by referring to their specific names - for example: dbSNP-hg18_129.</p>
<p>所以我就换了关键词，终于搜的了</p>
<p><a href="http://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&amp;build_id=138">http://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&amp;build_id=138</a></p>
<p><a href="http://asia.ensembl.org/info/genome/variation/sources_documentation.html?redirect=no">http://asia.ensembl.org/info/genome/variation/sources_documentation.html?redirect=no</a></p>
<p><b>SNP 138</b> database (232,952,851 million altogether).</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Vcf文件的突变ID号注释1276.png"><img class="alignnone size-full wp-image-633" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Vcf文件的突变ID号注释1276.png" alt="Vcf文件的突变ID号注释1276" width="554" height="156" /></a></p>
<p>有一个bioconductor包是专门来做snp过滤的</p>
<p><a href="http://www.bioconductor.org/packages/release/bioc/html/VariantAnnotation.html">http://www.bioconductor.org/packages/release/bioc/html/VariantAnnotation.html</a></p>
<p>首先下载vcf文件。</p>
<p>nohup wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/00-All.vcf.gz &amp;</p>
<p>这个文件很大，解压开是</p>
<p>如果大家对snp不了解，可以去查看它的各种介绍以及分类</p>
<p><a href="http://moma.ki.au.dk/genome-mirror/cgi-bin/hgTrackUi?db=hg19&amp;g=snp138">http://moma.ki.au.dk/genome-mirror/cgi-bin/hgTrackUi?db=hg19&amp;g=snp138</a></p>
<p>&nbsp;</p>
<p>其实我这里本来有个hg19_snp141.txt文件，如下</p>
<p>1 10020 A - .</p>
<p>1 10108 C T .</p>
<p>1 10109 A T .</p>
<p>1 10139 A T .</p>
<p>1 10145 A - .</p>
<p>1 10147 C - .</p>
<p>1 10150 C T .</p>
<p>1 10177 A C .</p>
<p>1 10180 T C .</p>
<p>1 10229 A - .</p>
<p>&nbsp;</p>
<p>还可以下载一些文件，如bed_chr_1.bed</p>
<p>chr1 175292542 175292543 rs171 0 -</p>
<p>chr1 20542967 20542968 rs242 0 +</p>
<p>chr1 6100897 6100898 rs538 0 -</p>
<p>chr1 93151988 93151989 rs546 0 +</p>
<p>chr1 15220328 15220329 rs549 0 +</p>
<p>chr1 203744004 203744005 rs568 0 +</p>
<p>chr1 23854550 23854551 rs665 0 -</p>
<p>chr1 53213656 53213657 rs672 0 +</p>
<p>chr1 173907422 173907423 rs677 0 -</p>
<p>当然还有那个ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/00-All.vcf.gz  18G的文件，是VCF格式</p>
<p><b>##fileformat=VCFv4.0</b></p>
<p><b>##fileDate=20150218</b></p>
<p><b>##source=dbSNP</b></p>
<p><b>##dbSNP_BUILD_ID=142</b></p>
<p><b>##reference=GRCh38</b></p>
<p>#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO</p>
<p>1       10108   rs62651026      C       T       .       .       RS=62651026;RSPOS=10108;dbSNPBuildID=129;SSR=0;SAO=0;VP=0x050000020005000002000100;WGT=1;VC=SNV;R5;ASP</p>
<p>所以这个文件就是我们想要的最佳文件，提取前三列就够啦</p>
<p>#CHROM  POS     ID</p>
<p>1 10108 rs62651026</p>
<p>1 10109 rs376007522</p>
<p>1 10139 rs368469931</p>
<p>1 10144 rs144773400</p>
<p>1 10150 rs371194064</p>
<p>1 10177 rs201752861</p>
<p>1 10177 rs367896724</p>
<p>1 10180 rs201694901</p>
<p>1 10228 rs143255646</p>
<p>1 10228 rs200462216</p>
<p>这样就可以通过脚本用hash把我们自己找到的hash跟数据库的rs编号对应起来啦</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/631.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Hg19基因组的分析</title>
		<link>http://www.bio-info-trainee.com/425.html</link>
		<comments>http://www.bio-info-trainee.com/425.html#comments</comments>
		<pubDate>Sat, 21 Mar 2015 14:48:43 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[perl]]></category>
		<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[blast]]></category>
		<category><![CDATA[hg19]]></category>
		<category><![CDATA[数据库]]></category>
		<category><![CDATA[比对]]></category>
		<category><![CDATA[短序列]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=425</guid>
		<description><![CDATA[下载地址我就不贴了，随便谷歌一下即可！ Genome Reference Con &#8230; <a href="http://www.bio-info-trainee.com/425.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p><b>下载地址我就不贴了，随便谷歌一下即可！</b></p>
<p><b>Genome Reference Consortium Human  ---》  GRCh3</b></p>
<p><b>Feb. 2009 (hg19, GRCh37)</b><b>这个是重点</b></p>
<p>Mar 2006 assembly = hg18 = NCBI36.</p>
<p>May 2004 assembly = hg17 = NCBI35.</p>
<p>July 2003 assembly = hg16 = NCBI34</p>
<p>以前的老版本就不用看啦，现在其实都已经有hg38出来啦，GRCh38 (NCBI) and hg38(UCSC)</p>
<p>参考：<a href="http://age.wang.blog.163.com/blog/static/119252448201092284725460/">http://age.wang.blog.163.com/blog/static/119252448201092284725460/</a></p>
<p><a href="http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/">http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/</a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析570.png"><img class="alignnone size-full wp-image-426" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析570.png" alt="Hg19基因组的分析570" width="481" height="228" /></a></p>
<p>人的hg19基因组是3G的大小，因为一个英文字符是一个字节，所以也是30亿bp的碱基。</p>
<p>包括22条常染色体和X,Y性染色体及M线粒体染色体。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析643.png"><img class="alignnone size-full wp-image-427" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析643.png" alt="Hg19基因组的分析643" width="437" height="326" /></a></p>
<p>查看该文件可以看到，里面有很多的N，这是基因组里面未知的序列，用N占位，但是觉得部分都是A.T.C.G这样的字符，大小写都有，分别代表不同的意思。</p>
<p>然后我用linux的命令统计了一下里面这个文件的行数，</p>
<p>perl -lne 'END { print $. }'  hg19.fa</p>
<p>awk 'END { print NR }'  hg19.fa</p>
<p>wc -l hg19.fa</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析834.png"><img class="alignnone size-full wp-image-428" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析834.png" alt="Hg19基因组的分析834" width="554" height="253" /></a></p>
<p>然后我写了一个脚本统计每条染色体的长度，42秒钟完成任务！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1125.png"><img class="alignnone size-full wp-image-429" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1125.png" alt="Hg19基因组的分析1125" width="512" height="419" /></a></p>
<p>看来这个服务器的性能还是蛮强大的，读取文件非常快！</p>
<p>[perl]</p>
<p>while(&lt;&gt;){</p>
<p>        chomp;</p>
<p>        if  (/&gt;/){</p>
<p>if  (exists $hash_chr{$key} ){</p>
<p>$len = length $hash_chr{$key};</p>
<p>print &quot;$key   =&gt;   $len\n&quot;;</p>
<p>}</p>
<p>undef %hash_chr;</p>
<p>$key=$_;</p>
<p>}</p>
<p>else {</p>
<p>$hash_chr{$key}.=$_;</p>
<p>}</p>
<p>}</p>
<p>[/perl]</p>
<p>&nbsp;</p>
<p>然后我用seed统计了一下hg19的词频（我不知道生物信息学里面的专业描述词语是什么）</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1171.png"><img class="alignnone size-full wp-image-430" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1171.png" alt="Hg19基因组的分析1171" width="554" height="260" /></a></p>
<p>我的程序耗费了42分钟才跑完，感觉我写的程序应该是没有问题的，让我吃惊的是总共竟然只有105万条独特的10bp短序列。然后我算了一下4的10次方，(⊙o⊙)…悲剧，原来只有1048576，之所以出现这种情况，是因为里面有N这个字符串，不仅仅是A.T.C.G四个字符。我用grep -v N seed10.txt |wc -l命令再次统计了一下，发现居然就是1048576，也就是说，任意A.T.C.G四个字符组成的10bp字符串短序列在人的基因组里面都可以找到！！！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1407.png"><img class="alignnone size-full wp-image-431" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1407.png" alt="Hg19基因组的分析1407" width="501" height="275" /></a></p>
<p>然后我测试了一下，还是真是这样的，真是一个蛮有意思的现象。虽然我无法解释为什么，但是根据这个结果我们可以得知连续的A或者T在人类基因组里面高频出现，而连续的G或者C却很少！</p>
<p>如果我们储存这个10bp字符串的同时，也储存着它们在基因组的位置，那么就可以根据这个seed来进行比对，这就是blast的原理之一！</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/425.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
