<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; 短序列</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/%e7%9f%ad%e5%ba%8f%e5%88%97/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>Hg19基因组的分析</title>
		<link>http://www.bio-info-trainee.com/425.html</link>
		<comments>http://www.bio-info-trainee.com/425.html#comments</comments>
		<pubDate>Sat, 21 Mar 2015 14:48:43 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[perl]]></category>
		<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[blast]]></category>
		<category><![CDATA[hg19]]></category>
		<category><![CDATA[数据库]]></category>
		<category><![CDATA[比对]]></category>
		<category><![CDATA[短序列]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=425</guid>
		<description><![CDATA[下载地址我就不贴了，随便谷歌一下即可！ Genome Reference Con &#8230; <a href="http://www.bio-info-trainee.com/425.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p><b>下载地址我就不贴了，随便谷歌一下即可！</b></p>
<p><b>Genome Reference Consortium Human  ---》  GRCh3</b></p>
<p><b>Feb. 2009 (hg19, GRCh37)</b><b>这个是重点</b></p>
<p>Mar 2006 assembly = hg18 = NCBI36.</p>
<p>May 2004 assembly = hg17 = NCBI35.</p>
<p>July 2003 assembly = hg16 = NCBI34</p>
<p>以前的老版本就不用看啦，现在其实都已经有hg38出来啦，GRCh38 (NCBI) and hg38(UCSC)</p>
<p>参考：<a href="http://age.wang.blog.163.com/blog/static/119252448201092284725460/">http://age.wang.blog.163.com/blog/static/119252448201092284725460/</a></p>
<p><a href="http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/">http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/</a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析570.png"><img class="alignnone size-full wp-image-426" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析570.png" alt="Hg19基因组的分析570" width="481" height="228" /></a></p>
<p>人的hg19基因组是3G的大小，因为一个英文字符是一个字节，所以也是30亿bp的碱基。</p>
<p>包括22条常染色体和X,Y性染色体及M线粒体染色体。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析643.png"><img class="alignnone size-full wp-image-427" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析643.png" alt="Hg19基因组的分析643" width="437" height="326" /></a></p>
<p>查看该文件可以看到，里面有很多的N，这是基因组里面未知的序列，用N占位，但是觉得部分都是A.T.C.G这样的字符，大小写都有，分别代表不同的意思。</p>
<p>然后我用linux的命令统计了一下里面这个文件的行数，</p>
<p>perl -lne 'END { print $. }'  hg19.fa</p>
<p>awk 'END { print NR }'  hg19.fa</p>
<p>wc -l hg19.fa</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析834.png"><img class="alignnone size-full wp-image-428" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析834.png" alt="Hg19基因组的分析834" width="554" height="253" /></a></p>
<p>然后我写了一个脚本统计每条染色体的长度，42秒钟完成任务！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1125.png"><img class="alignnone size-full wp-image-429" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1125.png" alt="Hg19基因组的分析1125" width="512" height="419" /></a></p>
<p>看来这个服务器的性能还是蛮强大的，读取文件非常快！</p>
<p>[perl]</p>
<p>while(&lt;&gt;){</p>
<p>        chomp;</p>
<p>        if  (/&gt;/){</p>
<p>if  (exists $hash_chr{$key} ){</p>
<p>$len = length $hash_chr{$key};</p>
<p>print &quot;$key   =&gt;   $len\n&quot;;</p>
<p>}</p>
<p>undef %hash_chr;</p>
<p>$key=$_;</p>
<p>}</p>
<p>else {</p>
<p>$hash_chr{$key}.=$_;</p>
<p>}</p>
<p>}</p>
<p>[/perl]</p>
<p>&nbsp;</p>
<p>然后我用seed统计了一下hg19的词频（我不知道生物信息学里面的专业描述词语是什么）</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1171.png"><img class="alignnone size-full wp-image-430" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1171.png" alt="Hg19基因组的分析1171" width="554" height="260" /></a></p>
<p>我的程序耗费了42分钟才跑完，感觉我写的程序应该是没有问题的，让我吃惊的是总共竟然只有105万条独特的10bp短序列。然后我算了一下4的10次方，(⊙o⊙)…悲剧，原来只有1048576，之所以出现这种情况，是因为里面有N这个字符串，不仅仅是A.T.C.G四个字符。我用grep -v N seed10.txt |wc -l命令再次统计了一下，发现居然就是1048576，也就是说，任意A.T.C.G四个字符组成的10bp字符串短序列在人的基因组里面都可以找到！！！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1407.png"><img class="alignnone size-full wp-image-431" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Hg19基因组的分析1407.png" alt="Hg19基因组的分析1407" width="501" height="275" /></a></p>
<p>然后我测试了一下，还是真是这样的，真是一个蛮有意思的现象。虽然我无法解释为什么，但是根据这个结果我们可以得知连续的A或者T在人类基因组里面高频出现，而连续的G或者C却很少！</p>
<p>如果我们储存这个10bp字符串的同时，也储存着它们在基因组的位置，那么就可以根据这个seed来进行比对，这就是blast的原理之一！</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/425.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
