<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; 外显子比例</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/%e5%a4%96%e6%98%be%e5%ad%90%e6%af%94%e4%be%8b/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>基因及外显子到底占基因组多少比例</title>
		<link>http://www.bio-info-trainee.com/1101.html</link>
		<comments>http://www.bio-info-trainee.com/1101.html#comments</comments>
		<pubDate>Sun, 01 Nov 2015 09:54:34 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[生信基础]]></category>
		<category><![CDATA[外显子比例]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1101</guid>
		<description><![CDATA[很多文献都提到外显子组的序列仅占全基因组序列的1%左右，但大多数与疾病相关的变异 &#8230; <a href="http://www.bio-info-trainee.com/1101.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>很多文献都提到外显子组的序列仅占全基因组序列的1%左右，但大多数与疾病相关的变异位于外显子区。通过外显子组测序可鉴定约8万个变异，全基因组测序可鉴定300万个变异，因此与全基因组测序相比，外显子组测序不仅费用较低，数据阐释也更为简单。外显子组测序技术以其经济有效的优势广泛应用于孟德尔遗传病、罕见综合征及复杂疾病的研究，并于2010年被Science杂志评为十大突破之一。所以我一直想验证一下外显子到底占基因组什么样的百分比，是哪些位点。</p>
<p>首先我们拿到外显子记录和基因信息，下面是通过R来从bioconductor中心提取数据</p>
<p>library("TxDb.Hsapiens.UCSC.hg19.knownGene")</p>
<p>txdb &lt;- TxDb.Hsapiens.UCSC.hg19.knownGene</p>
<p>txdb</p>
<p>exon_txdb=exons(txdb)</p>
<p>genes_txdb=genes(txdb)</p>
<p>tmp=as.data.frame(exon_txdb)</p>
<p>write.table(tmp,'exon.pos',row.names=F)</p>
<p>tmp=as.data.frame(genes_txdb)</p>
<p>write.table(tmp,'gene.pos',row.names=F)</p>
<p>首先我们看看我刚才从TxDb.Hsapiens.UCSC.hg19.knownGene包里面提取的外显子记录文件exon.pos</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image001.png"><img class="alignnone size-full wp-image-1102" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image001.png" alt="image001" width="542" height="201" /></a></p>
<p>我简单用脚本统计了一下：perl -alne '{$tmp+=$F[3]} END{print $tmp}' exon.pos</p>
<p>共289970个外显子记录，长度共98759283bp，也就是98.5Mb的区域都是外显子，感觉有点不大对，毕竟真正的外显子也就三十多M的，所以必须有些外显子是并列关系，也就是有的外显子包含着另外一些外显子，然后我写脚本检查了一下，的确太多了，这样的重复！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image002.png"><img class="alignnone size-full wp-image-1103" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image002.png" alt="image002" width="317" height="209" /></a></p>
<p>也可以去NCBI里面拿到 consensus coding sequence (CCDS)记录：<a href="ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/">ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/</a></p>
<p>那么我再看看NCBI里面拿到 consensus coding sequence (CCDS)记录CCDS.20150512.txt文件。</p>
<p>共33140行，一个基因一行，所以需要格式化成外显子文件，简单看了一下文件的列，很容易格式化。每一行的信息如下</p>
<p>1 NC_000001.11 SAMD11 148398 CCDS2.2 Public + 925941 944152 [925941-926012, 930154-930335, 931038-931088, 935771-935895, 939039-939128, 939274-939459, 941143-941305, 942135-942250, 942409-942487, 942558-943057, 943252-943376, 943697-943807, 943907-944152] Identical</p>
<p>用下面这个脚本格式化</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image003.png"><img class="alignnone size-full wp-image-1104" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image003.png" alt="image003" width="368" height="173" /></a></p>
<p>格式化后的文件如下</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image004.png"><img class="alignnone size-full wp-image-1105" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image004.png" alt="image004" width="397" height="188" /></a></p>
<p>外显子记录增加到了346493个，我再用单行命令计算长度，是56321786bp，这次只有56M了，还是有点大，所以应该是还有重复！</p>
<p>所以，我写了一个脚本来精确计算外显子的总长度，不能那样马马虎虎的用单行命令了。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image005.png"><img class="alignnone size-full wp-image-1106" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image005.png" alt="image005" width="606" height="245" /></a></p>
<p>这次才是34729283bp，也就是约35M，根很多文献里面说的都一样！</p>
<p>同理，我统计了一下外显子的侧翼长度</p>
<p>54692160 外显子加上前后50bp</p>
<p>73066288  外显子加上前后100bp</p>
<p>90362533  外显子加上前后150bp</p>
<p>&nbsp;</p>
<p>而hg19版本基因组里面有着entrez gene ID号的基因是23056个基因，所以我接下来探究一下这些基因的信息！</p>
<p>我们首先看看基因与基因之间的交叉情况</p>
<p>其中有12454266bp的位点，是多个外显子共有的，可能是一个基因的多个外显子，或者是不同基因的外显子</p>
<p>我们主要看看不同基因的交叉情况</p>
<p><strong>不同基因交叉情况共</strong><strong>516</strong><strong>种，共涉及</strong><strong>498</strong><strong>种基因！</strong></p>
<p>ZNF341   NFS1</p>
<p>ZNF397   ZSCAN30</p>
<p>ZNF428   SRRM5</p>
<p>ZNF436-AS1    RPL11</p>
<p>ZNF578   ZNF137P</p>
<p>ZNF619   ZNF621</p>
<p>ZNF816   ZNF816-ZNF321P</p>
<p>ZSCAN26  ZSCAN31</p>
<p>ZSCAN5A  ZNF542P</p>
<p>ZZEF1    ANKFY1</p>
<p>我随便在数据库里面搜索一下验证，发现这些基因的确是交叉重叠的</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1101.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
