<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; hg19.knownGene</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/hg19-knowngene/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>R的bioconductor包TxDb.Hsapiens.UCSC.hg19.knownGene详解</title>
		<link>http://www.bio-info-trainee.com/831.html</link>
		<comments>http://www.bio-info-trainee.com/831.html#comments</comments>
		<pubDate>Thu, 02 Jul 2015 08:14:57 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[R]]></category>
		<category><![CDATA[bioconductor]]></category>
		<category><![CDATA[GRange]]></category>
		<category><![CDATA[hg19.knownGene]]></category>
		<category><![CDATA[txdb]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=831</guid>
		<description><![CDATA[#这里是下载人类的已知基因的信息 (35.4 MB) source("http: &#8230; <a href="http://www.bio-info-trainee.com/831.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>#这里是下载人类的已知基因的信息 (35.4 MB)</p>
<p>source("http://bioconductor.org/biocLite.R")</p>
<p>biocLite("TxDb.Hsapiens.UCSC.hg19.knownGene")</p>
<p>然后查看我们下载的这个包里面所包含的信息<span id="more-831"></span></p>
<p>&gt; txdb &lt;- TxDb.Hsapiens.UCSC.hg19.knownGene</p>
<p>&gt; txdb</p>
<p>TxDb object:</p>
<p>| Db type: TxDb</p>
<p>| Supporting package: GenomicFeatures</p>
<p>| Data source: UCSC</p>
<p>| Genome: hg19</p>
<p>| Organism: Homo sapiens</p>
<p>| UCSC Table: knownGene</p>
<p>| Resource URL: http://genome.ucsc.edu/</p>
<p>| Type of Gene ID: Entrez Gene ID</p>
<p>| Full dataset: yes</p>
<p>| miRBase build ID: GRCh37</p>
<p>| transcript_nrow: 82960</p>
<p>| exon_nrow: 289969</p>
<p>| cds_nrow: 237533</p>
<p>| Db created by: GenomicFeatures package from Bioconductor</p>
<p>| Creation time: 2014-09-26 11:16:12 -0700 (Fri, 26 Sep 2014)</p>
<p>| GenomicFeatures version at creation time: 1.17.17</p>
<p>| RSQLite version at creation time: 0.11.4</p>
<p>| DBSCHEMAVERSION: 1.0</p>
<p>可以看到这个UCSC数据库发布的经典的hg19版本基因组所有的基因信息，共有237533个CDS，共有289969个外显子</p>
<p>&nbsp;</p>
<p>然后我们可以用几个简单的函数提取信息</p>
<p>&gt;genes(txdb)</p>
<p>可以看到genes函数可以提取23056个基因信息，还是一个Granges对象</p>
<p>&gt;exons(txdb)</p>
<p>而用exons函数可以提取这个txdb对象的exons信息，共289969个exon</p>
<p>同理还有 transcripts函数可以提取转录本信息，共82960个转录本</p>
<p>还有cds函数，提取到237533个cds信息</p>
<p>#我们可以提取外显子的<strong>GRanges</strong><strong>对象</strong>来具体看看，也可以用genes,transcripts,cds等函数</p>
<p>exon_txdb=exons(txdb)</p>
<p>seqnames(exon_txdb)返回一个class 'Rle' [package "S4Vectors"] with 4 slots，有93个染色体信息，以及每条染色体上面有多少个外显子信息</p>
<p>ranges(exon_txdb)返回外显子的起始终止位点，长度，以及其它信息，也是一个对象class 'IRanges' [package "IRanges"] with 6 slots</p>
<p>还有很多函数</p>
<p>strand(exon_txdb)返回外显子的正负链信息，要么在正链要么在负链</p>
<p>mcols(exon_txdb)返回exon的id编号，1到27750个</p>
<p>seqlengths(exon_txdb)返回每条染色体的长度信息</p>
<p>names,length</p>
<p>GRanges对象还有很多其它类型的操作，非常好玩的，split,shift,resize,flank,reduce,gaps,disjoin,coverage</p>
<p>其它求交集并集和都可以用,union,intersect,setdiff,pintersect,psetdiff</p>
<p>然后我们再回头看看我们的重点，txdb对象</p>
<p>transcriptsBy(txdb,by="gene")</p>
<p>这个是把我们对象按照gene来对转录本分组，可以看到，分成了23459个元素的list，其中第一个基因有两个转录本，也有一些基因只有一个转录本，甚至有些基因会有非常多的转录本，也可以用exonsBy,cdsBy来对它进行处理</p>
<p>每一个元素都是GRangesList对象，就是前面的<strong>GRanges对象，</strong></p>
<p>seqnames(x)</p>
<p>ranges(x)</p>
<p>strand(x)</p>
<p>mcols(x, use.names=FALSE)</p>
<p>elementMetadata(x)</p>
<p>values(x)</p>
<p>seqinfo(x)</p>
<p>seqlevels(x)</p>
<p>seqlengths(x)</p>
<p>isCircular(x)</p>
<p>genome(x)</p>
<p>seqnameStyle(x)</p>
<p>seqnames(x)</p>
<p>score(x)</p>
<p>还有很多关于它的介绍</p>
<p>http://web.mit.edu/r_v3.0.1/lib/R/library/GenomicRanges/html/GRangesList-class.html</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/831.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
