Bioconductor系列之GenomicFeatures

Bioconductor系列包的安装方法都一样

source("http://bioconductor.org/biocLite.R")biocLite(“GenomicFeatures”)

安装成功之后就可以找到这个包自带的pdf说明书。

Bioconductor系列之GenomicFeatures154

先简单回顾一下这个包的用法,在前面的日志里面我重点讲解了txdb对象,就是这个包的重点。

## ----loadGenomicFeatures----------------------------------------------------------------

library("GenomicFeatures")

第一种方法构建txdb对象,从本地读取数据库文件,支持sqlite数据库。

## ----loadDb-----------------------------------------------------------------------------

samplefile <- system.file("extdata", "hg19_knownGene_sample.sqlite",

package="GenomicFeatures")

txdb <- loadDb(samplefile)

txdb

第二种方法构建txdb对象,安装独立的包

## ----loadPackage------------------------------------------------------------------------

biocLite("TxDb.Hsapiens.UCSC.hg19.knownGene") #每个物种都有类似的包

library(TxDb.Hsapiens.UCSC.hg19.knownGene)

txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene #shorthand (for convenience)

Txdb

R语言里面的数据库都支持select函数操作,包括前面讲解的biomaRt和db型数据库

## ----selectExample----------------------------------------------------------------------

Version:1.0 StartHTML:0000000105 EndHTML:0000003832 StartFragment:0000000127 EndFragment:0000003814

> library(TxDb.Hsapiens.UCSC.hg19.knownGene)

> txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene #shorthand (for convenience)

> txdb

TxDb object:| Db type: TxDb| Supporting package: GenomicFeatures| Data source: UCSC| Genome: hg19| Organism: Homo sapiens| UCSC Table: knownGene| Resource URL: http://genome.ucsc.edu/| Type of Gene ID: Entrez Gene ID| Full dataset: yes| miRBase build ID: GRCh37| transcript_nrow: 82960| exon_nrow: 289969| cds_nrow: 237533| Db created by: GenomicFeatures package from Bioconductor| Creation time: 2014-09-26 11:16:12 -0700 (Fri, 26 Sep 2014)| GenomicFeatures version at creation time: 1.17.17| RSQLite version at creation time: 0.11.4| DBSCHEMAVERSION: 1.0

> keys <- c("100033416", "100033417", "100033420")

> columns(txdb)

[1] "CDSID"      "CDSNAME"    "CDSCHROM"   "CDSSTRAND"  "CDSSTART"   "CDSEND"     "EXONID"     "EXONNAME"   "EXONCHROM"  "EXONSTRAND" "EXONSTART"  "EXONEND"   [13] "GENEID"     "TXID"       "EXONRANK"   "TXNAME"     "TXCHROM"    "TXSTRAND"   "TXSTART"    "TXEND"

> keytypes(txdb)

[1] "GENEID"   "TXID"     "TXNAME"   "EXONID"   "EXONNAME" "CDSID"    "CDSNAME"

> select(txdb, keys = keys, columns="TXNAME", keytype="GENEID")

GENEID     TXNAME1 100033416 uc001yxl.42 100033417 uc001yxo.33 100033420 uc001yxr.3

必须要看仔细这个包所支持的columns和keytypes,严格字符串相等才能进行数据库查询操作。

 

还有之前我讲过的genes,transcripts,exons,cds等函数作用于txdb对象都会生成Granges对象。

当然还有transcriptsBy(),exonsBy()等函数作用于txdb对象都会生成Granges 对象。

还有几个函数是我之前没有讲到的,找到所有转录本的内含子,5端或者3端的UTR序列,也是生成Granges 对象。

## ----introns-UTRs-----------------------------------------------------------------------

length(intronsByTranscript(txdb))

length(fiveUTRsByTranscript(txdb))

length(threeUTRsByTranscript(txdb))

上面简单的介绍了这个包的使用方法,关于这个包的一些应用,就要与其它一些包结合起来看了,我先把另外两个包给讲完了,再讲综合应用

 

Comments are closed.