27

gene的symbol与entrez ID并不是绝对的一一对应的

很多时候,我们都无法确定到底是基于symbol来进行分析,还是基于entrez ID,当我们要进行ID转换的时候也想当然的以为它们的一一对应的, 但是最近我写了一个脚本来分析CCLE的数据的时候,发现其实有一些特例:

suppressMessages(library(org.Hs.eg.db))

all_symbol=mappedkeys(org.Hs.egSYMBOL2EG)

all_EGID =mappedkeys(org.Hs.egSYMBOL)
tmp=as.list(org.Hs.egSYMBOL2EG[all_symbol])
#tmp=as.list(org.Hs.egSYMBOL[all_EGID ])
tmp=unlist(lapply(tmp,length))
tmp=tmp[tmp>1]
as.list(org.Hs.egSYMBOL2EG[names(tmp)])
有多个entrez ID对应一个symbol的现象出现,但是没有一个symbol对应多个entrez ID的现象。而且entrez ID也会过期!
$CSNK1E
[1] "1454"      "102800317"
$HBD
[1] "3045"      "100187828"
$RNR1
[1] "4549" "6052"
$RNR2
[1] "4550" "6053"
$SFPQ
[1] "6421"   "654780"
$TEC
[1] "7006"      "100124696"
$MEMO1
[1] "7795"  "51072"
$KIR3DL3
[1] "115653"    "100133046"
$MMD2
[1] "221938"    "100505381"
$`LSAMP-AS1`
[1] "100506708" "101926903"
通过下面的链接可以看到具体情况
31

Ensembl数据库在线网页工具biomart简单教程

这个工具主要是针对不会bioperl不会API调取数据的生信纯菜鸟准备的,主要是方便大家批量研究某些感兴趣的基因,需要准备的数据就是基因名或者基因的ID号,能从该网站获取的资料非常多,可以是关于你的输入的基因名的各种数据库有的信息。

http://www.ensembl.org/biomart/

第一步:选取数据库,我一般选取人的

Ensembl数据库在线网页工具biomart简单教程243

第二步,选择上传数据的格式

Ensembl数据库在线网页工具biomart简单教程259

这个下拉框里面可以选取很多种格式,你随便张贴进去哪一种格式的基因ID都可以,也可以把做好的ID文件上传进去,批量获取基因信息。

Ensembl数据库在线网页工具biomart简单教程325

我这里输入的是几个免疫基因。

第三步,选择下载数据的格式

首先可以选择你上传的gene的可以转换的各种ID

Ensembl数据库在线网页工具biomart简单教程356

然后可以选择你上传的gene的各种序列

Ensembl数据库在线网页工具biomart简单教程358

可以选择的信息非常多,基本上可以想到的转换在这里都能做!!!

但是,始终没有脚本方便,只适合不太懂编程的菜鸟使用!

然后点击result即可,看到结果还可以导出成txt文档,点击右上角的GO即可

Ensembl数据库在线网页工具biomart简单教程458