二 28

用R的shiny包写一个基因的ID转换小程序

Posted on 2016年2月28日 by ulwvfje

基因的ID现在可能有一千多种，但是我们一般只用NCBI的entrez ID，和HUGO组装规定的gene symbol和gene name

再者有人会用ensembl的ID，至于UCSC的ID很少人用了，更别说剩余的一大堆稀奇古怪的ID了。

http://www.genecards.org/cgi-bin/carddisp.pl?gene=TP53

其实没必要自己写一个软件来转换，因为非常多的现成软件都可以做到!

不过可以拿这个简单的任务来练手！

首先自己做好数据库文件：

我是把数据写到了一个sqlite文件里面了！结构很简单

然后设计软件的界面，俗称UI端，也是很容易，在shiny里面，记住几个控件的函数即可！

具体代码见我的github代码：https://github.com/jmzeng1314/my-R/tree/master/4-ID-convert-using-shiny

二 28

在R里面操作SQLite

Posted on 2016年2月28日 by ulwvfje

我前面写到过如何把数据库写到mysql，但是发现其实msyql并不方便，需要连接数据库什么的，如果发布一个离线小网页，这时候sqlite的优点就显示出来了！

基础代码很简单：

library(RSQLite)

sqlite <- dbDriver("SQLite")

con <- dbConnect(sqlite,"hg19_bioconductor.sqlite") # makes a new file

suppressMessages(library(org.Hs.eg.db))

kegg2ID=toTable(org.Hs.egPATH)

#[1] "gene_id" "path_id"

dbWriteTable(con,'keggID2geneID',kegg2ID,row.name=F,overwrite=T)

具体代码，可以看我的github主页：https://github.com/jmzeng1314/my-R/blob/master/3-get-hg19-gene-mapping/get-hg19-gene-mapping-bioconductor.R

做出来的数据，如下，就是几个table存储在文件里面！

最后这些数据都保存在了当前工作目录下的hg19_bioconductor.sqlite文件里面！

在其它程序里面就可以直接调用这个文件，而不需要加载一大堆的包了！

library(KEGG.db)

library(GO.db)

library(org.Hs.eg.db )

一个R语言package：https://cran.r-project.org/web/packages/RSQLite/RSQLite.pdf

参考：https://scottishsnow.wordpress.com/2014/08/14/writing-to-a-database-r-and-sqlite/

很好用，跟mysql一样！

示例代码：http://faculty.washington.edu/kenrice/sisg-adv/exampleSQLite.R

二 28

把bioconductor的gene mapping信息上传到mysql数据库

Posted on 2016年2月28日 by ulwvfje

在R语言里面的bioconductor系列包里面有一个物种注释信息包，其中人类是org.Hs.eg.db

里面有基于人的hg19基因组版本的大部分基因信息之间的转换数据！

包括基因的entrez ID，symbol，name，locus，refseq，kegg pathway，GO ontology对应关系！

但是它们散布在该包的各个数据结构里面！

> ls("package:org.Hs.eg.db")

[1] "org.Hs.eg" "org.Hs.eg.db"

[3] "org.Hs.eg_dbconn" "org.Hs.eg_dbfile"

[5] "org.Hs.eg_dbInfo" "org.Hs.eg_dbschema"

[7] "org.Hs.egACCNUM" "org.Hs.egACCNUM2EG"

[9] "org.Hs.egALIAS2EG" "org.Hs.egCHR"

[11] "org.Hs.egCHRLENGTHS" "org.Hs.egCHRLOC"

[13] "org.Hs.egCHRLOCEND" "org.Hs.egENSEMBL"

[15] "org.Hs.egENSEMBL2EG" "org.Hs.egENSEMBLPROT"

[17] "org.Hs.egENSEMBLPROT2EG" "org.Hs.egENSEMBLTRANS"

[19] "org.Hs.egENSEMBLTRANS2EG" "org.Hs.egENZYME"

[21] "org.Hs.egENZYME2EG" "org.Hs.egGENENAME"

[23] "org.Hs.egGO" "org.Hs.egGO2ALLEGS"

[25] "org.Hs.egGO2EG" "org.Hs.egMAP"

[27] "org.Hs.egMAP2EG" "org.Hs.egMAPCOUNTS"

[29] "org.Hs.egOMIM" "org.Hs.egOMIM2EG"

[31] "org.Hs.egORGANISM" "org.Hs.egPATH"

[33] "org.Hs.egPATH2EG" "org.Hs.egPFAM"

[35] "org.Hs.egPMID" "org.Hs.egPMID2EG"

[37] "org.Hs.egPROSITE" "org.Hs.egREFSEQ"

[39] "org.Hs.egREFSEQ2EG" "org.Hs.egSYMBOL"

[41] "org.Hs.egSYMBOL2EG" "org.Hs.egUCSCKG"

[43] "org.Hs.egUNIGENE" "org.Hs.egUNIGENE2EG"

[45] "org.Hs.egUNIPROT"

其实比较重要的信息，我们需要把它们统一关联起来，做成一个表格，这样可以上传到数据库里面，做成网页，可视化展现，查找！

suppressMessages(library(org.Hs.eg.db))

all_EG=mappedkeys(org.Hs.egSYMBOL)

###下面的表格最后是基于entrez ID而关联起来的！

tmp=unlist(as.list(org.Hs.egSYMBOL))

EG2Symbol=data.frame(EGID=names(tmp),symbol=as.character(tmp))

tmp=unlist(as.list(org.Hs.egENSEMBL))

EG2ENSEMBL=data.frame(EGID=names(tmp),ENSEMBL=as.character(tmp))

tmp=unlist(as.list(org.Hs.egGENENAME))

EG2name=data.frame(EGID=names(tmp),name=as.character(tmp))

tmp=unlist(as.list(org.Hs.egMAP))

EG2MAP=data.frame(EGID=names(tmp),MAP=as.character(tmp))

###EG2GO and using mySQL

EG2path=as.list(org.Hs.egPATH)

EG2path=lapply(EG2path, function(x) paste(x,collapse = ":"))

tmp=unlist(EG2path)

EG2path=data.frame(EGID=names(tmp),path=as.character(tmp))

#as.list(head(org.Hs.egGO2ALLEGS))

GO2allEG=as.list(org.Hs.egGO2ALLEGS)

tmp=unlist(GO2allEG)

names(tmp)=substring(names(tmp),1,10) ## change GO:0000002.IMP to GO:0000002

EG2allGO <- tapply(tmp,tmp,function(x){names(x)})

EG2allGO=lapply(EG2allGO, function(x) paste(x,collapse = ":"))

tmp=unlist(EG2allGO)

EG2GO=data.frame(EGID=names(tmp),GO=as.character(tmp))

tmp=merge(EG2Symbol,EG2MAP,by='EGID',all=TRUE)

tmp=merge(tmp,EG2ENSEMBL,by='EGID',all=TRUE)

tmp=merge(tmp,EG2path,by='EGID',all=TRUE)

tmp=merge(tmp,EG2name,by='EGID',all=TRUE)

my_gene_mapping=merge(tmp,EG2GO,by='EGID',all=TRUE)

##[1] "EGID" "symbol" "MAP" "ENSEMBL" "path" "name" "GO"

因为我用的merge的all=TRUE，所以最后记录会越来越多

最后的结果就是下面这样，各种ID转换都储存到了my_gene_mapping这个数据对象里面！

可以看到有些基因是没有ensemble数据库对应的ID的，非常多的基因没有被注释到KEGG通路数据库！

我这里如果一个基因对应多个通路，我用冒号连接起来了，成了一个字符串！在后面会有用！

现在需要把它上传到数据库里面，这样我就可以用R的shiny可视化网页来查找数据库，做ID转换啦！！！

suppressMessages(library(RMySQL))

con <- dbConnect(MySQL(), host="127.0.0.1", port=3306, user="root", password="11111111")

dbSendQuery(con, "USE test")

dbWriteTable(con,'my_gene_mapping',my_gene_mapping)

dbDisconnect(con)

然后就可以在自己的mysql里面看到它啦！！！

其实 "org.Hs.egOMIM" 也很重要，不过我这里只是举个例子，就不深究了！

还有一点，就是那个pathway ID，因为我要以entrez ID为主键，所以把多个pathway给合并了！

suppressMessages(library(org.Hs.eg.db))

kegg2ID=toTable(org.Hs.egPATH)

#[1] "gene_id" "path_id"

dbWriteTable(con,'kegg2ID_bioconductor',kegg2ID,row.name=F,overwrite=T)

go2id=toTable(org.Hs.egGO2ALLEGS)

## gene_id go_id Evidence Ontology

dbWriteTable(con,'go2id_bioconductor',go2id,row.name=F,overwrite=T)

dbDisconnect(con)

用这个代码，可以在数据库里面多创建两个表，会有用的！

二 28

用crossmap代替liftover做基因组坐标转换

Posted on 2016年2月28日 by ulwvfje

其实国际三大主流生物信息学数据库运营单位都出了自己的基因组坐标转换，它们分别是 (UCSC liftOver, NCBI Remap, Ensembl API)

Ensembl's Assembly Converter.是基于crossmap的，我觉得挺好用的，就介绍给大家！！！

This online tool currently uses CrossMap, which supports a limited number of formats (see our online documentation for details of the individual data formats listed below). CrossMap also discards metadata in files, so track definitions, etc, will be lost on conversion.

Important note: CrossMap converts WIG files to BedGraph internally for efficiency, and also outputs them in BedGraph format.

但是不知道为什么UCSC的liftover最出名，我也写过它的教程，（http://www.bio-info-trainee.com/?p=990）

Continue reading →

二 22

没必要学shell进阶语法

Posted on 2016年2月22日 by ulwvfje

因为大部分生物信息学软件都是linux版本的，所以生物信息学数据分析工作者必备技能就是linux，但是大部分人只是拿他当个中转站，我以前也是，直到接触了大批量的任务，自动化流程，才明白这里面的水太深了，不过无所谓，凭我个人的观点，其实shell的进阶语法真的不必要！

当然，只是我一家之言！

我实在是不想去背诵大括号，小括号，中括号以及双重括号到底区别是什么！

http://www.bio-info-trainee.com/?p=1018 [],[[]],(),(()),{},{{}},以及在前面加上$的区别，以及它们互相杂交组合的区别！！！

我也不想去搞明白操作符两边是否加空格的区别是什么了。

if((i%5==0)) 来判断变量是否被一个数整除

i=$((i+1))来表示变量自增。

这些东西真的很诡异！

如果你有qsub，condor等任务提交系统，那么你只需要熟悉他们就可以了，但大部分散兵游勇的生物信息学家并没有集群，所以压根不会接触任务提交系统，就需要些自动化脚本了！

http://www.bio-info-trainee.com/?p=382

受限制与机器的cpu以及内存数，需要判断提交了多少任务，等待多久再执行，所以会把一个简单的自动化脚本写的很复杂！

比如下面这个脚本：cat >download_hg38_from_UCSC.sh

for i in $(seq 1 22) X Y M;

do echo $i;

wget ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/chr${i}.fa.gz;

done

gunzip *.gz

for i in $(seq 1 22) X Y M;

do cat chr${i}.fa >> hg38.fa;

done

rm -fr chr*.fa

可以下载hg38基因组的fasta文件，但是是分染色体一个个下载的！

再比如下面这个，批量做GSEA分析的脚本：

while read id

echo $id

gene=`echo $id |awk '{print $1}'`

probe=`echo $id |awk '{print $2}'`

echo $i

do_GSEA $probe $gene; ##这里是我自己定义的一个function，就不贴出来了

if((i%5==0))

then

sleep 10 ##重点就在这里，每次提交的任务有限制，所以需要休息，不然机器的cpu负载太高！

i=$((i+1))

done <$1

如果，还有其它功能需要实现，我们可以把脚本写的更负载，纯粹的用shell，需要搜索更多的shell技巧。

但是事实上并没有这个必要，我们现在有了更方便的脚本语言，比如我所擅长的perl

我写一个nohup提交任务的脚本！

## perl nohup.pl deep_count.sh 0

## perl nohup.pl deep_count.sh 1

## perl nohup.pl deep_count.sh 2

[perl]
## perl nohup.pl   deep_count.sh 0
## perl nohup.pl   deep_count.sh 1
## perl nohup.pl   deep_count.sh 2
$i=1;
open FH,$ARGV[0];
while(<FH>){
   chomp;
   next unless $.%3==$ARGV[1];
   $cmd="nohup $_ &";
   print "$cmd\n";
   system($cmd);
   sleep(10800) if $i%5==4;
   $i++;
   #exit;
}
[/perl]

我尝试过用shell，写了很久，总是报错，但是用perl，一分钟我就写完了，所以，最好是用自己熟悉的一种语法最好！

二 21

画基因结构图！

Posted on 2016年2月21日 by ulwvfje

一个基因有一个甚至多个转录本！根据转录及翻译现象可以把一个基因人为的定义成多种结构！

首先自己查资料搞明白转录本，外显子和内含子，5端UTR区域和CDS区域，还有3端UTR区域的概念。

真核生物的基因含有外显子和内含子，是区别原核生物的特征之一，能转录的就是外显子，不能转录的就是内含子！

内含子（英语：Intron）是一个基因中非编码DNA片段，它分开相邻的外显子。更精确的定义是：内含子是阻断基因线性表达的序列。DNA上的内含子会被转录到前体RNA中，但RNA上的内含子会在RNA离开细胞核进行转译前被剪除。在成熟mRNA被保留下来的基因部分被称为外显子。

通常我们看到基因结构示意图会像下面这样！

但是对于这个图，我之前有非常多的疑问，直到我自己写程序去仔细统计，画图探究后才真正搞明白！

从图中可以看到5端UTR区域后面接着的是第一外显子，但是事实上不是！

外显子和内含子是转录本上面的概念，是基于转录这个行为的定义。

而5端UTR区域和CDS区域，还有3端UTR区域,是基于翻译这种行为的定义！

把它们画成这样，是严重的干扰信息。

实际上，我们需要更正很多概念，我检验了一下，得到下面几个正确的：

1，如果基因有多个转录本，基因的起始坐标，就是该基因所有转录本的第一个外显子的起始坐标的最小值，同理基因的终止坐标，就是该基因的所有转录本的最后一个外显子的终止坐标的最大值。

2，通过这个概念，可以把基因分成闭合基因和非闭合基因。闭合基因:有一个最长转录本使得基因起始终止坐标等于该最长转录本的起始终止坐标。（这个是我乱说的，并没有这个定义）

3，如果基因只有一个转录本，那么基因的起始终止坐标，就是转录本的起始终止坐标！

4，一个基因的一个转录本的5'utr区域可以包括多个外显子区域，前者是翻译行为，后者是转录行为

5，起始密码子和终止密码子是CDS的起止处，是基于翻译的概念

6，一个基因的多个转录本的外显子坐标不一定会排列整齐，每个转录本的剪切位点并不一定要比其它转录本一致！

比如对这个ANXA1基因来说，非常多的转录本，但是基因的起始终止坐标，是所有转录本起始终止坐标的极大值和极小值！同时，它是一个闭合基因，因为它存在一个转录本的起始终止坐标等于该基因的起始终止坐标。可以看到它的外显子并不是非常整齐的，虽然多个转录本会共享某些外显子，但是也存在某些外显子比同区域其它外显子长的现象！

再比如下面这个例子：对DDX11L11这个基因来说，前两个外显子都不会翻译，直到第三个外显子才开始翻译，构成CDS。

有些转录本是没有utr的，所以该转录本的起始坐标，就是CDS的起始坐标

首先把gtf文件格式化导入mysql数据库

我用的是broadinstitute提供的GENCODE的gtf文件，是hg19版本的

http://www.broadinstitute.org/cancer/cga/rnaseqc_download

Modified GENCODE GTF file for human with contig names of form ("1","2", etc)

##description: evidence-based annotation of the human genome (GRCh37), version 7 (Ensembl 62)

##provider: GENCODE

##contact: gencode@sanger.ac.uk

##format: gtf

##date: 2011-03-23

很简单，下载数据，parse好之后，用R导入mysql即可！

创建表：http://www.yiibai.com/mysql/mysql_create_tables.html

下面是mysql代码：

--mysql code

use test;

drop table if exists hg19_gtf;

create table hg19_gtf (

gene_name VARCHAR(30),

transcript_name VARCHAR(30) ,

record VARCHAR(15) NOT NULL ,

chr VARCHAR(2) NOT NULL ,

start INT NOT NULL ,

end INT NOT NULL ,

source VARCHAR(10) NOT NULL ,

strand VARCHAR(1) NOT NULL ,

gene_id VARCHAR(30) NOT NULL ,

transcript_id VARCHAR(30) NOT NULL ,

gene_status VARCHAR(30) ,

gene_type VARCHAR(30) ,

transcript_type VARCHAR(30) ,

transcript_status VARCHAR(30)

);

--我的网页好像不支持mysql代码高亮，大家凑合着看吧，反正就是一个简单的建表语句！

select * from hg19_gtf limit 100;

select * from hg19_gtf where gene_name='DMD';

select count(*) from hg19_gtf where gene_name='DMD' and record='start_codon'; --18 start condon

select count(distinct(transcript_name)) from hg19_gtf where gene_name='DMD' ; --34 transcript

select count(distinct(transcript_name)) c ,gene_name from hg19_gtf where record='transcript' group by gene_name order by c desc;

我是随意设计的一个表，主要是为了画图方便！

接下来是R code来具体的对基因进行画图！

[perl]
suppressMessages(library(ggplot2))
suppressMessages(library(RMySQL))
con <- dbConnect(MySQL(), host="127.0.0.1", port=3306, user="root", password="11111111")
dbSendQuery(con, "USE test")
gene='SOX10'
#gene='DDX11L11'
if (T){
query=paste("select * from hg19_gtf where gene_type='protein_coding' and gene_name=",shQuote(gene),sep="")
structure=dbGetQuery(con,query)
tmp_min=min(c(structure$start,structure$end))
structure$new_start=structure$start-tmp_min
structure$new_end=structure$end-tmp_min
tmp_max=max(c(structure$new_start,structure$new_end))
num_transcripts=nrow(structure[structure$record=='transcript',])
tmp_color=rainbow(num_transcripts)
x=1:tmp_max;y=rep(num_transcripts,length(x))
#x=10000:17000;y=rep(num_transcripts,length(x))
plot(x,y,type = 'n',xlab='',ylab = '',ylim = c(0,num_transcripts+1))
title(main = gene,sub = paste("chr",tmp$chr,":",tmp$start,"-",tmp$end,sep=""))
j=0;
tmp_legend=c()
for (i in 1:nrow(structure)){
tmp=structure[i,]
if(tmp$record == 'transcript'){
j=j+1
tmp_legend=c(tmp_legend,paste("chr",tmp$chr,":",tmp$start,"-",tmp$end,sep=""))
}
if(tmp$record == 'exon') lines(c(tmp$new_start,tmp$new_end),c(j,j),col=tmp_color[j],lwd=4)
}
# legend('topleft',legend=tmp_legend,lty=1,lwd = 4,col = tmp_color);

}
[/perl]

通过这个代码，，就能简单的得到我上面显示的基因结构图啦！

二 18

生物信息学分析过程中常见文件格式

Posted on 2016年2月18日 by ulwvfje

刚开始接触生物信息学的时候我也很纠结什么fastq,fastq,sam,bam,vcf,maf,gtf,bed,psl等等，甚至还有过时了的NCBI,ENSEMBL格式，如果是我刚开始学的时候，我倒是很愿意把他们全部搞透彻，写详细的说明书，但是现在成长了，这些东西感觉很low了，正好我看到了一篇帖子讲数据格式的收集大全，分享给大家，希望初学者能多花点时间好好钻研！

https://www.biostars.org/p/55351/

https://genome.ucsc.edu/FAQ/FAQformat.html

http://bioinf.comav.upv.es/courses/sequence_analysis/sequence_file_formats.html

http://www.molecularevolution.org/resources/fileformats

http://www.broadinstitute.org/igv/?q=book/export/html/16

http://www.broadinstitute.org/cancer/software/genepattern/file-formats-guide

每种文件格式的定义，都是有它的道理的，大部分是因为一个比较流行的软件，少量的数据格式是因为国际组织广泛认可而流行的

二 15

用R获取芯片探针与基因的对应关系三部曲-bioconductor

Posted on 2016年2月15日 by ulwvfje

现有的基因芯片种类不要太多了！

但是重要而且常用的芯片并不多！

一般分析芯片数据都需要把探针的ID切换成基因的ID，我一般喜欢用基因的entrez ID。

一般有三种方法可以得到芯片探针与gene的对应关系。

金标准当然是去基因芯片的厂商的官网直接去下载啦！！！

一种是直接用bioconductor的包

一种是从NCBI里面下载文件来解析好！

首先，我们说官网，肯定可以找到，不然这种芯片出来就没有意义了！

然后，我们看看NCBI下载的，会比较大

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL6947

这两种方法都比较麻烦，需要一个个的来！

所以我接下来要讲的是用R的bioconductor包来批量得到芯片探针与gene的对应关系！

一般重要的芯片在R的bioconductor里面都是有包的，用一个R包可以批量获取有注释信息的芯片平台，我选取了常见的物种，如下：

gpl           organism                  bioc_package

1     GPL32       Mus musculus                        mgu74a

2     GPL33       Mus musculus                        mgu74b

3     GPL34       Mus musculus                        mgu74c

6     GPL74       Homo sapiens                        hcg110

7     GPL75       Mus musculus                     mu11ksuba

8     GPL76       Mus musculus                     mu11ksubb

9     GPL77       Mus musculus                     mu19ksuba

10    GPL78       Mus musculus                     mu19ksubb

11    GPL79       Mus musculus                     mu19ksubc

12    GPL80       Homo sapiens                        hu6800

13    GPL81       Mus musculus                      mgu74av2

14    GPL82       Mus musculus                      mgu74bv2

15    GPL83       Mus musculus                      mgu74cv2

16    GPL85  Rattus norvegicus                        rgu34a

17    GPL86  Rattus norvegicus                        rgu34b

18    GPL87  Rattus norvegicus                        rgu34c

19    GPL88  Rattus norvegicus                         rnu34

20    GPL89  Rattus norvegicus                         rtu34

22    GPL91       Homo sapiens                      hgu95av2

23    GPL92       Homo sapiens                        hgu95b

24    GPL93       Homo sapiens                        hgu95c

25    GPL94       Homo sapiens                        hgu95d

26    GPL95       Homo sapiens                        hgu95e

27    GPL96       Homo sapiens                       hgu133a

28    GPL97       Homo sapiens                       hgu133b

29    GPL98       Homo sapiens                     hu35ksuba

30    GPL99       Homo sapiens                     hu35ksubb

31   GPL100       Homo sapiens                     hu35ksubc

32   GPL101       Homo sapiens                     hu35ksubd

36   GPL201       Homo sapiens                       hgfocus

37   GPL339       Mus musculus                       moe430a

38   GPL340       Mus musculus                     mouse4302

39   GPL341  Rattus norvegicus                       rae230a

40   GPL342  Rattus norvegicus                       rae230b

41   GPL570       Homo sapiens                   hgu133plus2

42   GPL571       Homo sapiens                      hgu133a2

43   GPL886       Homo sapiens                     hgug4111a

44   GPL887       Homo sapiens                     hgug4110b

45  GPL1261       Mus musculus                    mouse430a2

49  GPL1352       Homo sapiens                       u133x3p

50  GPL1355  Rattus norvegicus                       rat2302

51  GPL1708       Homo sapiens                     hgug4112a

54  GPL2891       Homo sapiens                       h20kcod

55  GPL2898  Rattus norvegicus                     adme16cod

60  GPL3921       Homo sapiens                     hthgu133a

63  GPL4191       Homo sapiens                       h10kcod

64  GPL5689       Homo sapiens                     hgug4100a

65  GPL6097       Homo sapiens               illuminaHumanv1

66  GPL6102       Homo sapiens               illuminaHumanv2

67  GPL6244       Homo sapiens   hugene10sttranscriptcluster

68  GPL6947       Homo sapiens               illuminaHumanv3

69  GPL8300       Homo sapiens                      hgu95av2

70  GPL8490       Homo sapiens   IlluminaHumanMethylation27k

71 GPL10558       Homo sapiens               illuminaHumanv4

72 GPL11532       Homo sapiens   hugene11sttranscriptcluster

73 GPL13497       Homo sapiens         HsAgilentDesign026652

74 GPL13534       Homo sapiens  IlluminaHumanMethylation450k

75 GPL13667       Homo sapiens                        hgu219

76 GPL15380       Homo sapiens      GGHumanMethCancerPanelv1

77 GPL15396       Homo sapiens                     hthgu133b

78 GPL17897       Homo sapiens                     hthgu133a

这些包首先需要都下载

gpl_info=read.csv("GPL_info.csv",stringsAsFactors = F)

### first download all of the annotation packages from bioconductor

for (i in 1:nrow(gpl_info)){

  print(i)

  platform=gpl_info[i,4]

  platform=gsub('^ ',"",platform) ##主要是因为我处理包的字符串前面有空格

  #platformDB='hgu95av2.db'

  platformDB=paste(platform,".db",sep="")

  if( platformDB  %in% rownames(installed.packages()) == FALSE) {

    BiocInstaller::biocLite(platformDB)

    #source("http://bioconductor.org/biocLite.R");

    #biocLite(platformDB )

  }

}

下载完了所有的包，就可以进行批量导出芯片探针与gene的对应关系！

for (i in 1:nrow(gpl_info)){

  print(i)

  platform=gpl_info[i,4]

  platform=gsub('^ ',"",platform)

  #platformDB='hgu95av2.db'

  platformDB=paste(platform,".db",sep="")

  if( platformDB  %in% rownames(installed.packages()) != FALSE) {

    library(platformDB,character.only = T)

    #tmp=paste('head(mappedkeys(',platform,'ENTREZID))',sep='')

    #eval(parse(text = tmp))

###重点在这里，把字符串当做命令运行

    all_probe=eval(parse(text = paste('mappedkeys(',platform,'ENTREZID)',sep='')))

    EGID <- as.numeric(lookUp(all_probe, platformDB, "ENTREZID"))

##自己把内容写出来即可

  }

}

参考：http://blog.sina.com.cn/s/blog_62b37bfe0101jbuq.html

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Monthly Archives: 2月 2016

用R的shiny包写一个基因的ID转换小程序

在R里面操作SQLite

把bioconductor的gene mapping信息上传到mysql数据库

用crossmap代替liftover做基因组坐标转换

没必要学shell进阶语法

画基因结构图！

生物信息学分析过程中常见文件格式

用R获取芯片探针与基因的对应关系三部曲-bioconductor

2016年2月
一	二	三	四	五	六	日
« 一				三 »
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29