芯片探针注释基因ID或者symbol，并对每个基因挑选最大表达量探针

ulwvfje — Tue, 29 Mar 2016 10:14:06 +0000

在R里面实现这个功能其实非常简单，难的是很多packages经常会出现安装问题，更有的人压根不看芯片平台是什么，芯片对应的package是什么，就开始到处发问，自学能力实在是堪忧！

我前面有写目前所有bioconductor支持的芯片平台对应关系：通过bioconductor包来获取所有的芯片探针与gene的对应关系

但那其实是一个很笨的办法，得到所有的各式各样的探针ID与基因的对应关系，以为它绕路了，正常情况只需要在GEO里面找到芯片对应基因关系即可，没必要下载那么多package的，但是这样做的好处也是很明显的，对很多初学者来说，如果package能解决的话，就省心很多，比如下面这个转换关系：

suppressPackageStartupMessages(library(CLL))

## 这个package自带了一个数据，是我们需要用的

data(sCLLex) ## 这个数据里面有24个样本，分成两组，可以直接拿来测试差异基因分析

library(hgu95av2.db) ## 一定要搞清楚自己的芯片是什么数据包

## 常见的芯片平台，都是有对应的bioconductor数据包的

exprSet=exprs(sCLLex) ##得到表达数据矩阵，但是矩阵的行名，是探针ID，无法理解，需要转换

##首先你取出所有的探针ID，#这里可以用三种方法来得到symbol，或者得到entrezID也可以

probeset=rownames(exprSet)

Symbol=as.character(as.list(hgu95av2SYMBOL[probeset]))

#annotate包提供 getSYMBOL( probeset ,"hgu95av2" )

#还可以用lookUp函数 lookUp( probeset , "hgu95av2", "SYMBOL")

#这些只是技巧而已啦

a=cbind.data.frame(Symbol,exprSet)

## 下面这个函数是对每个基因挑选最大表达量探针

rmDupID <-function(a=matrix(c(1,1:5,2,2:6,2,3:7),ncol=6)){

exprSet=a[,-1]

rowMeans=apply(exprSet,1,function(x) mean(as.numeric(x),na.rm=T))

a=a[order(rowMeans,decreasing=T),]

exprSet=a[!duplicated(a[,1]),]

#exprSet=apply(exprSet,2,as.numeric)

exprSet=exprSet[!is.na(exprSet[,1]),]

rownames(exprSet)=exprSet[,1]

exprSet=exprSet[,-1]

return(exprSet)

}

exprSet=rmDupID(a)

对每个基因挑选最大表达量探针，只是一种处理方法而已，只是我一般处理芯片是这样做的，并不一定就是最好的！

用R获取芯片探针与基因的对应关系三部曲-bioconductor

ulwvfje — Mon, 15 Feb 2016 15:41:55 +0000

现有的基因芯片种类不要太多了！

但是重要而且常用的芯片并不多！

一般分析芯片数据都需要把探针的ID切换成基因的ID，我一般喜欢用基因的entrez ID。

一般有三种方法可以得到芯片探针与gene的对应关系。

金标准当然是去基因芯片的厂商的官网直接去下载啦！！！

一种是直接用bioconductor的包

一种是从NCBI里面下载文件来解析好！

首先，我们说官网，肯定可以找到，不然这种芯片出来就没有意义了！

然后，我们看看NCBI下载的，会比较大

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL6947

这两种方法都比较麻烦，需要一个个的来！

所以我接下来要讲的是用R的bioconductor包来批量得到芯片探针与gene的对应关系！

一般重要的芯片在R的bioconductor里面都是有包的，用一个R包可以批量获取有注释信息的芯片平台，我选取了常见的物种，如下：

gpl           organism                  bioc_package

1     GPL32       Mus musculus                        mgu74a

2     GPL33       Mus musculus                        mgu74b

3     GPL34       Mus musculus                        mgu74c

6     GPL74       Homo sapiens                        hcg110

7     GPL75       Mus musculus                     mu11ksuba

8     GPL76       Mus musculus                     mu11ksubb

9     GPL77       Mus musculus                     mu19ksuba

10    GPL78       Mus musculus                     mu19ksubb

11    GPL79       Mus musculus                     mu19ksubc

12    GPL80       Homo sapiens                        hu6800

13    GPL81       Mus musculus                      mgu74av2

14    GPL82       Mus musculus                      mgu74bv2

15    GPL83       Mus musculus                      mgu74cv2

16    GPL85  Rattus norvegicus                        rgu34a

17    GPL86  Rattus norvegicus                        rgu34b

18    GPL87  Rattus norvegicus                        rgu34c

19    GPL88  Rattus norvegicus                         rnu34

20    GPL89  Rattus norvegicus                         rtu34

22    GPL91       Homo sapiens                      hgu95av2

23    GPL92       Homo sapiens                        hgu95b

24    GPL93       Homo sapiens                        hgu95c

25    GPL94       Homo sapiens                        hgu95d

26    GPL95       Homo sapiens                        hgu95e

27    GPL96       Homo sapiens                       hgu133a

28    GPL97       Homo sapiens                       hgu133b

29    GPL98       Homo sapiens                     hu35ksuba

30    GPL99       Homo sapiens                     hu35ksubb

31   GPL100       Homo sapiens                     hu35ksubc

32   GPL101       Homo sapiens                     hu35ksubd

36   GPL201       Homo sapiens                       hgfocus

37   GPL339       Mus musculus                       moe430a

38   GPL340       Mus musculus                     mouse4302

39   GPL341  Rattus norvegicus                       rae230a

40   GPL342  Rattus norvegicus                       rae230b

41   GPL570       Homo sapiens                   hgu133plus2

42   GPL571       Homo sapiens                      hgu133a2

43   GPL886       Homo sapiens                     hgug4111a

44   GPL887       Homo sapiens                     hgug4110b

45  GPL1261       Mus musculus                    mouse430a2

49  GPL1352       Homo sapiens                       u133x3p

50  GPL1355  Rattus norvegicus                       rat2302

51  GPL1708       Homo sapiens                     hgug4112a

54  GPL2891       Homo sapiens                       h20kcod

55  GPL2898  Rattus norvegicus                     adme16cod

60  GPL3921       Homo sapiens                     hthgu133a

63  GPL4191       Homo sapiens                       h10kcod

64  GPL5689       Homo sapiens                     hgug4100a

65  GPL6097       Homo sapiens               illuminaHumanv1

66  GPL6102       Homo sapiens               illuminaHumanv2

67  GPL6244       Homo sapiens   hugene10sttranscriptcluster

68  GPL6947       Homo sapiens               illuminaHumanv3

69  GPL8300       Homo sapiens                      hgu95av2

70  GPL8490       Homo sapiens   IlluminaHumanMethylation27k

71 GPL10558       Homo sapiens               illuminaHumanv4

72 GPL11532       Homo sapiens   hugene11sttranscriptcluster

73 GPL13497       Homo sapiens         HsAgilentDesign026652

74 GPL13534       Homo sapiens  IlluminaHumanMethylation450k

75 GPL13667       Homo sapiens                        hgu219

76 GPL15380       Homo sapiens      GGHumanMethCancerPanelv1

77 GPL15396       Homo sapiens                     hthgu133b

78 GPL17897       Homo sapiens                     hthgu133a

这些包首先需要都下载

gpl_info=read.csv("GPL_info.csv",stringsAsFactors = F)

### first download all of the annotation packages from bioconductor

for (i in 1:nrow(gpl_info)){

  print(i)

  platform=gpl_info[i,4]

  platform=gsub('^ ',"",platform) ##主要是因为我处理包的字符串前面有空格

  #platformDB='hgu95av2.db'

  platformDB=paste(platform,".db",sep="")

  if( platformDB  %in% rownames(installed.packages()) == FALSE) {

    BiocInstaller::biocLite(platformDB)

    #source("http://bioconductor.org/biocLite.R");

    #biocLite(platformDB )

  }

}

下载完了所有的包，就可以进行批量导出芯片探针与gene的对应关系！

for (i in 1:nrow(gpl_info)){

  print(i)

  platform=gpl_info[i,4]

  platform=gsub('^ ',"",platform)

  #platformDB='hgu95av2.db'

  platformDB=paste(platform,".db",sep="")

  if( platformDB  %in% rownames(installed.packages()) != FALSE) {

    library(platformDB,character.only = T)

    #tmp=paste('head(mappedkeys(',platform,'ENTREZID))',sep='')

    #eval(parse(text = tmp))

###重点在这里，把字符串当做命令运行

    all_probe=eval(parse(text = paste('mappedkeys(',platform,'ENTREZID)',sep='')))

    EGID <- as.numeric(lookUp(all_probe, platformDB, "ENTREZID"))

##自己把内容写出来即可

  }

}

参考：http://blog.sina.com.cn/s/blog_62b37bfe0101jbuq.html

生信菜鸟团 » 探针

芯片探针注释基因ID或者symbol，并对每个基因挑选最大表达量探针

用R获取芯片探针与基因的对应关系三部曲-bioconductor