用oligo包来读取affymetix的基因表达芯片数据-CEL格式数据

前面讲到affy处理的芯片平台是有限的,一般是hgu 95系列和133系列,[HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array这个平台虽然也是affymetrix公司的,但是affy包就无法处理 了,这时候就需要oligo包了!

oligo包是R语言的bioconductor系列包的一个,就一个功能,读取affymetix的基因表达芯片数据-CEL格式数据,处理成表达矩阵!!!

同理,我们也是要下载原始数据:一个例子:GSE48452

下载之后,解压到指定目录,就可以直接用oligo包啦!

geneCELs=list.celfiles('/path/GSE48452/cel_files/',listGzipped=T,full.name=T)
#用全路径,一般cel文件也是压缩包形式,没必要解压
affyGeneFS <- read.celfiles(geneCELs)  ##读取cel文件
geneCore <- rma(affyGeneFS, target = "core")  ##这一步是normalization,会比较耗时
genePS <- rma(affyGeneFS, target = "probeset")
#两种normlization的方法,##一般我们会选择transcript相关的
## 这个芯片平台还需要自己把探针ID赋值给表达矩阵
featureData(genePS) <- getNetAffx(genePS, "probeset")
featureData(geneCore) <- getNetAffx(geneCore, "transcript")
## 探针ID还需要注释到基因ID,这里就不讲了!

处理之后得到的表达矩阵应该是与GEO官网的一致,大家可以自己对照检查一下:

ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE48nnn/GSE48452/matrix/GSE48452_series_matrix.txt.gz

Comments are closed.