转录组-GO和KEGG富集的R包clusterProfiler

ulwvfje — Thu, 19 Mar 2015 13:41:04 +0000

PS：请不要在问我关于这个包的任何问题，直接联系Y叔，我就两年前用过一次而已，再也没有用过。

Y叔的包更新太频繁了，这个教程已经作废，请不要再照抄了，可以去我们论坛看新的教程：http://www.biotrainee.com/thread-1084-1-1.html

一：下载安装该R包

clusterProfiler是业界很出名的YGC写的R包，非常通俗易懂，也很好用，可以直接根据cuffdiff等找差异的软件找出的差异基因entrez ID号直接做好富集的所有内容；

Bioconductor网站上面有关于它的介绍，按照上面说的方式来安装即可

http://www.bioconductor.org/packages/release/bioc/html/clusterProfiler.html

source("http://bioconductor.org/biocLite.R");biocLite("clusterProfiler")

二、输入数据

diff_gene.entrez文件，是通过各种差异基因软件找出来的差异基因的entrez ID号列表，每一个ID号一行，几百个差异基因就几百行

三、R语言代码

setwd("C:\\Users\\Administrator\\Desktop\\ref")

a=read.table("diff_gene.entrez")

require(DOSE)

require(clusterProfiler)

gene=as.character(a[,1])

ego <- enrichGO(gene=gene,organism="human",ont="CC",pvalueCutoff=0.01,readable=TRUE)

ekk <- enrichKEGG(gene=gene,organism="human",pvalueCutoff=0.01,readable=TRUE)

write.csv(summary(ekk),"KEGG-enrich.csv",row.names =F)

write.csv(summary(ego),"GO-enrich.csv",row.names =F)

四、输出文件解读

看得懂R语言的都知道，这个代码输出了两个文件KEGG-enrich.csv和GO-enrich.csv，就是我们的GO和KEGG富集的结果，其中内容如下

上述表格为差异基因的Gene Ontology富集分析结果表格。

GO ID: Gene Ontology数据库中唯一的标号信息

Description ：Gene Ontology功能的描述信息

GeneRatio：差异基因中与该Term相关的基因数与整个差异基因总数的比值

BgRation：所有（ bg）基因中与该Term相关的基因数与所有（ bg）基因的比值

pvalue: 富集分析统计学显著水平，一般情况下， P-value < 0.05 该功能为富集项

p.adjust 矫正后的P-Value

qvalue：对p值进行统计学检验的q值

Count：差异基因中与该Term相关的基因数

上述表格为差异基因的KEGG Pathway富集分析结果表格。

ID： KEGG 数据库中通路唯一的编号信息。

Description ：Gene Ontology功能的描述信息

GeneRatio：差异基因中与该Term相关的基因数与整个差异基因总数的比值

BgRation：所有（ bg）基因中与该ID相关的基因数与所有（ bg）基因的比值

pvalue: 富集分析统计学显著水平，一般情况下， P-value < 0.05 该功能为富集项

p.adjust 矫正后的P-Value

qvalue：对p值进行统计学检验的q值

Count：差异基因中与该Term相关的基因数

转录组-GO通路富集-WEGO网站使用

ulwvfje — Thu, 19 Mar 2015 13:20:28 +0000

一，所谓的网站，其实就是一个网页版的可视化软件接口而已

看看网站主页，看看它需要什么数据

http://wego.genomics.org.cn/cgi-bin/wego/index.pl

二，所需要的数据

1，human.all.go.entrez，需要自己制作，每个基因名entrez ID号，对应着一堆GO通路，人有两万多个基因，所以应该有两万多行的文件。

2，差异基因的GO通路，需要用cuffdiff得到差异基因名，然后用然后用脚本做成下面的样子。记住，上面的那个人类的背景GO文件也是一样的格式，基因名是entrez ID号，与GO通路用制表符隔开，然后每个基因所对应的GO直接用空格隔开。格式要求很准确才行。

三，上传数据，出图

点击plot画图即可，就可以出来了一个GO通路富集图

顺便贴上wego上传数据制作的几个脚本，脚本这种东西都很难看，随便意思一下啦，用一下脚本处理就可以得到wego需要上传的数据了

1，得到差异基因名，并且转换为entrez ID号
grep yes gene_exp.diff |cut -f 3 |sort -u >diff.gene.name
cat diff.gene.name ../Homo_sapiens.gene_info |perl -alne '{$hash{$_}=1;print $F[1] if exists $hash{$F[2]}}' |sort -u >diff.gene.entrez
2，根据找到的差异基因的entrez ID号来找到它的GO信号，输出文件给wego网站
cat diff.gene.entrez ../gene2go |perl -alne '{$hash{$_}=1;print "$F[1]\t$F[2]" if exists $hash{$F[1]}}' |perl -alne '{$hash{$F[0]}.="$F[1] "}END{print "$_\t$hash{$_}" foreach keys %hash}' >diff.gene.entrez.go
3，得到entrez ID号跟ensembl ID号的转换hash表
perl -alne '{if (/Ensembl:(ENSG\d+)/) {print "$1=>$F[1]"} }' Homo_sapiens.gene_info >entrez.ensembl
4，得到人类entrez ID的go背景
grep '^9606' gene2go |perl -alne '{$hash{$F[1]}.="$F[2] "}END{print "$_\t$hash{$_}" foreach sort keys %hash}' >human.all.go.entrez
5，把人类entrez ID的go背景转换成ensembl的go背景
cat entrez.ensembl human.all.go.entrez |perl -F"=>" -alne '{$hash{$F[1]}=$F[0];print "$hash{$F[0]}\t$F[1]" if exists $hash{$F[0]}}' >human.all.go.ensembl

在我的群里面共享了所有的代码及帖子内容，欢迎加群201161227，生信菜鸟团！

http://www.bio-info-trainee.com/?p=1

线下交流-生物信息学
同时欢迎下载使用我的手机安卓APP

http://www.cutt.com/app/down/840375

生信菜鸟团 » 富集

转录组-GO和KEGG富集的R包clusterProfiler

转录组-GO通路富集-WEGO网站使用