15 | 12月 | 2015 | 生信菜鸟团

我们可以直接使用R的bioconductor里面的一个包，GOstats里面的函数来做超几何分布检验，看看每条pathway是否会富集

我们直接读取用limma包做好的差异分析结果

setwd("D:\\my_tutorial\\补\\用limma包对芯片数据做差异分析")

DEG=read.table("GSE63067.diffexp.NASH-normal.txt",stringsAsFactors = F)

View(DEG)

我们挑选logFC的绝对值大于0.5，并且P-value小雨0.05的基因作为差异基因，并且转换成entrezID

probeset=rownames(DEG[abs(DEG[,1])>0.5 & DEG[,4]<0.05,])

library(hgu133plus2.db)

library(annotate)

platformDB="hgu133plus2.db";

EGID <- as.numeric(lookUp(probeset, platformDB, "ENTREZID"))

length(unique(EGID))

#[1] 775

diff_gene_list <- unique(EGID)

这样我们的到来775个差异基因的一个list

首先我们直接使用R的bioconductor里面的一个包，GOstats里面的函数来做超几何分布检验，看看每条pathway是否会富集

library(GOstats)

library(org.Hs.eg.db)

#then do kegg pathway enrichment !

hyperG.params = new("KEGGHyperGParams", geneIds=diff_gene_list, universeGeneIds=NULL, annotation="org.Hs.eg.db",

categoryName="KEGG", pvalueCutoff=1, testDirection = "over")

KEGG.hyperG.results = hyperGTest(hyperG.params);

htmlReport(KEGG.hyperG.results, file="kegg.enrichment.html", summary.args=list("htmlLinks"=TRUE))

结果如下：

但是这样我们就忽略了其中的原理，我们不知道这些数据是如何算出来的，只是由别人写好的包得到了结果罢了。

事实上，这个包的这个hyperGTest函数无法就是包装了一个超几何分布检验而已。

如果我们了解了其中的统计学原理，我们完全可以写成一个自建的函数来实现同样的功能。

超几何分布很简单，球分成黑白两色，数量已知，那么你随机抽有限个球，应该抽多少白球的问题！

公式就是 exp_count=n*M/N

然后你实际上抽了多少白球，就可以计算一个概率值！

换算成通路的富集概念就是，总共有多少基因，你的通路有多少基因，你的通路被抽中了多少基因（在差异基因里面属于你的通路的基因），这样的数据就足够算出上面表格里面所有的数据啦！

tmp=toTable(org.Hs.egPATH)

GeneID2Path=tapply(tmp[,2],as.factor(tmp[,1]),function(x) x)

Path2GeneID=tapply(tmp[,1],as.factor(tmp[,2]),function(x) x)

#phyper(k-1,M, N-M, n, lower.tail=F)

#n*M/N

diff_gene_has_path=intersect(diff_gene_list,names(GeneID2Path))

n=length(diff_gene_has_path) #321 # 这里算出你总共抽取了多少个球

N=length(GeneID2Path) #5870 ##这里算出你总共有多少个球（这里是错的，有多少个球取决于背景基因！一般是两万个）

options(digits = 4)

for (i in names(Path2GeneID)){

M=length(Path2GeneID[[i]]) ##这个算出你的所有的球里面，白球有多少个

exp_count=n*M/N ###这里算出你抽取的球里面应该多多少个是白色

k=0 ##这个k是你实际上抽取了多少个白球

for (j in diff_gene_has_path){

if (i %in% GeneID2Path[[j]]) k=k+1

}

OddsRatio=k/exp_count

p=phyper(k-1,M, N-M, n, lower.tail=F) ##根据你实际上抽取的白球个数，就能算出富集概率啦！

print(paste(i,p,OddsRatio,exp_count,k,M,sep=" "))

}

随便检查一下，就知道结果是一模一样的！

之前我提到过kegg数据库里面的有些pathway下面没有对应任何基因，当时我还在奇怪，怎么会有这样的通路呢？

然后，我随机挑选了其中一条通路（hsa01000），进行查看，发现正好是所有的酶的信息。

好奇怪，不明白为什么kegg要列出所有的酶信息

http://www.genome.jp/kegg-bin/get_htext?hsa01000

下载htext格式的酶的信息

798K Dec 15 2015 hsa01000.keg

查看文件，发现也是层级非常清楚的结构，D已经是最底级别的酶了，而E对应的基因是属于该酶的。

简单统计一下，发现跟酶相关的基因有3688个，而最底级别的酶有5811个，应该会持续更新的

如果想做成kegg那样的基因与酶对应表格，也是非常简单的！

国际系统分类法按酶促反应类型,将酶分成六个大类:

1、氧化还原酶类(oxidoreductases) 催化底物进行氧化还原反应的酶类。包括电子或氢的转移以及分子氧参加的反应。常见的有脱氢酶、氧化酶、还原酶和过氧化物酶等。

2、转移酶类(transferases) 催化底物进行某些基团转移或交换的酶类,如甲基转移酶、氨基转移酶、转硫酶等。

3、水解酶类(hydrolases)催化底物进行水解反应的酶类。如淀粉酶、粮糖苷酶、蛋白酶等。

4、裂解酶类(lyases)或裂合酶类(synthases) 催化底物通过非水解途径移去一个基团形成双键或其逆反应的酶类,如脱水酶、脱羧酸酶、醛缩酶等。如果催化底物进行逆反应,使其中一底物失去双键,两底物间形成新的化学键,此时为裂合酶类。

5、异构酶类(isomerases)催化各种同分异构体、几何异构体或光学异构体间相互转换的酶类。如异构酶、消旋酶等。

6、连接酶类（ligases）或合成酶类(synthetases)催化两分子底物连接成一个分子化合物的酶类。

上述六大类酶用EC(enzyme commission)加1.2.3.4.5.6编号表示,再按酶所催化的化学键和参加反应的基团,将酶大类再进一步分成亚类和亚-亚类,最后为该酶在这亚-亚类中的排序。如α淀粉酶的国际系统分类纩号为:EC3.2.1.1

EC3——Hydrolases 水解酶类

EC3.2——Glycosylases 转葡糖基酶亚类

EC3.2.l——Glycosidases 糖苷酶亚亚类i.e.enzymes hydmlyzing O-and S-glycosyl compound即能水解O-和S-糖基化合物

EC3.2.1.1 Alpha-amylase, α-淀粉酶

值得注意的是,即使是同一名称和EC编号,但来自不同的物种或不同的组织和细胞的同一种酸,如来自动物胰脏、麦芽等和枯草杆菌BF7658的α-淀粉酶等,它们的一级结构或反应机制可解不同,它们虽然都能催化淀扮的水解反应,但有不同的活力和最适合反应条件。

可以按照酶在国际分类编号或其推荐名,从酶手册(Enzyme Handbook)、酶数据库中检索到该酶的结构、特性、活力测定和Km值等有用信息。著名的手册和数据库有:

手册:

1、Schomburg,M.Salzmann and D.Stephan:Enzyme Handbook 10 Volumes

2、美国Worthington Biochemical Corporation:Enzyme Manual

(http://www.worthington-biochem.com/index/manual.htm/)

数据库:

l、德国BRENDA：Enzyme Database(http://www.brenda wnzymes.org)

2、Swissprot:EXPASYENZYME Enzyme nomenclature database (http://www.expasy.org/enzyme/)

3、IntEnz:Integrated relational Enzyme database (http://www.ebi.ac.uk/mtenz)

一	二	三	四	五	六	日
« 十一				一 »
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Daily Archives: 2015年12月15日

用超几何分布检验做富集分析

下载所有的酶的信息，并且解析好