一 08

TCGA数据里面的生存分析例子

Posted on 2016年1月8日 by ulwvfje

我们知道了生存分析，就是随着时间的流逝，死亡率是如何增加的，一般是用KM法来估计生存函数，然后画个图即可！而根据某些因子把样本分组，可以看到他们死亡率的变化趋势显著的不同，这就说明了我们的这个因子是非常有效的分类方式，这个因子可以是一个biomarker，也可以某些其它指标！

甚至，我们还可以用cox模型来分析这个因子是如何影响生存函数的，那个稍后再讲

这里，我们就简单讲一个例子，是TCGA里面卵巢癌的数据，根据甲基化数据分成了4个组，那么我们就下载这四个组样本的临床数据，

看看这样分组后，他们的死亡率变化趋势是不是有显著区别！

Continue reading →

一 08

生存分析简介

Posted on 2016年1月8日 by ulwvfje

一般我们谈生存分析，就是说的KM方法估计生存函数，并且画出生存曲线，然后还可以根据分组检验一下它们的生存曲线是否有显著的差异！

在R里面，非常的方便，有个包survival很容易就可以做生存分析了！

只需要记住三个函数即可：

Surv：用于创建生存数据对象
survfit：创建KM生存曲线或是Cox调整生存曲线
survdiff：用于不同组的统计检验

一 08

Posted on 2016年1月8日 by ulwvfje

最近需要做十几万个差异基因分析，每个分析都是对大约5万个探针，200个样本的数据量进行批量T检验计算P值

然后发现自己无论怎么用R来写，每个分析都要耗时半分钟左右，因为我必须循环所有的探针，即使不用for，而用R推荐的apply系列函数，也快不到哪里去，但是我搜索时候发现有一个package里面自带了矩阵T检验，直接对5万个探针进行T检验，而不需要循环处理它们

看下面代码！

dat=matrix(rnorm(10000000),nrow = 50000)

dim(dat) #50000 200

system.time(

apply(dat,1,function(x){

t.test(x[1:100],x[101:200])$p.value

})

)

#用户系统流逝

#29.29 0.04 30.64

library(pi0)

system.time(matrix.t.test(dat,1,100,100))

#用户系统流逝

#0.48 0.03 0.53

差距真的是非常的明显呀！！！

然后，我解析了它的代码，发现里面调用了C写的代码，我想这就是问题所在咯，可是他们到底怎么写，才能把速度搞这么快？？？

tmp = .C("tstatistic", dat = x, n1 = n1, n2 = n2, ntests = ntests,

MARGIN = MARGIN, pool = pool, tstat = rep(0, ntests),

df = rep(0, ntests), PACKAGE = "pi0")

源码在这个package的github里面可以找到，有兴趣的童鞋可以研究一下