生信菜鸟团 » 生存分析

用TCGA数据做cox生存分析的风险因子（比例风险模型）

ulwvfje — Fri, 22 Jan 2016 13:25:17 +0000

再次强调一下，R里面实现生存分析非常简单！

用my.surv <- surv(OS_MONTHS,OS_STATUS=='DECEASED')构建生存曲线。

用kmfit2 <- survfit(my.surv~TUMOR_STAGE_2009)来做某一个因子的KM生存曲线。用 survdiff(my.surv~type, data=dat)来看看这个因子的不同水平是否有显著差异，其中默认用是的logrank test 方法。

用coxph(Surv(time, status) ~ ph.ecog + tt(age), data=lung) 来检测自己感兴趣的因子是否受其它因子(age,gender等等)的影响。

我们还是拿TCGA的数据来做例子，卵巢癌的那篇文章里面根据甲基化数据和mRNA表达数据都可以把癌症样本分成四组，我们前面看了甲基化分组方法的确是有差异，但是还没有达到0.05的统计学意义的显著性。我们接下来把mRNA分组也检验一下，然后把两个分组方法当初一个影响生存率的因子，然后用cox方法看看这两个因子的权重！

Cox比例风险回归模型（Cox’s proportional hazards regression model），简称Cox回归模型。该模型由英国统计学家D.R.Cox于1972年提出，主要用于肿瘤和其它慢性病的预后分析，也可用于队列研究的病因探索。

首先，我们从TCGA里面下载得到的做生存分析的数据如下（代码见末尾）：

很明显看到，两种分组方式不一致的地方非常多，所以说癌症的分组仍然是一个没有解决的问题，我们可以把这两种分组方式当做因子来探究它们对生存率的影响！

my.surv=Surv(sur_dat$OS_MONTHS.y,sur_dat$OS_STATUS.y=='DECEASED')

#plot(survfit(my.surv~1))

survfit(my.surv~1)

kmfit=survfit(my.surv~1)

plot(kmfit)

summary(kmfit)

用survdiff检验分组的显著性，结果如下：

可以看出，这里两种分类方式都挺好的，虽然没有达到0.05的统计学意义上的显著。

如果用cox模型回归分析如下：

所以R里面做生存分析是非常简单的，就寥寥几个函数即可，当然，你得知道这些函数的输入数据是什么。函数的结果很容易看懂，就是各种分组因子的显著性，还有风险比(HR)-hazard ratio（输出里面，coef就是beta值，相应的exp(coef)就是HR了）而已，这也是大多数人关心的。

我记得用cox模型还可以得到预测函数，根据一些因子的值来预测病人还有多少天生存期

大家可以去这里深度学习： https://www.bioconductor.org/help/course-materials/2016/BioC2016/ConcurrentWorkshops4/Buros/applied-survival-model.html

参考：http://www.biomart.cn/experiment/430/586/588/240451.htm?trace=0420labstp

http://www.dxy.cn/bbs/thread/3327209#3327209

http://blog.csdn.net/shmilyringpull/article/details/17529637

TCGA数据里面的生存分析例子

ulwvfje — Fri, 08 Jan 2016 14:30:22 +0000

我们知道了生存分析，就是随着时间的流逝，死亡率是如何增加的，一般是用KM法来估计生存函数，然后画个图即可！而根据某些因子把样本分组，可以看到他们死亡率的变化趋势显著的不同，这就说明了我们的这个因子是非常有效的分类方式，这个因子可以是一个biomarker，也可以某些其它指标！

甚至，我们还可以用cox模型来分析这个因子是如何影响生存函数的，那个稍后再讲

这里，我们就简单讲一个例子，是TCGA里面卵巢癌的数据，根据甲基化数据分成了4个组，那么我们就下载这四个组样本的临床数据，

看看这样分组后，他们的死亡率变化趋势是不是有显著区别！

数据是用cgdsr下载的：

这个包的说明见：http://www.bio-info-trainee.com/?p=1257

library(cgdsr)

mycgds <- CGDS('http://www.cbioportal.org/public-portal/')

test(mycgds)

all_TCGA_studies <- getCancerStudies(mycgds)

all_tables <- getCaseLists(mycgds, 'ov_tcga_pub')

all_dataset<- getGeneticProfiles(mycgds, 'ov_tcga_pub')

#BRCA1 <- getProfileData(mycgds, my_gene, my_dataset, my_table)

ov_tcga_pub_meth1<- getClinicalData(mycgds, all_tables[8,1])

ov_tcga_pub_meth2<- getClinicalData(mycgds, all_tables[9,1])

ov_tcga_pub_meth3<- getClinicalData(mycgds, all_tables[10,1])

ov_tcga_pub_meth4<- getClinicalData(mycgds, all_tables[11,1])

下载之后的数据如下：

根据甲基化数据，把癌症病人分成了4组，我们的临床数据记录了13项，但是我们只需要用到OS_MONTHS和OS_STATUS就可以来估计KM生存函数，画出生存曲线啦！

无病生存期（Disease-free survival,DFS）的定义是指从随机化开始至疾病复发或由于疾病进展导致患者死亡的时间。该指标也常作为抗肿瘤药物III期临床试验的主要终点。某些情况下，DFS与OS相比，作为终点比较难以记录，因为它要求认真随访，及时发现疾病复发，而且肿瘤患者的死亡原因也很难确定。肿瘤患者常有合并症（如，心血管病），这些合并症可能会干扰对DFS的判断。并且，肿瘤患者常死于医院外，不能常规进行尸检。

总生存期（Overall survival,OS）的定义是指从随机化开始至因任何原因引起死亡的时间。该指标常常被认为是肿瘤临床试验中最佳的疗效终点。如果在生存期上有小幅度的提高，可以认为是有意义的临床受益证据。作为一个终点，生存期应每天进行评价，可通过在住院就诊时，通过与患者直接接触或者通过电话与患者交谈，这些相对比较容易记录。确认死亡的日期通常几乎没有困难，并且死亡的时间有其独立的因果关系。当记录至死亡之前的失访患者，通常截止到最后一次有记录的、与患者接触的时间。

library(survival)

attach(ov_tcga_pub_meth1)

## 估计KM生存曲线

my.surv <- Surv(OS_MONTHS,OS_STATUS=='DECEASED')

kmfit1 <- survfit(my.surv~1)

summary(kmfit1)

plot(kmfit1)

##我们很容易看到，随着感染癌症的时间延长，病人的死亡率到了一定程度就不增加了，有些病人熬过了这个癌症，或者说，到我们拿到数据为止，他们还没有死亡！

## 随便取一根因子来分组TUMOR_STAGE_2009估计KM生存曲线

kmfit2 <- survfit(my.surv~TUMOR_STAGE_2009)

summary(kmfit2)

plot(kmfit2,col = rainbow(length(unique(ov_tcga_pub_meth1[,13]))))

detach(ov_tcga_pub_meth1)

##可以看到，我们根据病人的TUMOR_STAGE_2009把他们分成了这些组，不同组的生存曲线不一样，但是我们肉眼无法看出它们这些组直接的生存率是否有显著差异！我们需要做统计检验！

我们就不对这个进行检验了，我们还是用下面的代码来对甲基化数据的分组来做检验，看看我们的分组是否有效！

ov_tcga_pub_meth1$sample<- rownames(ov_tcga_pub_meth1)

ov_tcga_pub_meth2$sample<- rownames(ov_tcga_pub_meth2)

ov_tcga_pub_meth3$sample<- rownames(ov_tcga_pub_meth3)

ov_tcga_pub_meth4$sample<- rownames(ov_tcga_pub_meth4)

ov_tcga_pub_meth1$type<- 'meth1'

ov_tcga_pub_meth2$type<- 'meth2'

ov_tcga_pub_meth3$type<- 'meth3'

ov_tcga_pub_meth4$type<- 'meth4'

dat=rbind(ov_tcga_pub_meth1,ov_tcga_pub_meth2,ov_tcga_pub_meth3,ov_tcga_pub_meth4)

attach(dat)

## 根据分组type估计KM生存曲线

my.surv <- Surv(OS_MONTHS,OS_STATUS=='DECEASED')

kmfit3 <- survfit(my.surv~type)

summary(kmfit3)

plot(kmfit3,col = rainbow(4))

##由图中可以看到甲基化数据分成的4个组，生存率差异还是蛮大的

##用图形方法检验PH假设

plot(kmfit3,fun='cloglog',col = rainbow(4))

# 检验显著性

survdiff(my.surv~type, data=dat)

# 用strata来控制协变量的影响

survdiff(my.surv~type+strata(TUMOR_STAGE_2009),data=dat)

##然后我们用这个代码来检验，是否显著，结果发现，p值并没有小于0.05，只能说是可以这样分组，但是分组的效果没有我们想象中的那么好！

names(dat)

detach(dat)

生存分析简介

ulwvfje — Fri, 08 Jan 2016 14:27:42 +0000

一般我们谈生存分析，就是说的KM方法估计生存函数，并且画出生存曲线，然后还可以根据分组检验一下它们的生存曲线是否有显著的差异！

在R里面，非常的方便，有个包survival很容易就可以做生存分析了！

只需要记住三个函数即可：

Surv：用于创建生存数据对象
survfit：创建KM生存曲线或是Cox调整生存曲线
survdiff：用于不同组的统计检验

我们用下面的数据做例子

对于上面的数据，我们用下面的代码做生存分析！

library(survival)

my.surv <- Surv(OS_MONTHS,OS_STATUS=='DECEASED')

##这个生存对象是看看病人的总生存期与死亡状态的关系

###这个Surv函数第一个参数必须是数值型的时间，第二个参数是逻辑向量，1,0表示死亡与否

kmfit1 <- survfit(my.surv~1) ### 直接对生存对象拟合生存函数

summary(kmfit1) ## 这个函数会详细打印出所有的结果，值得仔细理解

plot(kmfit1) ###画出生存曲线

survdiff(my.surv~type, data=dat) ### 根据生存对象再加上一个分组因子来拟合生存函数，并且比较不同因子分组的生存效果