生信菜鸟团 » TCGA

一个标准的TCGA大文章应该做哪些数据？

ulwvfje — Tue, 24 Jan 2017 03:53:49 +0000

很多人总是问我如何挖掘TCGA的数据，发文章！

可是他却连TCGA的数据是怎么来的都不知道，TCGA发了几十篇CNS大文章(自己测序的)了，每篇文章都有几百个左右的癌症样本的6种数据，这几年凑成了一万多个样本，都放在GDC里面可以任意下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型，driver mutation，假基因等新型研究领域)

那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据？

其实稍微仔细浏览几篇文章就明白了，套路也是存在的，https://tcga-data.nci.nih.gov/docs/publications/

我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧！

研究的是acute myeloid leukemia (AML)，在医院花个十年时间精心挑选了200 adults with de novo AML ，当然病人详细信息是要给的，还要符合伦理，签知情协议书吧。

We performed whole-genome sequencing of the primary tumor and matched normal skin samples from 50 patients (with data from 24 of these patients reported previously17) and exome capture and sequencing for another 150 paired samples of AML tumor and skin (see Table S3 in the Supplementary Appendix for coverage data for the 200 samples).

全基因组测序毕竟贵，就只测50个吧，当然，癌症样本要取癌旁配对研究才有意义。剩余的就做外显子吧，毕竟便宜一点！

We performed RNA-expression profiling on the Affymetrix U133 Plus 2 platform for 197 samples, RNA sequencing for 179 samples, microRNA (miRNA) sequencing for 194 samples, Illumina Infinium HumanMethylation450 BeadChip profiling for 192 samples, and Affymetrix SNP Array 6.0 for both tumor and normal skin samples from all 200 patients.

接着就是芯片和测序的mRNA表达数据，然后是测序的miRNA表达就是，然后是芯片的甲基化数据，和芯片的拷贝数变异检测数据。

Data sets were not completed for all samples on all platforms because of assay failures and availability and quality issues for some samples. The complete list of data sets is provided in Table S4 in the Supplementary Appendix. All data sets are available through the Cancer Genome Atlas (TCGA) data portal (https://tcga-data.nci.nih.gov/tcga).

这么多数据都给TCGA贡献出来了，不发大文章，就没天理了。

至于怎么分析，在现在我们看来，就是一些套路了。

但是这些数据，他们一个组分析肯定只能是挑重点说咯，所以TCGA数据挖掘首先就是可以捡人家剩下的，然后可以把多个癌种合起来分析。

就先说到这里吧

TCGA表达数据的多项应用之4–求指定基因在指定癌症里面的表达量相关性矩阵，与所有的基因比较。

ulwvfje — Wed, 28 Dec 2016 02:10:08 +0000

这个不出图，会给出TCGA里面涉及到的所有基因跟你指定的基因的表达量相关系数和P值，分别你一次性的看清楚你感兴趣的基因跟体内其它基因在该癌症种类的相关性，当然，相关非因果，请谨慎应用！

rm(list=ls())

searchGene = 'TP53';

searchTable='tumor_brca_rpkm';

library(RMySQL)

con <- dbConnect(MySQL(), host="127.0.0.1", port=3306, user="root", password="11111111")

dbSendQuery(con, "USE gse62944")

dbListTables(con)

query = paste0(' select * from ', searchTable ,' where genesymbol = ',shQuote(searchGene)) ;

expression_1=dbGetQuery(con,query)

expression_1=as.numeric(expression_1[,-1]);

query = paste0(' select geneSymbol from ', searchTable ) ;

allGenes=dbGetQuery(con,query)[,1]

## 重点就是获取这个数据，然后计算相关系数和p值

## 这个非常慢，可以考虑加并行，并且显示进度条，当然，这种循环所有的基因我不推荐用mysql来做！！！

cor_results <- matrix(unlist(lapply(allGenes, function(x){

thisGene=x

query = paste0(' select * from ', searchTable ,' where genesymbol = ',shQuote(thisGene)) ;

expression_2=dbGetQuery(con,query)

expression_2=as.numeric(expression_2[,-1]);

tmp=cor.test(expression_1,expression_2);#str(tmp)

return(c(thisGene,tmp$estimate,tmp$p.value))

}) ## end for lapply

) ## end for unlist

,ncol = 3, byrow =T) ## end for matrix

TCGA表达数据的多项应用之3–对指定的两个基因，在所有癌种里面找到correlation并作图

ulwvfje — Wed, 28 Dec 2016 02:03:35 +0000

上面是指定一个基因在不同的癌种里面，本次讲指定任意两个基因，在所有癌种里面找到correlation并作图！图如下：

library(RMySQL)
con <- dbConnect(MySQL(), host="127.0.0.1", port=3306, user="root", password="11111111")
dbSendQuery(con, "USE gse62944")
dbListTables(con)
setwd('G:\\GSE62944') ## 这里不需要读本地文件，可以修改为读取数据库内容，因为我们第一讲说明了如何把它们全部load到数据库里面
tumorCancerType2amples=read.table('GSE62944_06_01_15_TCGA_24_CancerType_Samples.txt',sep = '\t',stringsAsFactors = F)
colnames(tumorCancerType2amples)=c('sampleID','CancerType')
## 不同的cancer type是分表存储，所以需要多次查询这两个基因的表达量
tmp=lapply(unique(tumorCancerType2amples$CancerType), function(x){
#x='PRAD'; ##可以先不要运行循环，先测试一个癌种
gene1="TP53";gene2="BRCA1";
sqlTable=paste('tumor',x,'RPKM',sep='_')
sqlQuery=paste0(' select * from ', sqlTable ,' where genesymbol = ',shQuote(gene1),' OR genesymbol = ',shQuote(gene2))
matrix2genes=dbGetQuery(con,sqlQuery)
rownames(matrix2genes)=matrix2genes$geneSymbol
matrix2genes=matrix2genes[,- match('geneSymbol',colnames(matrix2genes)) ]
matrix2genes=t(matrix2genes)
valueList1=as.numeric(matrix2genes[,gene1]);valueList2=as.numeric(matrix2genes[,gene2]);
png( paste0(gene1,'_and_',gene2,'_in_',x,'.SinalCor.png') )
plot(valueList1,valueList2,xlab=gene1,ylab=gene2)
abline(lm(valueList2~valueList1),col='red')
title(main =paste0("R2=",cor(valueList1,valueList2)))
dev.off()
return(c(x,fivenum(valueList1),fivenum(valueList2),cor(valueList1,valueList2)))
})

## 这个循环会对每一个癌种种类，都画这两个基因的correlation图
write.csv(x = matrix(unlist(tmp),ncol=12,byrow = T),file = 'tumor.corration.csv')

如果是对正常样本查询，因我TCGA的正常样本不多，所以我存储在同一个表，不需要这样循环查询每一个癌种表格，所以拿到数据非常简单，代码大家可以试试看！

TCGA表达数据的多项应用之2–对指定基因在不同癌种里面画boxplot,或者在所有的normal组织里面看表达量！

ulwvfje — Wed, 28 Dec 2016 01:55:07 +0000

好像文章题目没有长度限制，太好了！本讲所实现的目标非常简单，如题，指定基因在不同癌种里面画boxplot,或者在所有的normal组织里面看表达量！下面是一个具体的例子：

代码如下：

稍微懂一点R的小伙伴都看得出来，只需要手动修改指定的基因，然后指定的癌症种类，就可以来容易画上面的图了，但要完成这一步，必须把前面的那一步导入mysql数据库搞懂。

TCGA表达数据的多项应用之1–下载数据并且导入mysql

rm(list=ls())

searchGene = 'VCX3B';

searchTable1='tumor_gbm_rpkm';

searchTable2='tumor_lgg_rpkm';

library(RMySQL)

con <- dbConnect(MySQL(), host="127.0.0.1", port=3306, user="root", password="11111111")

dbSendQuery(con, "USE gse62944")

dbListTables(con)

query = paste0(' select * from ', searchTable1 ,' where genesymbol = ',shQuote(searchGene)) ;

gbm=dbGetQuery(con,query)

query = paste0(' select * from ', searchTable2 ,' where genesymbol = ',shQuote(searchGene)) ;

lgg=dbGetQuery(con,query)

gbm=as.numeric(gbm[,-1]);gbm=data.frame(value=gbm,type='gbm')

lgg=as.numeric(lgg[,-1]);lgg=data.frame(value=lgg,type='lgg')

dat1= rbind(gbm,lgg)

boxplot( value ~ type, data = dat1, lwd = 2, ylab = 'value')

stripchart(value ~ type, vertical = TRUE, data = dat1,

method = "jitter", add = TRUE, pch = 20, col = 'blue')

还有很多其它的应用，重点就是如何从sql里面提取数据并可视化而已

比如上面那个在正常表达量矩阵里面查询，多种癌旁组织合并起来画图！

sqlTable = 'normalrpkm';

sqlQuery=paste0(' select * from ', sqlTable ,' where genesymbol = ',shQuote(searchGene))

normalExpression=dbGetQuery(con,sqlQuery)

normalExpression= normalExpression[,-length(normalExpression)]

normalExpression = data.frame(sampleID=names(normalExpression),

values=as.numeric(normalExpression)

)

normalCancerType2amples=dbGetQuery(con,'select * from normalcancertype2amples')

normalCancerType2amples$sampleID=gsub("-",".", normalCancerType2amples$sampleID)

dat2 = merge(normalExpression,normalCancerType2amples,by='sampleID')

boxplot( values ~ CancerType, data = dat2, lwd = 2, ylab = 'values',las=2,main=searchGene)

stripchart(values ~ CancerType, vertical = TRUE, data = dat2,

method = "jitter", add = TRUE, pch = 20, col = 'blue')

TCGA表达数据的多项应用之1–下载数据并且导入mysql

ulwvfje — Sun, 25 Dec 2016 15:53:42 +0000

这个TCGA表达数据的多项应用系列帖子是应群里朋友的要求来写的，你们也可以继续提需求，我会接着写下去，其实从TCGA数据库里面下载到了数据之后，后面的所有分析都跟TCGA没有半毛钱关系了，大家要有这个想法，别三两句就问TCGA数据怎么分析，http://www.bio-info-trainee.com/?s=TCGA&submit=Search 本系列最后会形成一个shiny版本的交互式表达数据查询，处理，绘图，统计的网页APP。

我这里偷懒一下了，直接下载GEO里面的TCGA的表达数据，而不是去TCGA的官网里面下载：

所有TCGA收集的mRNA表达数据集数据集-GSE62944

它处理了目前（大概是2015年6月）TCGA收集的所有癌症样本的mRNA表达数据，并且统一处理成了count和RPKM两种表达量形式。 GEO地址：http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE62944

下载的文件，首先用R连接mysql把RPKM形式的表达数据写到数据库啦!

很明显，我们需要下载正常样本和癌症样本的ID和组织对应表格，还有他们的RPKM矩阵，是压缩包格式的txt文档，然后用R语言链接mysql写入，至于为什么要写入的mysql，主要是因为R里面读取文件太慢了，而我后面的一系列表达数据的分析都是高频的，不可能每次都打开R，然后读取几个G的数据，大家看下面的表格就应该明白，我把正常组织样本的表达数据写到了一个表格里面，而把癌症根据tissue来分开存放，主要是因为mysql有最大列数限制，而我们这个GSE62944里面有近万的样本了。

数据下载就是在GEO的supplement里面找链接，写入到mysql，首先需要你自己安装了mysql，请看我在论坛写的教程：http://www.biotrainee.com/thread-389-1-1.html

可以看到R其实就是通过R的包来调用系统的mysql程序，往mysql里面写入数据，而我们的表达数据还比较大，所以会耗费半小时左右。

后面一系列的分析，都是基于此，所以你要想看懂后面的帖子，必须要用我的代码下载好数据，并导入到自己的mysql里面。(我代码在：https://github.com/jmzeng1314/myTCGA/blob/master/expression/mRNA/GSE62944/GSE62944data2mysql.R)

作为一个合格的生信工程师，有些东西，你不得不学习，抱歉！

2016-TCGA数据挖掘系列文章之癌症男女有别

ulwvfje — Wed, 18 May 2016 15:31:28 +0000

这是TCGA数据挖掘系列文章之一，是安德森癌症研究中心的Han Liang主导的，纯粹的生物信息学数据分析文章。

文章题目是：comprehensive characterization of molecular differences in cancer between male and female patients.

研究意义：癌症病人的性别对肿瘤发生，扩散的意义不言而喻。不仅仅是因为很多癌症本来就是有性别特异性，比如卵巢癌之于女性、前列腺癌之于男性。即使对于其它并非性别特异性的癌症种类，男女病人在肿瘤发生，扩散，以及治疗阶段的反应也大不一样。但是以前对这样分子机理研究的很有限，一般集中在某些性别相关的分子pattern，比如非小细胞肺癌女性患者的EGFR突变，但那些研究要么就局限于单一的基因，要么局限于单一的数据类型，或者研究单一的癌症。严重缺乏一个全面的，系统的分析癌症患者的性别差异。而且TCGA数据库的出现让这一个研究变成了可能，这也就是本文章的出现的原因。

数据挖掘的对象：

如表所示，涉及到13种癌症，TCGA的六种数据()都用上了，因为是2016年，所以数据量也比较全面了。

还有他们的临床信息，也结合起来分析，具体样本个数，以及癌症种类分布见下表。

六种数据分别是：

全外显子组的somatic突变数据，

affymetrix的snp6.0芯片的拷贝数变异数据，

人甲基化450K芯片的DNA甲基化数据，

RNA-seq的mRNA表达量数据，

miRNA的表达量数据，

蛋白表达数据。

文章对这些数据做了6个方面的分析：

一是对各个样本进行权重矫正

这个偏统计学了，大家可以自己去看原理，主要是为了排除除性别外的其它影响因素( sex, age at diagnosis, smoking status, tumor stage, and histology subtype),采用了一种叫做propensity score.的统计学方法来矫正这些共影响因子，这一统计方法是上世纪80年代提出了的，被广泛应用于clinical research, economics, and social sciences。

二是用六种数据结合起来把癌症根据性别影响分成两类

其中一类受性别影响较弱，是LGG, GBM, COAD, READ, and LAML

另一类受性别影响较强，包括THCA, HNSC, LUSC, LUAD, LIHC, BLCA, KIRP, and KIRC

并且提出一个sex-bias index 的概念来描述他们的差异 defined on the basis of the ratio of new cases of female and male patients
受性别影响较弱那几个癌种的男性与女性患者比较起来差异特征很少(44–104, mean 67)

而受性别影响较强那几个癌种的男性与女性患者比较起来差异特征很多(240–3,521, mean 1,112)

看下面的图可知，这两组差异非常显著。而定义的差异特征是非常重要的概念，对6种数据，差异特征都不一样，下面会具体讲到。

三是单独拿somatic mutation数据来分析

作者是直接从Firehose (http://gdac.broadinstitute.org) 里面下载了所有的上面列出的样本的MAF突变数据，一般TCGA记录的MAF突变数据就是他们已经分析好的somatic mutation数据。作者只分析了non-silent mutations，只考虑那些突变频率(基于这个文章的群体)大于5%的位点，而且去掉了somatic mutation个数超过1000的个体，男女之间用费谢尔精确检验来计算差异显著度。

然后作者把这张图描述了一些生物学意义，比如某些癌种某些基因的男女患者差异非常显著，该基因功能是什么，可能的原因是什么，等等。

四是单独拿somatic的CNV数据来分析

这个分析也很简单，还是直接从Firehose (http://gdac.broadinstitute.org) 里面下载了所有的上面列出的样本的CNV数据，然后每个癌种都分男女分别跑一下GISTIC这个软件，得到somatic的拷贝数变异数据库，GISTIC软件是基于matlab的，在我的博客有详细介绍该软件如何使用。

把GISTIC的结果，包括focal and arm-level amplifications/deletions都进行了信息的生物学解释，哪些基因很重要，哪些通路很重要，都详细的描述了，这个需要作者具有渊博的生物学背景知识，而不是数据分析技巧了。

五是结合4种表达量数据来分析

分析完突变数据，然后开始分析表达数据，作者把4种表达量数据综合起来分析了，包括甲基化位点表达数据，mRNA，miRNA和蛋白的表达数据。前两个是从TCGA data portal里面下载的，后两个是从Firehose里面下载的。

其中mRNA表达数据，基于RSEM的表达值，分析表达数据差异的时候，还做了GSEA分析。

也研究了miRNA调控，用miRTarBase数据库来验证miRNA的target，或者通过TargetScan, miRanda and miRDB 数据库来预测

表达数据一般用热图来可视化，然后重点讲几个通路，为什么在癌症这么相关呢？为什么男女差异这么大呢？等等

六是根据自己的分组来探索一些临床指标以及药物可能的影响。

这个算是本文比较新颖的地方了，作者从FDA批准的一些癌症相关药物里面找到了这些药物作用的基因，然后把这些基因跟有性别差异的基因进行交叉比较。

这个研究意义非凡，因为现在对癌症病人用药都是一视同仁，不会考虑到性别的差异，而我们的分析恰恰证明了癌症患者的性别差异还是蛮大的，为了更好的治疗，这些必须考虑进去。比如SRC这个基因在HNSC这个癌症患者里面，女性比男性显著高表达。

下面这个高大上的图说明了一切，但想真搞明白，不是一天两天的事情。

TCGA数据挖掘系列文章之-pseudogene假基因探究

ulwvfje — Mon, 16 May 2016 11:31:04 +0000

这是TCGA数据挖掘系列文章之一，是安德森癌症研究中心的Han Liang主导的，纯粹的生物信息学数据分析文章。

文章见：http://www.nature.com/ncomms/2014/140707/ncomms4963/full/ncomms4963.html

TCGA数据库的数据量现在已经非常可观了，一万多的肿瘤样本数据，关于假基因的这篇文章是2014年发的，所以他们只研究了2,808个样本数据，也只涉及到7个癌症种类。

假基因是原来的能翻译成蛋白的基因经过各种突变导致丧失功能的基因。

比如

PTEN-->PTENP1

KRAS-->KRASP1

NANOG-->NANOGP1

很好理解，一般来说看到结尾是P1,等字眼的都是假基因，现在共有一万多假基因，我一般以http://www.genenames.org/cgi-bin/statistics （人类基因命名委员会）为标准参考。

文章主要做了6件事情。

一是重新定义及规范了假基因该研究什么，就是把Yale Pseudogene database的假基因资源和GENCODE Pseudogene Resource的假基因资源结合起来，然后定义了一些过滤手段，具体流程如下。

二是下载了TCGA的那2,808个样本的RNA-seq的level2数据，也就是bam文件，重新提取关于假基因的表达数据。如果只是自己下载表达数据的话，关于假基因的定量并不准确，而且只有五百多个假基因。

当然，一般人没有条件下载RNA-seq的level2数据，所以想学习这个流程的话，直接下载表达矩阵吧。

Cancer type	Number of nontumour samples	Number of tumour samples	Sequencing strategy	Number of mappable reads	Number of detectable pseudogenes
Breast invasive carcinoma	105	837	Paired-end	161 M	747
Kidney renal clear cell carcinoma	67	448	Paired-end	166 M	712
Lung squamous cell carcinoma	17	220	Paired-end	171 M	813
Ovarian serous cystadenocarcinoma	0	412	Paired-end	170 M	670
Glioblastoma multiforme	0	154	Paired-end	106 M	875
Colorectal carcinoma	0	228	Single-end	22 M	168
Uterine corpus endometrioid carcinoma	4	316	Single-end	26 M	181

第三件事是把假基因与其配对的野生型基因的表达数据做了相关性分析，一般来说，它们的相关性由下面三个原因决定。

(i) the sequence similarity between the pseudogene/gene pair;

(ii) the molecular mechanisms through which the pseudogene functions;

(iii) the detection sensitivity given the setting of RNA-seq experiments.

结论是不怎么相关，暗示着假基因虽然不编码蛋白产物，但仍然行使着某种功能。

第四件事是如果RNA-seq有正常对照的，就做一样normal和tumor的差异分析，当然现在已经是都有了，在GSE62944可以下载所有的表达数据，专门提取假基因的表达数据做差异分析就好了。

但是差异分析的结果是，没有什么现实意义。所以作者认为normal和tumor这样比较是不科学的，因为tumor本来就不应该按照组织来分类，而是应该按照TCGA的6种数据来分类()

In recent years, various ‘omic’ data, such as mRNA expression, microRNA expression, DNA methylation, somatic copy number alteration and protein expression, have been widely used to classify tumour samples into different molecular subtypes^{13, 14, 15, 16, 17, 18, 19}.

第五件事就是把假基因表达数据的分类来跟其它几种分类形式作比较。

那些分类来源于以前的TCGA大文章：

48 in UCEC (endometrioid vs serous)²³,

138 in LUSC (basal, classical, primitive and secretory)¹⁶,

71 in GBM (classical, mesenchymal, neural and proneural)²⁴ and

547 in BRCA (PAM50 subtypes: luminal A, luminal B, basal-like, Her2-enriched and normal-like)²

文章就是：^{13, 14, 15, 16, 17, 18, 19}.

最后就是做一些生存分析，讲一些好听的故事，比如说这样分类有利于精准医疗。看起来还不错，值得大家学习一下，数据也都可以下载，文章中提供了syn编号。

所有TCGA的maf格式somatic突变数据均可下载

ulwvfje — Fri, 06 May 2016 12:33:36 +0000

如果你研究癌症，那么TCGA计划的如此丰富的公共数据你肯定不能错过，一般人只能获取到level3的数据，当然，其实一般人也没办法使用level1和level2的数据，毕竟近万个癌症样本的原始测序数据，还是很恐怖的，而且我们拿到原始数据，再重新跑pipeline，其实并不一定比人家TCGA本身分析的要好，所以我们直接拿到分析结果，就足够啦！

而分析结果里面，最有用的就是somatic mutation了，我前面很多博客都提到过somatic mutation，包括它的概念以及分析流程，但是我们还有更方便的办法，直接下载已经分析好的somatic mutation文件！

至少目前所有TCGA的somatic mutation文件都是可以下载的：https://wiki.nci.nih.gov/display/TCGA/TCGA+MAF+Files

里面包含的somatic mutation非常多，都是MAF格式记录的，首先，根据各个癌症种类，分成了单独的文件，这样你想研究哪个癌症就下载哪个，然后对每个癌症种类，每次TCGA发表一篇文章，就有一个对应的MAF文件。你可以根据它文章所讲的思路重新别人的分析流程。

突变频谱探究mutation siganures

ulwvfje — Fri, 06 May 2016 12:11:30 +0000

这也是对TCGA数据的深度挖掘，从而提出的一个统计学概念。文章研究了30种癌症，发现21种不同的mutation signature。如果理解了，就会发现这个其实蛮简单的，他们并不重新测序，只是拿已经有了的TCGA数据进行分析，而且居然是发表在nature上面！

研究了4,938,362 mutations from 7,042 cancers样本，突变频谱的概念只是针对于somatic 的mutation。一般是对癌症病人的肿瘤组织和癌旁组织配对测序，过滤得到的somatic mutation，一般一个样本也就几百个somatic 的mutation。

paper链接是：http://www.nature.com/nature/journal/v500/n7463/full/nature12477.html

还有其它文章也是这样分析的http://www.sciencedirect.com/science/article/pii/S0959437X13001639

从2013年提出到现在，已经有30种mutation siganures，在cosmic数据库有详细记录，更新见：http://cancer.sanger.ac.uk/cosmic/signatures

它的概念就是：根据突变上下文分成96类，然后每类突变的频率不一样画一个条形图，可视化展现。

Each signature is displayed according to the 96 substitution classification defined by the substitution class and sequence context immediately 3′ and 5′ to the mutated base. The probability bars for the six types of substitutions are displayed in different colours.

仔细看paper，还是蛮好理解的，自己写一个脚本就可以做这个分析了，前提是下载各个癌症的somatic mutation文件，一般是maf格式的，很多途径下载。

In principle, all classes of mutation (such as substitutions, indels, rearrangements) and any accessory mutation characteristic, for example, the sequence context of the mutation or the transcriptional strand on which it occurs, can be incorporated into the set of features by which a mutational signature is defined. In the first instance, we extracted mutational signatures using base substitutions and additionally included information on the sequence context of each mutation. Because there are six classes of base substitution—C>A, C>G, C>T, T>A, T>C, T>G (all substitutions are referred to by the pyrimidine of the mutated Watson–Crick base pair)—and as we incorporated information on the bases immediately 5′ and 3′ to each mutated base, there are 96 possible mutations in this classification. This 96 substitution classification is particularly useful for distinguishing mutational signatures that cause the same substitutions but in different sequence contexts.

很多癌症都发现了不止一种mutation signature，甚至高达6种，说明癌症之间差异还是蛮大的！

In most cancer classes at least two mutational signatures were observed, with a maximum of six in cancers of the liver, uterus and stomach. Although these differences may, in part, be attributable to differences in the power to extract signatures, it seems likely that some cancers have a more complex repertoire of mutational processes than others.

Most individual cancer genomes exhibit more than one mutational signature and many different combinations of signatures were observed

但是，我最后也没能绝对的界限是什么，因为总不能用肉眼来看每个突变频谱不一样吧？

The set of signatures will be updated in the future. This will include incorporating additional mutation types (e.g., indels, structural rearrangements, and localized hypermutation such as kataegis) and cancer samples. With more cancer genome sequences and the additional statistical power this will bring, new signatures may be found, the profiles of current signatures may be further refined, signatures may split into component signatures and signatures may be found in cancer types in which they are currently not detected.

分类会持续不断更新，随着更多的cancer type和样本加入，新的signature会被发现，现有的signature也可能会被重新定义，或者被分割成多个小的signature

用TCGA数据做cox生存分析的风险因子（比例风险模型）

ulwvfje — Fri, 22 Jan 2016 13:25:17 +0000

再次强调一下，R里面实现生存分析非常简单！

用my.surv <- surv(OS_MONTHS,OS_STATUS=='DECEASED')构建生存曲线。

用kmfit2 <- survfit(my.surv~TUMOR_STAGE_2009)来做某一个因子的KM生存曲线。用 survdiff(my.surv~type, data=dat)来看看这个因子的不同水平是否有显著差异，其中默认用是的logrank test 方法。

用coxph(Surv(time, status) ~ ph.ecog + tt(age), data=lung) 来检测自己感兴趣的因子是否受其它因子(age,gender等等)的影响。

我们还是拿TCGA的数据来做例子，卵巢癌的那篇文章里面根据甲基化数据和mRNA表达数据都可以把癌症样本分成四组，我们前面看了甲基化分组方法的确是有差异，但是还没有达到0.05的统计学意义的显著性。我们接下来把mRNA分组也检验一下，然后把两个分组方法当初一个影响生存率的因子，然后用cox方法看看这两个因子的权重！

Cox比例风险回归模型（Cox’s proportional hazards regression model），简称Cox回归模型。该模型由英国统计学家D.R.Cox于1972年提出，主要用于肿瘤和其它慢性病的预后分析，也可用于队列研究的病因探索。

首先，我们从TCGA里面下载得到的做生存分析的数据如下（代码见末尾）：

很明显看到，两种分组方式不一致的地方非常多，所以说癌症的分组仍然是一个没有解决的问题，我们可以把这两种分组方式当做因子来探究它们对生存率的影响！

my.surv=Surv(sur_dat$OS_MONTHS.y,sur_dat$OS_STATUS.y=='DECEASED')

#plot(survfit(my.surv~1))

survfit(my.surv~1)

kmfit=survfit(my.surv~1)

plot(kmfit)

summary(kmfit)

用survdiff检验分组的显著性，结果如下：

可以看出，这里两种分类方式都挺好的，虽然没有达到0.05的统计学意义上的显著。

如果用cox模型回归分析如下：

所以R里面做生存分析是非常简单的，就寥寥几个函数即可，当然，你得知道这些函数的输入数据是什么。函数的结果很容易看懂，就是各种分组因子的显著性，还有风险比(HR)-hazard ratio（输出里面，coef就是beta值，相应的exp(coef)就是HR了）而已，这也是大多数人关心的。

我记得用cox模型还可以得到预测函数，根据一些因子的值来预测病人还有多少天生存期

大家可以去这里深度学习： https://www.bioconductor.org/help/course-materials/2016/BioC2016/ConcurrentWorkshops4/Buros/applied-survival-model.html

参考：http://www.biomart.cn/experiment/430/586/588/240451.htm?trace=0420labstp

http://www.dxy.cn/bbs/thread/3327209#3327209

http://blog.csdn.net/shmilyringpull/article/details/17529637