16

TET2突变是如何引起超甲基化

TET2突变是如何引起超甲基化

癌症病人体内会检测到不正常的甲基化现象。
TET2可以氧化5mC成为5hmC,进而通过其它机制形成5fC5caC
很多血液肿瘤病人的TET2基因突变了,同时会显示出全局的5hmC水平下降。
有趣的是,全局的5hmC水平下降同样发生在很多实体肿瘤病人身上,但是那些病人很少有TET2突变发生。
那么,TET2突变,或者全局的5hmC水平下降,是如何导致启动子区域的CG岛的甲基化水平上升的呢?
有其它文献报道 hypermethylation和oxidative stress (OS)有关系
作者认为 oxidative stress (OS) 在其中起了关键的作用。

Continue reading

26

ESCC-肿瘤空间异质性探究

ESCC-肿瘤空间异质性探究

肿瘤异质性包括空间异质性时间异质性、解剖异质性、结构异质性、基因异质性和功能异质性等等

肿瘤异质性是恶性肿瘤的特征之一,是指肿瘤在生长过程中,经过多次分裂增殖,其子细胞呈现出分子生物学或基因方面的改变,从而使肿瘤的生长速度、侵袭能力、对药物的敏感性、预后等各方面产生差异。肿瘤异质性一直是肿瘤治疗的挑战之一,肿瘤内部不同亚群的细胞对药物敏感性的不同可能会导致治疗的失败。现在主流的探究肿瘤异质性的方法是:

  • 对肿瘤病人的肿瘤组织进行不同时间点取样
  • 对肿瘤病人的肿瘤组织不同部分分别取样

Continue reading

21

肿瘤全外显子测序数据分析流程大放送

这个一个肿瘤外显子项目的文章发表并且公布的公共数据,我这里给出全套分析流程代码。只需要你肯实践,就可以运行成功。

PS:有些后起之秀自己运营公众号或者博客喜欢批评我们这些老人,一味的堆砌代码不给解释,恶意揣测我们是因为不懂代码的原理。我表示很无语,我写了3千多篇教程,如果一篇篇都重复提到基础知识,我真的做不到。比如下面的流程,包括软件的用法,软件安装,注释数据库的下载,我博客都说过好几次了,直播我的基因组系列也详细解读过,我告诉你去哪里学,你却不珍惜,不当回事,呵呵。

Continue reading

03

癌症基因的somatic mutation calling 流程的评价体系

癌症基因的somatic mutation calling 流程的评价体系

文章是:A comprehensive assessment of somatic mutation detection in cancer using whole-genome sequencing

WGS已经逐步走入临床,ICGC目前支持了74个国际项目,刻画了两万五千个癌症患者的基因组特性,希望能因此探究癌症的生物学机制。但对这些数据的分析缺乏严格论证的标准,不同的分析者有着自己独特的分析流程。

Continue reading

03

TCGA CNV全攻略

TCGA CNV全攻略

明白什么是CNV

对正常人来说,基因组应该是二倍体的,所以凡是测到非2倍体的地方都是CNV。但是CNV本身就是人群遗传物质多样性的体现,所以对癌症样本来说,是需要过滤掉正常人体内的germline的CNV,得到somatic的CNV。

Continue reading

02

TCGA计划的4个找somatic mutation的软件使用体验

TCGA计划的4个找somatic mutation的软件使用体验

体细胞突变(somatic mutation)是指患者某些组织或者器官后天性地发生了体细胞变异,虽然它不会遗传给后代个体,却可以通过细胞分裂,遗传给子代细胞。体细胞突变对肿瘤的发生发展有关键性的作用,并且它也是制定肿瘤癌症靶向治疗措施的关键所在。NGS使体细胞变异的检测更加全面,成本更低,在检测多种体细胞变异上具有很大的优势,但在使用过程中还存在着挑战:如样品降解、覆盖度不足、遗传异质性和组织污染(杂质)等问题。 为应对以上挑战,降低错误率,科学家采取了不同的算法和统计模型用于检测体细胞突变。目前最受欢迎的有Varscan、SomaticSniper、 Strelka 和MuTect2

Continue reading

24

一个标准的TCGA大文章应该做哪些数据?

很多人总是问我如何挖掘TCGA的数据,发文章!
可是他却连TCGA的数据是怎么来的都不知道,TCGA发了几十篇CNS大文章(自己测序的)了,每篇文章都有几百个左右的癌症样本的6种数据,这几年凑成了一万多个样本,都放在GDC里面可以任意下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型,driver mutation,假基因等新型研究领域)
那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据?
其实稍微仔细浏览几篇文章就明白了,套路也是存在的,https://tcga-data.nci.nih.gov/docs/publications/
我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧!

Continue reading

十二 28

TCGA表达数据的多项应用之4–求指定基因在指定癌症里面的表达量相关性矩阵,与所有的基因比较。

这个不出图,会给出TCGA里面涉及到的所有基因跟你指定的基因的表达量相关系数和P值,分别你一次性的看清楚你感兴趣的基因跟体内其它基因在该癌症种类的相关性,当然,相关非因果,请谨慎应用! Continue reading

十二 25

TCGA表达数据的多项应用之1–下载数据并且导入mysql

这个TCGA表达数据的多项应用系列帖子是应群里朋友的要求来写的,你们也可以继续提需求,我会接着写下去,其实从TCGA数据库里面下载到了数据之后,后面的所有分析都跟TCGA没有半毛钱关系了,大家要有这个想法,别三两句就问TCGA数据怎么分析,http://www.bio-info-trainee.com/?s=TCGA&submit=Search 本系列最后会形成一个shiny版本的交互式表达数据查询,处理,绘图,统计的网页APP。
我这里偷懒一下了,直接下载GEO里面的TCGA的表达数据,而不是去TCGA的官网里面下载:
它处理了目前(大概是2015年6月)TCGA收集的所有癌症样本的mRNA表达数据,并且统一处理成了count和RPKM两种表达量形式。 GEO地址:http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE62944

Continue reading

19

用GISTIC多个segment文件来找SCNA变异

这个软件在TCGA计划里面被频繁使用者,用这个软件的目的很简单,就是你研究了很多癌症样本,通过芯片得到了每个样本的拷贝数变化信息,芯片结果一般是segment结果,可以解释为CNV区域,需要用GISTIC把样本综合起来分析,寻找somatic的CNV,并且注释基因信息。

有两个难点,一是在linux下面安装matlab工作环境,二是如何制作输入文件。

Continue reading

18

2016-TCGA数据挖掘系列文章之癌症男女有别

这是TCGA数据挖掘系列文章之一,是安德森癌症研究中心的Han Liang主导的,纯粹的生物信息学数据分析文章。
文章题目是:comprehensive characterization of molecular differences in cancer between male and female patients.
研究意义:癌症病人的性别对肿瘤发生,扩散的意义不言而喻。不仅仅是因为很多癌症本来就是有性别特异性,比如卵巢癌之于女性、前列腺癌之于男性。即使对于其它并非性别特异性的癌症种类,男女病人在肿瘤发生,扩散,以及治疗阶段的反应也大不一样。但是以前对这样分子机理研究的很有限,一般集中在某些性别相关的分子pattern,比如非小细胞肺癌女性患者的EGFR突变,但那些研究要么就局限于单一的基因,要么局限于单一的数据类型,或者研究单一的癌症。严重缺乏一个全面的,系统的分析癌症患者的性别差异。而且TCGA数据库的出现让这一个研究变成了可能,这也就是本文章的出现的原因。
数据挖掘的对象:
如表所示,涉及到13种癌症,TCGA的六种数据()都用上了,因为是2016年,所以数据量也比较全面了。

Continue reading

16

TCGA数据挖掘系列文章之-pseudogene假基因探究

这是TCGA数据挖掘系列文章之一,是安德森癌症研究中心的Han Liang主导的,纯粹的生物信息学数据分析文章。
TCGA数据库的数据量现在已经非常可观了,一万多的肿瘤样本数据,关于假基因的这篇文章是2014年发的,所以他们只研究了2,808个样本数据,也只涉及到7个癌症种类。

Continue reading

06

所有TCGA的maf格式somatic突变数据均可下载

如果你研究癌症,那么TCGA计划的如此丰富的公共数据你肯定不能错过,一般人只能获取到level3的数据,当然,其实一般人也没办法使用level1和level2的数据,毕竟近万个癌症样本的原始测序数据,还是很恐怖的,而且我们拿到原始数据,再重新跑pipeline,其实并不一定比人家TCGA本身分析的要好,所以我们直接拿到分析结果,就足够啦!

Continue reading