学徒作业-两个基因突变联合看生存效应

我喜欢把TCGA数据库的应用划分为8个领域:

  • 1、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)的预后(生存曲线)
  • 2、探索各类肿瘤与对照的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(箱线图)
  • 3、探索各类肿瘤与对照的全局(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的差异情况(差异分析流程)
  • 4、探索各类肿瘤中两个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平相关性(散点图)
  • 5、探索各类肿瘤中多个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平总结(热图)
  • 6、探索各类肿瘤中单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)与所有其它分子相关性并且排序
  • 7、探索各类肿瘤中单个基因突变或者单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)水平的预后(生存曲线)
  • 8、探索各类肿瘤不同临床特征(性别、年龄、种族、临床分期)分组后的单个分子(mRNA,lncRNA,miRNA,甲基化,蛋白)特性的分布

前面我已经把一百多位优秀本科生带入了生物信息学的大门,接下来五年该大家奉献自己的博士成果了。如果大家感兴趣秀本科生活动, 已经带领了近100名优秀本科生了解生物信息学相关毕业设计:这120万我就不要了,送给500名优秀本科生,符合条件的继续报名哈!

不知不觉一个月都过去了,优秀本科生已经学完了R语言和Linux,虽然说他们还很稚嫩,也不可能这么快就有自己的服务器,但是已经都购买了最低配云服务器,见:还说啥呢,继续免费啊,里面的:购买入门级服务器免费送Linux直播培训服务,我相信他们的未来是光明的。

在没有服务器的日子里,就只能是先安排大家继续完善统计可视化的学习,包括我们一直强调的TCGA数据挖掘技能。

其中一个学生看到文献有下面这个图表,咨询如何做到:

image-20200424215802067

我把它拆解一下:

  • 首先下载TCGA某个癌症的maf文件,里面记录的是肿瘤病人的somatic突变信息
  • 然后下载该癌症全部病人的临床信息
  • 然后根据指定基因,比如上图的BAP1和SETD2在maf文件里面查询是否突变把病人分组
  • 2个基因突变与否是可以分成4组,上图比较的是两个基因都没有突变的1个组,与剩余的3个组来看生存差异
  • 生存曲线当然是R语言啦

加油哦,等你完成作业。我们已经多次介绍过生存分析:

你可以任意选择一个癌症, 完成这个作业

文末友情宣传

强烈建议你推荐我们生信技能树给身边的博士后以及年轻生物学PI,帮助他们多一点数据认知,让科研更上一个台阶:

Comments are closed.