GSVA其实就是pathway级别的差异分析

差异分析相信大家应该是都没有问题了,就是跟着我在生信技能树的教程走,当然也会有一些小细节需要注意,在 你确定你的差异基因找对了吗? 我很好的示范了部分细节。
差异分析系列推文在:

  • 解读GEO数据存放规律及下载,一文就够
  • 解读SRA数据库规律一文就够
  • 从GEO数据库下载得到表达矩阵 一文就够
  • GSEA分析一文就够(单机版+R语言版)
  • 根据分组信息做差异分析- 这个一文不够的
  • 差异分析得到的结果注释一文就够
    不过,标准分析通常是不够的,定位到成百上千个有统计学显著变化的差异表达基因后,同样是有成百上千个生物学功能注释(GO功能和KEGG通路),普通的超几何分布检验已经不能满足大家多元化的分析了,所以就有了大家耳熟能详的GSEA分析,以及绝大部分人比较陌生的GSVA分析。
    GSVA分析的文章发表于2013年,GSVA: gene set variation analysis for microarray and RNA-Seq data 同样是broad 研究生出品,其在2005年PNAS发表的gsea已经高达1.4万的引用了,不过这个GSVA才不到300。去年我就介绍过一波它的分析流程,在:使用GSVA方法计算某基因集在各个样本的表现 非常简单的代码,所以各个培训机构,公司人员都开始学习和二次创作进而分享。考虑到最近邮箱接收的GSVA提问比较多,我这里还是得再次归纳总结一波,这次我准备从GSVA其实就是pathway级别的差异分析的角度来分享。
    一般人做数据挖掘,到差异基因的生物学功能注释(GO功能和KEGG通路)就结束了,进而也就是去使用一些网页工具,比如string,出一些花花绿绿的图表,比如PPI网络图。实际上,使用了GSVA,可以把成百上千个生物学功能注释(GO功能和KEGG通路)转换为新的表达矩阵,就是具体的每个通路在各个样本的基因集变异分析(Gene Set Variation Analysis,GSVA)值,我们把它当作一般的矩阵文件,进行差异表达分析,热图绘制,火山图绘制。
    下面我们以文献 Metabolic remodeling contributes towards an immune‐suppressive phenotype in glioblastoma 为例,欣赏它的两个图表,文章发表在Cancer Immunology, Immunotherapy (2019)
    https://doi.org/10.1007/s00262-019-02347-3

    基于pathway的热图

    虽然作者这里使用的代谢组学数据:

    Global metabolomic profiling was performed on patient-derived glioblastoma (GBM; n=80) and LGA (n=28) tumor samples using LG/GC–MS.
    本质上仍然是记录表达量。
    ![image-20190928112733036]http://www.bio-info-trainee.com/wp-content/uploads/2019/12/image-20190928112733036.png)

    基于pathway的火山图

    ![image-20190928112802174]http://www.bio-info-trainee.com/wp-content/uploads/2019/12/image-20190928112802174.png)

    pathway的具体含义

    pathway在我这里是基因集的别名,其中msigdb有着丰富的基因集,MSigDB(Molecular Signatures Database)数据库中定义了已知的基因集合:http://software.broadinstitute.org/gsea/msigdb 包括H和C1-C7八个系列(Collection),每个系列分别是:

  • H: hallmark gene sets (癌症)特征基因集合,共50组,最常用;
  • C1: positional gene sets 位置基因集合,根据染色体位置,共326个,用的很少;
  • C2: curated gene sets:(专家)校验基因集合,基于通路、文献等:
  • C3: motif gene sets:模式基因集合,主要包括microRNA和转录因子靶基因两部分
  • C4: computational gene sets:计算基因集合,通过挖掘癌症相关芯片数据定义的基因集合;
  • C5: GO gene sets:Gene Ontology 基因本体论,包括BP(生物学过程biological process,细胞原件cellular component和分子功能molecular function三部分)
  • C6: oncogenic signatures:癌症特征基因集合,大部分来源于NCBI GEO 发表芯片数据
  • C7: immunologic signatures: 免疫相关基因集合。

Comments are closed.