nature文章的差异分析就值得模仿吗？

最近有粉丝提问，他的差异分析跟一篇nature文章的差异分析结果交集少得可怜，不知道自己哪里错误了。

数据集为TCGA-DLBC, 共48个样本，这个nature文献是根据AMBRA1和CCND3基因是否发生突变/扩增/deletion，将所有样本分为实验组和对照组（两个基因均没有发生任何variation的设为对照组）；所以分组情况是 42 control+6 突变组

然后粉丝是使用的DEGs方法为edgeR包，输入count数据，基因排除标准为sum==0，阈值为logFC 绝对值大于1 , p值<0.05, 最后取上下调共top300个基因。跟作者的top300取交集，只有34个。

粉丝提问

一般来说这样的转录组差异分析提问，我会找对方要三张图。

转录组差异分析需要质量控制3张图

我在生信技能树的教程：《你确定你的差异基因找对了吗？》提到过，必须要对你的转录水平的全局表达矩阵做好质量控制，最好是看到标准3张图：

左边的热图，说明我们实验的两个分组，normal和npc的很多基因表达量是有明显差异的
中间的PCA图，说明我们的normal和npc两个分组非常明显的差异
右边的层次聚类也是如此，说明我们的normal和npc两个分组非常明显的差异

如果分组在3张图里面体现不出来，实际上后续差异分析是有风险的。这个时候需要根据你自己不合格的3张图，仔细探索哪些样本是离群点，自行查询中间过程可能的问题所在，或者检查是否有其它混杂因素，都是会影响我们的差异分析结果的生物学解释。

我看了看粉丝提到的这个数据集为TCGA-DLBC, 共48个转录组样本，分组情况是 42 野生型对照组 + 6 突变组，得到的3张图就很奇怪！

3张图就很奇怪

可以看到，这样的 42 野生型对照组 + 6 突变组是完全随机的临床样品了，并不是标准的分组对照实验设计，没有所谓的组间差异大于组内差异的说法。两个分组的不同样品在各种质量控制图表里面都出现不同程度的混入，这样就是标准的强项找差异！如果你想看标准的三张图，比如发表于2021年9月27日，美国康奈尔医学院周乔课题组在Cell Stem Cell 期刊，文章标题是：《SATB2 preserves colon stem cell identity and mediates ileum-colon conversion via enhancer remodeling》，在线阅读链接是：https://doi.org/10.1016/j.stem.2021.09.004 在附件就提到了这样的三张图：

表达量矩阵分析一定要三张图

因为本文里面的 42 野生型对照组 + 6 突变组是强行分组，所以差异分析的结果火山图热图也非常奇怪：

火山图热图也非常奇怪

既然是强行找差异，使用标准差异分析流程处理它我们就不可能对漂亮的结果有什么期待了！

但是作者原文漂亮很多，他用Mann-Whitney U test找的差异基因，然后他的实验组聚类最后聚到一起了！如下所示：

用Mann-Whitney U test找的差异基因

可以看到，其实作者找到的是一个分组，可以把48个病人分成比较好的两个分组，而且恰好作者关心的6个突变样品落入了其中的某一个分组，这样的差异分析结果很有意思。

其实如果是强行分组，可以借鉴代谢组学里面的的 PLS-DA 展示方法，我们常规的PCA是无监督的降维方式，我们的表达量矩阵各自的样品是什么关系就展现什么关系，后续的分组仅仅是去给样品标记颜色而已，它是独立于这个无监督的PCA降维，所以如果你的样品并不是跟分组信息匹配，就容易出现混乱的PCA图，而不是泾渭分明的2个或者多个分组。但是当无监督(PCA)无法很好地区分组间样本时，PLS-DA可以实现有效分离。并且PLS-DA和OPLS-DA所构建的分类预测模型，可进一步用于识别更多的样本类别，这是探索性的PCA方法无法做到的。也就是说 PLS-DA 其实就是预先给定了分组信息，一定要找到分组的差异然后去进行展现，这样它们在图上就很容易看到已知的分组信息的泾渭分明啦。

虽然这样的nature正刊的差异分析是槽点满满，但它毕竟是补充图表内容，而且是 Extended Data Fig. 10f

不得不说，发一个nature正刊工作量真多

我们仅仅是讨论 Extended Data Fig. 10f 就这么多知识点了。他们首先需要使用公共数据库来说明他们研究的这两个基因的重要性：

生存分析

我在生信技能树多次分享过生存分析的细节；

生存分析是目前肿瘤等疾病研究领域的点睛之笔！

文章里面的突变与否分成两组，差异分析后，还需要对上下调基因进行生物学功能数据库富集：

生物学功能数据库富集

文章的描述是：g, Gene enrichment analysis of the top 300 most differentially expressed genes in patients harbouring alterations in AMBRA1 and CCND3 from TCGA (DLBC cohort) was performed using Enrichr (https://amp.pharm.mssm.edu/Enrichr/) with BioPlant (2019), Reactome (2016) and NCI-Nature (2016) databases.

如果大家对数据挖掘的中间过程的合理性不好把握，建议看完我两年前带学徒的时候，安排他们做的文献关键图表复现作业系列笔记分享，如下：

第一期（2018年秋季）

第二期（2019年全年）

学徒作业

针对这个数据集，TCGA-DLBC, 共48个样本
首先去cbioportal拿到如上所示的指定基因突变结果全景图
然后根据AMBRA1和CCND3基因是否发生突变/扩增/deletion找到6个突变病人
然后针对这个数据集为TCGA-DLBC, 共48个转录组样本，分组情况是 42 野生型对照组 + 6 突变组进行标准差异分析
然后针对 42 野生型对照组 + 6 突变组进行 Mann-Whitney U test找的差异基因
绘制两个不同差异分析的热图

一	二	三	四	五	六	日
« 九
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee