为什么salmon流程不同软件版本不同参考转录组得到的表达矩阵差异很大

给学徒布置任务,根据我的教程使用salmon流程走一波airway这个转录组数据集,很快就出了结果,为了检查他数据处理的结果准确性,就把我两年前跑的结果给到他,然后让比较一下两个表达矩阵的相关性,结果出乎我意料!

不同流程的表达矩阵居然有批次效应

如下,可以看到我们两个人的表达矩阵,很清晰的分成了两个组:

主成分分析也是如此:

这个是不应该的,理论上来说,不同样本之间是有表达差异的,所以相关性不能太高,而同一个样本在不同流程理论上应该是不能变化太大的。

换一个数据集

起初,我怀疑是数据集的问题,所以让他继续跑了另外一个数据集,就是2018的果蝇的,同样的那个我也是有salmon流程结果,然后继续让他比较他今天的结果和我之前的结果的差异。
这个时候就清晰的看到,同样的一个样本,在salmon流程不同软件版本不同参考转录组得到的表达矩阵差异是很小的。

这个才是合理的,一个样本在不同流程表达矩阵需要几乎是一致的才行,如果换个流程就千差万别,那我们生物信息学数据分析也太不靠谱了。

那么前面的表达矩阵出了什么情况呢

随便检查一个样本的两次流程的表达量差异情况:

真的是很震惊啊,一个基因表达量差异之大,如云泥之别!

最简单的办法是直接载入bam到igv去查看该基因

很简单的网页工具拿到其基因名字:https://www.ensembl.org/id/ENSG00000167658EEF2 (HGNC Symbol) 所以IGV定位查看:

很明显,这么长的一个基因,这么高的表达量,所以学徒跑流程肯定错了,这个基因有很多转录本如下:

为什么明明是高表达基因被搞成了低表达呢?

Comments are closed.