不要看数量,要看质量

前面我们组建了:免费视频课程《RNA-seq数据分析》交流群 ,很多人马上学习了全套实战视频,并且实践了一个转录组项目流程,新手问的最多的问题是:为什么我给的RNA-seq表达矩阵代码需要的是counts格式输入,而且使用3个不同的R包做差异分析,这3个R包该分别如何设置阈值来进行统计学显著的差异表达基因筛选,以及多个R包数量有时候差异很大,该如何取舍。

我的回答,统一是:不要看数量,要看质量!!!

早在教程:RNA芯片和测序技术的比较(学徒作业),我其实就提出来了,比较同样实验设计的两个表达量探索研究,一个研究使用的是芯片,一个是测序,看看两者的差异基因情况的overlap情况,这样的策略其实是太粗糙了。正确的做法应该是看两次差异分析的基因的logFC的散点图,如下:

两次差异分析的基因的logFC的散点图

而且你可以进行更细致的探索,我们这里以文章:《RNA sequencing atopic dermatitis transcriptome profiling provides insights into novel disease mechanisms with potential therapeutic implications》为例子:

比如把基因按照表达量划分高中低三组后,再去看表达量相关性:

表达量分组后看相关性

再比如选取那些两次差异不统一的基因进行后续功能富集,看看那些基因是否有很多生物学意义。

结果不稳定的基因的注释

这样的探索才是合格的,首先要搞清楚流程,然后搞清楚流程里面的哪些细节是可以调整的, 而且理解调整前后的结果的变化的差异程度能够被接受与否。

以及如何论证不同流程,不同软件,不同参数,不同阈值的结果的差异背后的生物学意义。多做一些实战项目是有助于你理解差异分析的作用和本质,比如我带学徒就会安排他们一些图表复现:

赠送全套生物信息学资料

如果你也有一些生物信息学相关经验或者想法需要分享,生信技能树提供平台哈,你可以发笔记也可以开直播,或者录制视频教程!只需要完成任意学徒作业,并且提交笔记给生信技能树jimmy,发邮件到 jmzeng1314@163.com ,合格者可以拿到全套生物信息学资料,只要你想要学的,只要我有,统统给你!

文末友情推荐

要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160
如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:

如果你没有服务器的话,做NGS数据分析实战可能会有点勉强,建议考虑:每天不足一块钱,定制生信云送给你

Comments are closed.