不要看数量，要看质量

前面我们组建了：免费视频课程《RNA-seq数据分析》交流群，很多人马上学习了全套实战视频，并且实践了一个转录组项目流程，新手问的最多的问题是：为什么我给的RNA-seq表达矩阵代码需要的是counts格式输入，而且使用3个不同的R包做差异分析，这3个R包该分别如何设置阈值来进行统计学显著的差异表达基因筛选，以及多个R包数量有时候差异很大，该如何取舍。

我的回答，统一是：不要看数量，要看质量！！！

早在教程：RNA芯片和测序技术的比较（学徒作业），我其实就提出来了，比较同样实验设计的两个表达量探索研究，一个研究使用的是芯片，一个是测序，看看两者的差异基因情况的overlap情况，这样的策略其实是太粗糙了。正确的做法应该是看两次差异分析的基因的logFC的散点图，如下：

两次差异分析的基因的logFC的散点图

而且你可以进行更细致的探索，我们这里以文章：《RNA sequencing atopic dermatitis transcriptome profiling provides insights into novel disease mechanisms with potential therapeutic implications》为例子：

比如把基因按照表达量划分高中低三组后，再去看表达量相关性：

表达量分组后看相关性

再比如选取那些两次差异不统一的基因进行后续功能富集，看看那些基因是否有很多生物学意义。

结果不稳定的基因的注释

这样的探索才是合格的，首先要搞清楚流程，然后搞清楚流程里面的哪些细节是可以调整的，而且理解调整前后的结果的变化的差异程度能够被接受与否。

以及如何论证不同流程，不同软件，不同参数，不同阈值的结果的差异背后的生物学意义。多做一些实战项目是有助于你理解差异分析的作用和本质，比如我带学徒就会安排他们一些图表复现：

赠送全套生物信息学资料

如果你也有一些生物信息学相关经验或者想法需要分享，生信技能树提供平台哈，你可以发笔记也可以开直播，或者录制视频教程！只需要完成任意学徒作业，并且提交笔记给生信技能树jimmy，发邮件到 jmzeng1314@163.com ，合格者可以拿到全套生物信息学资料，只要你想要学的，只要我有，统统给你！

文末友情推荐

要想真正入门生物信息学建议务必购买全套书籍，一点一滴攻克计算机基础知识，书单在：什么，生信入门全套书籍仅需160 。
如果大家没有时间自行慢慢摸索着学习，可以考虑我们生信技能树官方举办的学习班：

如果你没有服务器的话，做NGS数据分析实战可能会有点勉强，建议考虑：每天不足一块钱，定制生信云送给你

一	二	三	四	五	六	日
« 九
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

不要看数量，要看质量

赠送全套生物信息学资料

文末友情推荐