什么，你的转录组测序数据样本量不够？

曾经（大约是2010附近）普通的bulk的转录组测序跟如今的单细胞转录组一样火爆，是个样品就去测序，都不会理会类似的实验设计是否有已经发表的文章。都妄想用经费堆，去摘低垂的果实，所以大量数据烂在手上，拖到后面就越来越难以发表，能捡到个普通杂志发表出去就谢天谢地了。

比如发表在《genes & genomics》这个期刊（影响因子1分左右）的 2016的文章：《Transcriptome analysis of non-small cell lung cancer and genetically matched adjacent normal tissues identifies novel prognostic marker genes》，链接是 https://link.springer.com/article/10.1007/s13258-016-0492-5 ，就是一个超级普通的bulk的转录组测序数据。

他们自己的课题设计其实仅仅是做了 10 pairs of genetically matched transcriptome (NSCLC and adjacent normal tissues obtained from 10 patients) ，其实这样的数据本来就可以直接去TCGA数据库提取了，完全没有必要自己招募病人自己花钱测序。数量级上不去，分析也是平平无奇，所以作者得结合两个公共数据：71 pairs (GSE40419) and 58 pairs (TCGA-LUAD)，

结合两个公共数据

这样就有3次差异分析，可以取交集看韦恩图：

多次差异分析取交集看韦恩图

普通的转录组数据分析超级简单

有意思的是都2021了仍然有人转录组走tophat加cufflinks流程，过时了，我在2015年逛biostar论坛的时候，看到了这样的表述：

Tophat 首次被发表已经是6年前
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍，hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍，但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性，且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤，直接进行kmer计数来做QC，特异性及准确性都还行，但是速度提高了25倍
kallisto同样不需要比对，速度比sailfish还要提高5倍！！！

当时各路大神就建议大家抛弃传统的tophat加cufflinks流程，毕竟其作者都说它过时了，起码可以替换成为：hisat2+stringtie+ballgown流程啊！

如果你看到有人还在使用tophat加cufflinks流程来处理转录组数据，也不要急于嘲讽，有可能是他们的数据本来就是五六年前的，或者给他们服务的公司仍然是使用过时的流程而已。

但是我们的B站免费NGS数据处理视频课程就不会如此过时，因为常规ngs组学早在2015就定型了，我们的视频课程大多在2018年前后制作，已经组建了微信交流群的有下面这些：

最后，既然是肿瘤病人的测序数据，分析到最后，肯定是画龙点睛一下，添加生存分析，使用 lung cancer microarray datasets (GSE41271, GSE37745, and GSE4573) ，就可以说明自己的测序数据分析得到的基因是有临床意义的。

添加生存分析

我在生信技能树多次分享过生存分析的细节；

生存分析是目前肿瘤等疾病研究领域的点睛之笔！

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

什么，你的转录组测序数据样本量不够？

普通的转录组数据分析超级简单

2026年2月
一	二	三	四	五	六	日
« 九
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28