单细胞转录组项目你首先要说清楚几个样品多少测序量

本文首发在单细胞天地:https://mp.weixin.qq.com/s/rKutyuaf2PG-m8TpVZjGXQ
因为单细胞目前比较贵,单个10x样本还是在3万左右的费用,大多数课题组就是想尝个鲜,不会测太多样本。如果你看完目前的近1000篇10x单细胞转录组文章就很容易发现规律,从2017到2020,样本量要求是越来越多了,而且想发CNS级别文章,样本数量也要上得去。

scRNA-seq技术到目前为止也有一百多个了,但主流的可以大致分为以下几种:

  • Droplet-based: 10X Genomics, inDrop, Drop-seq
  • Plate-based with unique molecular identifiers (UMIs): CEL-seq, MARS-seq
  • Plate-based with reads: Smart-seq2
  • Other: sci-RNA-seq, Seq-Well
    实际上你需要理解的就是10x数据和Smart-seq2技术啦,最常用而且最常见!上游分析前面讲解了:

    样本量多少都可以发

    但凡看过单细胞转录组相关文献的人都知道,样本量跟文章所发的杂志影响因子是正相关的。样本数量多少都可以发的,不同数量的样本,能讲好的生物学故事不一样,自然发表的水平不一样咯。
    我在单细胞天地分享过,不同数量样本的单细胞项目文章:

  • 我的课题只有一个10x样本肿么办?
  • 两个样品的10x单细胞转录组数据分析策略
  • 三个10X单细胞转录组样本CCA整合
  • 多个单细胞转录组样本的数据整合之CCA-Seurat包
    在教程:使用seurat3的merge功能整合8个10X单细胞转录组样本seurat3的merge功能和cellranger的aggr整合多个10X单细胞转录组对比 其实就指出来了,样本数量再多也可以分析。

    补充材料里面对样本量和数据量描述得很清楚

    单个样本的单细胞转录组很少见了,现在以2个样本项目居多,一个对照一个处理,如果是常规转录组,两个分组的话,每个组通常是3个样本。但是我们说了嘛,单细胞还是很贵,单个10x样本还是在3万左右的费用,大多数课题组就是想尝个鲜,而且学术界也承认单细胞的确很贵,大家hold不住,所以2个样本项目也可以发出去的啦。
    下面就是一个典型的2个样本项目样本量描述:
    image-20200218220957438
    如果样本量比较多,复杂的实验设计,不同生物学假设的分组,可以用示意图发方式,如下;
    单个病人取样示意图

    关于测序数据量

    测序数据量,其实就是文库大小,每个细胞的reads的总数。
    上面截图的10x的单细胞转录组的两个样本的课题,就写清楚了,每个样本是3500左右细胞,每个细胞是8万的reads数量。
    实际上10x单细胞转录组每个样本可以是3000到10000的细胞数量都可以,取决于实验设计。每个细胞平均可以是1到10万的reads,都没有问题。
    如果是Smart-seq2技术呢,每个样本细胞数量通常是96的倍数,500个左右就很厉害了,然后每个细胞的reads就可以很多,百万级别都没有问题。
    记住这些关键数量即可,如果想知道具体原理,多看几个综述即可!

    测序数据量和捕获细胞数量对结果的影响

    10X官方有PBMC单细胞测试数据,4000K细胞,每个细胞平均是50K的reads。然后取500k, 1k, 2.5k, 5k, 7.5k, 10k, 15k, 25k的随机抽样子集,同样的,取100,200,400,600,500,1,2,3,4K的随机抽样子集。
    发现平均每个细胞的0.5K和86K的reads测序量,检测到细胞数量都有4000,而且极低深度测序,仍然是可以比较清晰可见的区分细胞亚型,哪怕在每个细胞的0.5K这样的reads数量情况下每个细胞仅仅是能检测到160个左右的基因。
    当然了,这样的探索,仅仅是计算层面的指导,其实你肯定是在公司测序,你们公司的人一定会推荐你3~8K细胞,平均每个细胞15-50K的reads,这样的测序策略。

Comments are closed.