谁说单细胞工具一定要应用于单细胞数据呢

最近读文献, 看到了一个有意思的文章,发表在 Nat Commun . 2021 Jan 的文章:《Global computational alignment of tumor and cell line transcriptional profiles 》提到了一个工具,Cellinger,链接是:https://www.nature.com/articles/s41467-020-20294-x
本来呢,我是想介绍这个工具,Cellinger,他可以帮助我们挑选合适的癌症细胞系模型。但是我在读文献的过程,发现了另外一个有意思的点,就是把单细胞数据处理的各个工具算法,应用到了传统的转录组表达量矩阵,就是TCGA和CCLE的表达量矩阵。

开局一个TCGA和CCLE

  • Large datasets such as The Cancer Genome Atlas (TCGA) the multi-omic features of approximately 10,000 primary tumor biopsy samples
  • the Cancer Cell Line Encyclopedia (CCLE) more than 1,000 cancer cell lines.
    下载方式,以及各个数据库的样本量,基因数量,都如下所示:
    image-20210122091728980
    提到的xena数据库下载tcga的全部癌症样品的表达量矩阵,然后是DepMap数据库下载CCLE的全部表达矩阵,最后两个矩阵仅仅是取了蛋白编码基因。

    接下来全部靠单细胞工具

    材料和方法如下所示 :
    image-20210122091748589
    大名鼎鼎的seurat无需我多介绍了,更新速度之快,咱们《单细胞天地》的主力小编周运来在《生信菜鸟团》单独开辟了一个专栏,都给它更新了两个月了:
    (不要问我为什么《单细胞天地》的主力小编周运来为什么会在《生信菜鸟团》发笔记,而且还是由我在《生信技能树》公布这一新闻!)

  • Seurat Weekly 专栏总结(送圣诞礼物)
  • Seurat Weekly NO.0 || 开刊词
  • Seurat Weekly NO.1 || 到底分多少个群是合适的?!
  • Seurat Weekly NO.2 || 我该如何取子集?
  • Seurat Weekly NO.3 || 定制可视化
  • Seurat Weekly NO.4 || 高效数据管理
  • Seurat Weekly NO.05 || 大数据集处理之Pseudocell
  • Seurat Weekly NO.06 || Scanpy2Seurat
    另外,文献里面提到了MNN,其实来源于scran这个R包,而scran的介绍就比较少,我们介绍最多的是Cell cycle phase assignment功能,也就是推断细胞周期。要学好它,就是掌握使用scran包的SingleCellExperiment函数即可构建SingleCellExperiment对象。其实多个样本单细胞转录组数据整合算法以 mutual nearest neighbors (MNNs)和canonical correlation analysis (CCA) 最为出名,见 详细介绍多个单细胞转录组样本的数据整合之CCA-Seurat包 ,但是scran包的 mutual nearest neighbors (MNNs)方法中文介绍确实不多,而且我觉得其实主要就是读文档而已:https://bioconductor.org/packages/release/bioc/vignettes/scran/inst/doc/scran.html

    起初表达矩阵的数据库批次效应肉眼可见

    如下所示,TCGA和CCLE的表达量矩阵的差异非常大 :
    矫正批次效应前
    a A 2D projection of combined, uncorrected cell line and tumor expression data using UMAP (n = 1,249 cell lines, n = 12,236 tumors).

    单细胞工具整合两个数据集

    使用scran包的 mutual nearest neighbors (MNNs)方法,整合了TCGA和CCLE的表达量矩阵后,可以看到这个时候两个数据库的差异基本上被抹平了,各个样品主要是按照癌症或者组织类型的差异来区分远近距离啦。
    矫正批次效应后
    Fig. 2 Celligner alignment of tumor and cell line samples. UMAP 2D projection of Celligner- aligned tumor and cell line expression data colored by annotated cancer lineage. The alignment includes 12,236 tumor samples and 1,249 cell lines, across 37 cancer types.

    全部代码公开可以学习

    https://github.com/broadinstitute/Celligner_ms
    我看了看,文章里面的每个主图和附图的绘图方式都有,值得follow,如果你足够努力,甚至可以基于这个文献的代码开一个公众号,写个几百篇笔记!

    学徒作业

    开设自己的公众号,学习这篇文章的代码,尝试写自己的笔记,发出去第一个笔记后,把该笔记的链接或者你的公众号ID发给我,我的邮箱是 jmzeng1314@163.com

Comments are closed.