现在是单细胞公共数据集重利用时代了

这两个月单细胞市场上最劲爆的消息应该就是我们《生信技能树》和《单细胞天地》等公众号都推出来的 10X单细胞转录组钜惠套餐，详见：2个分组的单细胞项目标准分析，原价15~20万的6个10x单细胞转录组套餐，现价10万。添加微信咨询的人太多了，三个团队连轴转都还没有处理完毕，主要是每个前来咨询的小伙伴我们都会提供个性化点评，避免大家花10万块钱的冤枉钱，做了测序却不知道如何分析如何写作。

做了活动才知道，原来大家的科研思维都好原始，研究肿瘤的无非就是转移与否，耐药与否，复发等等，基本上常见的几十种癌症其实早就有文章发表了。更别提最简单的图谱研究了。基本上每个癌症都有一个大于20人的队列，并且是公开表达量矩阵的，比如《Dissecting esophageal squamous-cell carcinoma ecosystem by single-cell transcriptomic analysis》这个前不久刚刚发布的食管癌单细胞队列，每个病人的临床特性清清楚楚：

食管癌单细胞队列

你下载了表达量矩阵，就可以自己去设计课题啦，比如抽烟与否的食管癌病人的单细胞水平差异，不同病理分级分期病人（比如早期和晚期）食管癌患者单细胞水平差异等等！

头颈癌，结直肠癌，胃癌，乳腺癌也是如此！肺癌就更多了，非小细胞肺癌里面的肺鳞癌和肺腺癌，以及小细胞肺癌。

通通没有毕业自己测序了！

而且不仅仅是纯粹的数据挖掘文章在开始复用已经发表了的单细胞，哪怕是CNS及其子刊也开始使用公共单细胞数据集啦。比如，结直肠癌的单细胞队列，于Nat Genet . 2020 Jun;发表的文章：《Lineage-dependent gene expression programs influence the immune landscape of colorectal cancer》，就有 91,103 unsorted single cells from 23 Korean and 6 Belgian patients. 而且是公开可以下载的。

就有一个 2021年4月发表在NC的文章：《Epigenomic landscape of human colorectal cancer unveils an aberrant core of pan-cancer enhancers orchestrated by YAP/TAZ》的figure6就是利用了这个单细胞数据去验证他们发现的 cancer regulatory blueprint (CRB score) ，这个打分很明显在恶性的肿瘤细胞里面远高于正常水平细胞。

对全部的单细胞数据进行降维聚类分群

很简单的分析，作者首先对全部的单细胞数据进行降维聚类分群，得到：

(B cells n = 9146;
Mast cells n = 187;
Myeloid cells n = 6769;
Stromal cells n = 5933;
T cells n = 23,115).

以及上皮细胞，但是上皮细胞区分了恶性上皮和正常水平细胞：

malignant (gray; n = 17,469)
non-malignant epithelial clusters (green; n = 1070),

作者定义的正常水平细胞数量有点少啊，

然后作者把全部的上皮细胞（18,539 epithelial cells）进行重新降维聚类分群，再去映射他们自己的cancer regulatory blueprint (CRB score) ，以及目前比较流行的stemness，发现并不是一回事。

两个打分不一样

发现 malignant cells with an active CRB do not necessarily display stem-like properties

单细胞数据复用时代来袭，你准备好了吗？

简单的复用，就是前面演示的降维聚类分群啦，小伙伴们跟着我们的单细胞数据分析流程，基本上都掌握了：单细胞聚类分群注释，尤其是我们重点演示了的第一层次的分群。b站免费视频课程地址：https://www.bilibili.com/video/BV19Q4y1R7cu

如果你对单细胞数据分析还没有基础认知，可以看基础10讲：

高级的复用，就需要自己熟练的掌握算机基础知识，我把它粗略的分成基于R语言的统计可视化，以及基于Linux的NGS数据处理：

把R的知识点路线图搞定，如下：

了解常量和变量概念
加减乘除等运算（计算器）
多种数据类型（数值，字符，逻辑，因子）
多种数据结构（向量，矩阵，数组，数据框，列表）
文件读取和写出
简单统计可视化
无限量函数学习

Linux的6个阶段也跨越过去，一般来说，每个阶段都需要至少一天以上的学习：

第1阶段：把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅，主要目的就是去可视化，熟悉黑白命令行界面，可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。
第2阶段：做到文本文件的表格化处理，类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余、查找、切割、替换、合并、补齐，熟练掌握awk、sed、grep这文本处理的三驾马车。
第3阶段：元字符，通配符及shell中的各种扩展，从此linux操作不再神秘！
第4阶段：高级目录管理：软硬链接，绝对路径和相对路径，环境变量。
第5阶段：任务提交及批处理，脚本编写解放你的双手。
第6阶段：软件安装及conda管理，让linux系统实用性放飞自我。

有了这样的基础，才有可能去摸索转录因子分析和细胞通讯等高级分析了，主要是对这些分析基本上都是在Linux服务器上面完成，而且计算机资源消耗会比较大，我也多次分享过细节教程：

一	二	三	四	五	六	日
« 九
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

现在是单细胞公共数据集重利用时代了

单细胞数据复用时代来袭，你准备好了吗？