参考基因组用错了单细胞转录组流程照样可以走通

但是，能走通流程，并不代表可以有好的生物学解释
前些天我发布了 cellranger更新到4啦，提到了可以免费做一下10X的单细胞转录组数据上游分析，反正刚刚购买的服务器闲着也是闲着。然后，马上就有粉丝寄给我一个2.4T硬盘，里面有24个10X单细胞转录组原始测序数据，真的是超级大，两个星期过去了，我还没有跑完。可能是自己的服务器有点辣鸡吧，或者说因为我使用的是Windows的ubuntu子系统，而不是纯正的ubuntu这样的Linux？
我的服务器配置
当然，这不是重点，麻烦的事情是粉丝仅仅寄给我数据和md5，我校验后文件都是完整的，就直接上流程了，结果，打开一个运行日志后才发现不太对劲额。
粗看起来是很漂亮的结果，本次10x单细胞转录组得到的细胞数量是5548，符合3到5千个细胞的预期，然后每个细胞的平均测序reads数量是56K，也符合预期，就是每个细胞的平均基因数量有点少额。（当时我没有意识到有问题）
错误的报告
其实后续seurat流程也很顺利，很漂亮，但是呢，没有线粒体基因，所以我回过去再看了看10x的cellranger count 流程报告，有一个很小的警告，如下：

我略微思考了一下，因为是比对，所以参考基因组的版本是无所谓的，比对不到参考基因组，肯定是物种选错了。果然，回邮件询问了一下粉丝，把小鼠单细胞数据错当做了是人类数据，就匆匆忙忙跑流程了。唉···
但是，为何我用错了参考基因组，把小鼠的单细胞转录组测序数据比对到人类上面，但是仍然是有10%的成功率呢？而且前面的表达矩阵，后续seurat流程，都有模有样啊，分群也挺好的，高表达量基因都没有问题，如果不回过头检查，难道就这样将错就错了吗？
当然了，后面我仍然是选择了正确的参考基因组，重新跑了一下流程，报告如下：
正确的报告
首先，细胞数量由5000多增加到了7000多，然后每个细胞的平均检测到的基因数量由600多变成了2700多。

一些思考

小鼠单细胞转录组数据里面的10%的reads是可以比对到人的参考基因组，那么做PDX模型这样的人鼠混合数据的时候就必然有一些reads天然就多比对咯？
小鼠单细胞转录组数据里面的10%的reads是可以比对到人的参考基因组，这些reads落入了几百个基因里面，这些基因进行生物学功能基因集富集，是不是有一些含义？
不知道是否有人愿意花费时间去具体探索它，号外：生信技能树知识整理实习生招募，长期招募，我觉得就可以加入这个小课题哦。

一	二	三	四	五	六	日
« 九
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

参考基因组用错了单细胞转录组流程照样可以走通

一些思考