本来就不应该从数据分析角度解决的批次效应

旁观了今天下午的《BioLinkX》本年度第 12 期【生信半月谈·特别活动：针对微生物组数据的批次效应处理】，互动环节有一个提问蛮有意思的，是医院工作者他们想探索南北不同地域的病人的微生物情况，但是因为病人队列收集耗时很长所以各个医院内部的样品就自己处理了并且产出了数据，但是呢不同实验室产出数据这个过程本身会产生差异，然后样品来自于南北不同地域也有差异。如果是矫正南北地域不同实验室带来的批次效应就抹平了地域的差异，而课题就是想探索地域差异。
看起来确实是陷入了一个困局，而且很早之前我们也讨论过这个话题，并不是所有的批次效应都可以被矫正，因为如果是针对生物学差异与批次效应交叉的情况来去除批次效应，很简单的，比如：

第一个批次：2个处理，2个对照样品
第二个批次：3个处理，3个对照样品
这个时候，就可以使用 limma包的 removeBatchEffect 函数或者 SVA（Surrogate Variable Analysis）包的 ComBat 函数，把批次效应去除掉，然后保留生物学差异供后续的差异分析。
但是如果你的实验设计是：
第一个批次：3个处理样品
第二个批次：3个对照样品
那我就只能奉劝你，对这个数据集说拜拜了！
而提问的小伙伴的南北不同地域的病人的微生物情况的差异就是这样的，其实在实验设计之初就可以把南北地域样品放在不同实验室，这样可以一定程度抹除实验室差异但是保留地区差异。这个方法称为”交叉设计”或”交叉批次设计”，它的基本思想是将不同地区的样品均匀地分配到不同实验室，以使实验室效应在不同地区之间均匀分布。这种设计的优势在于可以控制实验室效应，使得南北地域之间的差异更有可能反映地区特有的生物学差异。然而，需要注意的是，南北地域差异仍然可能受到实验室效应的轻微影响，因此在分析时仍然需要考虑实验室作为一个潜在的协变量。在实施这种设计时，需要格外注意确保样品处理和测序的一致性，以减小实验室效应的影响。此外，还需要在分析中考虑和控制其他可能的协变量，如样品处理时间、测序批次等因素。
因为提问者关心的是微生物数据的批次，所以我没有贸然插嘴，毕竟我的经验都是在转录组相关的，表达量芯片或者转录组测序数据处理，详见：

对转录组测序的counts矩阵去除批次效应
多种批次效应去除的方法比较
而且现在绝大部分都是多个类似的数据集可以供找差异，不一定要去批次，完全是可以各自内部独立处理后取交集或者其它统计学方法，比如：
去除批次效应好，还是RobustRankAggreg优？
多个gsea数据集整合为什么一定要纠结批次效应
而且单细胞转录组又是另外一个情况，每个样品都是独立的建库测序本身就是一个批次，这个时候我们可以叫做是去批次也可以叫做是多样品整合：
单细胞转录组测序中的批次效应知多少？（下）
单细胞转录组测序中的批次效应知多少？（上）

如果大家感兴趣这个微生物数据批次效应处理

会议本身是已经是错过啦，但是既然是生信半月谈为公开活动，而且腾讯会议是录屏了的，所以肯定是有回放，感兴趣的小伙伴可以关注《BioLinkX》团队，获取本次分享的录屏哈！

一	二	三	四	五	六	日
« 九
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

本来就不应该从数据分析角度解决的批次效应

如果大家感兴趣这个微生物数据批次效应处理