log与否会改变rpkm形式表达矩阵top的mad基因列表

我在生信技能树多次写教程分享WGCNA的实战细节,见:

  • 一文看懂WGCNA 分析(2019更新版)
  • 通过WGCNA作者的测试数据来学习
  • 重复一篇WGCNA分析的文章(代码版)
  • 重复一篇WGCNA分析的文章(解读版)(逆向收费读文献2019-19)
  • 关键问题答疑:WGCNA的输入矩阵到底是什么格式
    提到过,只需要基因的表达量是适合计算相关性的即可,如果是 原始 counts值,可以直接转为 log(cpm+1) 的格式 ,更为重要的其实是挑选多少个基因进入后续的wgcna流程。但,实际上不同归一化方法很明显会影响基因表达量的相关性,rpkm,fpkm,tmp,counts以及它们的log与否,都是有影响的。不知道有没有人愿意来探索一下,到底哪一种形式最适合做WGCNA分析呢,评价指标是什么,金标准又是什么?这样的探索能算一个科研课题吗?能发SCI文章吗,如果做完了并且勇于写出来?
    我相信,如果仅仅是为了发一个公众号,大家是不可能抽出时间来的!

    不同归一化方式影响很多统计学指标

    不仅仅是会影响基因之间的表达量相关性,而且通常我们的做wgcna会根据mad值来挑选top5000或者10000的基因,log与否的表达矩阵就会影响mad值,而且还影响了mad值排序,影响排序就影响了从top MAD筛选基因这个策略。
    比如,如下代码:
    ```r
    rm(list = ls()) ## 魔幻操作,一键清空~
    options(stringsAsFactors = F)#在调用as.data.frame的时,将stringsAsFactors设置为F
    expr <- read.table(‘expr_rpkm.txt’,
    sep = ‘\t’,header = T,row.names = 1)
    expr[1:4,1:4]
    g1=rownames(expr)[order(apply(expr,1,mad),
    decreasing = T)[1:5000]]

expr=log2(expr+1)
g2=rownames(expr)[order(apply(expr,1,mad),
decreasing = T)[1:5000]]
length(intersect(g1,g2))

3333 个基因是overlap的

```
很明显,log前后的表达矩阵的top 5000的MAD基因,虽然说有3333 个基因是overlap的,比例很高。
但是毕竟差异也不小,就给人一种感觉,生物信息学分析是不靠谱的。
换一个统计学方法,换一个阈值,换一个人来做,就不一样了!
你觉得呢?

WGCNA免费做

我们推文里面提到的各种各样的数据分析环节都是我非常有经验的,比如我在lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 介绍过的那些图表,以及下面的目录的分析内容 对我来说是举手之劳,希望可以帮助到你!

Comments are closed.