转录组edgeR分析差异基因

ulwvfje — Mon, 16 Mar 2015 15:06:48 +0000

转录组edgeR分析差异基因

edgeR是一个研究重复计数数据差异表达的Bioconductor软件包。一个过度离散的泊松模型被用于说明生物学可变性和技术可变性。经验贝叶斯方法被用于减轻跨转录本的过度离散程度，改进了推断的可靠性。该方法甚至能够用最小重复水平使用，只要至少一个表型或实验条件是重复的。该软件可能具有测序数据之外的其他应用，例如蛋白质组多肽计数数据。可用性：程序包在遵循LGPL许可证下可以从Bioconductor网站。

一：下载安装该软件

下载安装edgeR这个R包，因为这是一次讲R包的下载，我就啰嗦一点，这种生物信息学的包不同于普通的R包，是需要用biocLite来安装的，命令如下

安装成功之后会有以下提示。

但是我加载碰到一个很幼稚的错误，因为我的电脑太差了，这是一个测试的电脑，是300块钱在二手市场里面淘的，所以内存不够。

我简单搜索了一下，才知道是虚拟内存太小了，需要调整

重启电脑，就成功啦

二：准备数据

就是对tophat的bam文件用HTseq计数后的count文件，见前一篇文章

http://www.bio-info-trainee.com/?p=244

三：运行命令

因为主要是在R里面操作，我就只讲R里面的命令了，首先要把那些HTseq产生的文件拷贝到R的工作目录，我这里是自己设置了工作目录

setwd("D:\\项目\\RNA-seq\\htseq")

a=read.table("case1.sam.count")

b=read.table("case2.sam.count")

c=read.table("control.sam.count")

counts=data.frame(case1=a[,2],case2=b[,2],control=c[,2])

rownames(counts)=a[,1]

这样就读入了一个counts数据框

可以看到有三个样本，涉及到了23373个基因，每个样本的测序量约50M的reads

可以看到，有很多基因的计数不到30次。

我们首先对第一组来选择差异基因

case1_control=counts[,1:2]；group=c("case1","control")；

cds <- DGEList( case1_control, group = group )

简单看看这个构造的对象cds的具体内容

四：输出文件解读

呀，好像运行错误了，好像这个说明书太长了，希望有人跟我一起读读，总共78页的PDF文件，我明天再弄弄！

生信菜鸟团 » edgeR

转录组edgeR分析差异基因