生信菜鸟团 » 差异基因

使用Bedtools对RNA-seq进行基因计数

ulwvfje — Thu, 21 May 2015 01:27:47 +0000

以前是没有想过用这个软件的，直到有一个我的htseq无法对比对的bam文件进行基因计数（后来我才发现htseq无法计数的原因是gtf版本不同导致坐标不同，而且gtf对染色体编号没有加上chr），我简单搜索了一下，发现bedtools multicov也有类似的功能，所以我选择它来试试看！

首先注意它需要sort的bam文件及bam的index

bedtools multicov depends upon index BAM files in order to count the number of overlaps in each BAM file. As such, each BAM file should be position sorted (samtool sort aln.bam aln.sort) and indexed (samtools index aln.sort.bam) with either samtools or bamtools.

首先安装它：

wget https://github.com/arq5x/bedtools2/releases/download/v2.23.0/bedtools-2.23.0.tar.gz

解压开后

Make clean

Make all

然后就可以看到它的bin目录下全部是程序啦

命令很简单的

bedtools multicov [OPTIONS] -bams BAM1 BAM2 BAM3 ... BAMn -bed

By default, multicov will report the count of alignments in each input BAM file that overlap.

例子：

bedtools multicov -bams aln1.bam aln2.bam aln3.bam -bed ivls-of-interest.bed

ivls-of-interest.bed这个文件是必须的，可能需要自己制作，其实用gtf文件也可以的

chr1 0 10000 ivl1

chr1 10000 20000 ivl2

chr1 20000 30000 ivl3

chr1 30000 40000 ivl4

输出结果前三列是坐标，第四列是基因名，跟我们的bed文件一样，只是最后三列是三个样本的计数，是添加上来的！

chr1 0 10000 ivl1 100 2234 0

chr1 10000 20000 ivl2 123 3245 1000

chr1 20000 30000 ivl3 213 2332 2034

chr1 30000 40000 ivl4 335 7654 0

同样是对gene的reads计数，bedtools的multicov工具与htseq-count的区别是

i'd guess it's due to the fact that htseq-count only reports one hit per aligned read assuming that read is aligned uniquely and does not overlap multiple features listed in your GTF. if an aligned read hits more than one feature in your GTF then it doesn't report that hit. bedtools gives you raw hits which includes every 1 hit for every intersection of every alignment with any features in the GTF no matter how many times it aligned or how many features it hit. you might think, "wow, htseq-count is dropping a lot of information". yes, it is! i've moved to using other tools to count hits to genes (RSEM/eXpress) since they disambiguate those ambiguous alignments and as a result you get counts for all of your aligned reads. in a genome with alternative splicing you lose too much data using htseq-count, in my opinion.

而且专门有个文献在讨论这个问题

http://barcwiki.wi.mit.edu/wiki/SOPs/rna-seq-diff-expressions

http://www.nature.com/nbt/journal/v31/n1/abs/nbt.2450.html

Differential analysis of gene regulation at transcript resolution with RNA-seq

下面我讲一个实际的例子

我的bam文件如下

bedtools multicov -bams 740WT1.bam 741WT2.bam 742KO1.bam 743KO2.bam -bed mm9.bed

得到的这个矩阵就可以去用DESeq包来进行差异分析啦！

R语言DESeq找差异基因

ulwvfje — Mon, 18 May 2015 06:24:49 +0000

一：安装并加装该R包

安装就用source("http://bioconductor.org/biocLite.R") ;biocLite("DESeq")即可，如果安装失败，就需要自己下载源码包，然后安装R模块。

二．所需要数据

它的说明书指定了我们一个数据

source("http://bioconductor.org/biocLite.R") ;biocLite("pasilla")

安装了pasilla这个包之后，在这个包的安装目录就可以找到一个表格文件，就是我们的DESeq需要的文件。

C:\Program Files\R\R-3.2.0\library\pasilla\extdata\pasilla_gene_counts.tsv

说明书原话是这样的

The table cell in the i-th row and the j-th column of the table tells how many reads have been mapped to gene i in sample j.

一般我们需要用htseq-count这个程序对我们的每个样本的sam文件做处理计数，并合并这样的数据

下面这个是示例数据，第一列是基因ID号，后面的每一列都是一个样本。

de = newCountDataSet( pasillaCountTable, condition ) #根据我们的样本因子把基因计数表格读入成一个cds对象，这个newCountDataSet函数就是为了构建对象！

对我们构建好的de对象就可以直接开始找差异啦！非常简单的几步即可

de=estimateSizeFactors(de)

de=estimateDispersions(de)

res=nbinomTest(de,"K","W") #最重要的就是这个res表格啦！

uniq=na.omit(res)

我这里是对4个样本用htseq计数后的文件来做的，贴出完整代码吧

library(DESeq)

#首先读取htseq对bam或者sam比对文件的计数结果

K1=read.table("742KO1.count",row.names=1)

K2=read.table("743KO2.count",row.names=1)

W1=read.table("740WT1.count",row.names=1)

W2=read.table("741WT2.count",row.names=1)

data=cbind(K1,K2,W1,W2)

data=data[-c(43630:43634),]

#把我们的多个样本计数结果合并起来成数据框，列是不同样本，行是不同基因

colnames(data)=c("K1","K2","W1","W2")

type=rep(c("K","W"),c(2,2))

#构造成DESeq的对象，并对分组样本进行基因表达量检验

de=newCountDataSet(data,type)

de=estimateSizeFactors(de)

de=estimateDispersions(de)

res=nbinomTest(de,"K","W")

#res就是我们的表达量检验结果

library(org.Mm.eg.db)

tmp=select(org.Mm.eg.db, keys=res$id, columns="GO", keytype="ENSEMBL")

ensembl_go=unlist(tapply(tmp[,2],as.factor(tmp[,1]),function(x) paste(x,collapse ="|"),simplify =F))

#首先输出所有的计数数据，加上go注释信息

all_res=res

res$go=ensembl_go[res$id]

write.csv(res,file="all_data.csv",row.names =F)

#然后输出有意义的数据，即剔除那些没有检测到表达的基因

uniq=na.omit(res)

sort_uniq=uniq[order(uniq$padj),]

write.csv(sort_uniq,file="sort_uniq.csv",row.names =F)

#然后挑选出padj值小于0.05的差异基因数据来做富集，富集用的YGC的两个包，在我前面的博客已经详细说明了！

tmp=select(org.Mm.eg.db, keys=sort_uniq[sort_uniq$padj<0.05,1], columns="ENTREZID", keytype="ENSEMBL")

diff_ENTREZID=tmp$ENTREZID

require(DOSE)

require(clusterProfiler)

diff_ENTREZID=na.omit(diff_ENTREZID)

ego <- enrichGO(gene=diff_ENTREZID,organism="mouse",ont="CC",pvalueCutoff=0.01,readable=TRUE)

ekk <- enrichKEGG(gene=diff_ENTREZID,organism="mouse",pvalueCutoff=0.01,readable=TRUE)

write.csv(summary(ekk),"KEGG-enrich.csv",row.names =F)

write.csv(summary(ego),"GO-enrich.csv",row.names =F)

转录组cummeRbund操作笔记

ulwvfje — Tue, 17 Mar 2015 01:34:16 +0000

转录组cummeRbund操作笔记

这是跟tophat和cufflinks套装紧密搭配使用的一个R包，能出大部分文章要求的标准化图片。

一：安装并加装该R包

安装就用source("http://bioconductor.org/biocLite.R") ;biocLite("cummeRbund")即可，如果安装失败，就需要自己下载源码包，然后安装R模块。

然后把cuffdiff输出的文件目录拷贝到R的工作目录，或者自己设置工作目录

二：读取FN目录下面的所有文件。

可以看到把cuffdiff下面的文件夹所有的文件都读取到了，里面有如下文件，包括genes，isoforms，cds，tss这四种差异情况都读取了。

三：表达水平分布图

四、表达水平箱线图

csBoxplot(genes(cuff_data))

五、画基因表达差异热图

画出热图如下

六、得到差异的genes,isoforms,TSS,CDS等等

得到上调下调基因列表

diffData <- diffData(myGenes )

只有一百个有表达差异的基因

最后贴出一个综合性的代码，算了，太浪费空间了，把整个空间搞得不好看，就不贴了。

这个代码可以自动运行出图;

转录组edgeR分析差异基因

ulwvfje — Mon, 16 Mar 2015 15:06:48 +0000

转录组edgeR分析差异基因

edgeR是一个研究重复计数数据差异表达的Bioconductor软件包。一个过度离散的泊松模型被用于说明生物学可变性和技术可变性。经验贝叶斯方法被用于减轻跨转录本的过度离散程度，改进了推断的可靠性。该方法甚至能够用最小重复水平使用，只要至少一个表型或实验条件是重复的。该软件可能具有测序数据之外的其他应用，例如蛋白质组多肽计数数据。可用性：程序包在遵循LGPL许可证下可以从Bioconductor网站。

一：下载安装该软件

下载安装edgeR这个R包，因为这是一次讲R包的下载，我就啰嗦一点，这种生物信息学的包不同于普通的R包，是需要用biocLite来安装的，命令如下

安装成功之后会有以下提示。

但是我加载碰到一个很幼稚的错误，因为我的电脑太差了，这是一个测试的电脑，是300块钱在二手市场里面淘的，所以内存不够。

我简单搜索了一下，才知道是虚拟内存太小了，需要调整

重启电脑，就成功啦

二：准备数据

就是对tophat的bam文件用HTseq计数后的count文件，见前一篇文章

http://www.bio-info-trainee.com/?p=244

三：运行命令

因为主要是在R里面操作，我就只讲R里面的命令了，首先要把那些HTseq产生的文件拷贝到R的工作目录，我这里是自己设置了工作目录

setwd("D:\\项目\\RNA-seq\\htseq")

a=read.table("case1.sam.count")

b=read.table("case2.sam.count")

c=read.table("control.sam.count")

counts=data.frame(case1=a[,2],case2=b[,2],control=c[,2])

rownames(counts)=a[,1]

这样就读入了一个counts数据框

可以看到有三个样本，涉及到了23373个基因，每个样本的测序量约50M的reads

可以看到，有很多基因的计数不到30次。

我们首先对第一组来选择差异基因

case1_control=counts[,1:2]；group=c("case1","control")；

cds <- DGEList( case1_control, group = group )

简单看看这个构造的对象cds的具体内容

四：输出文件解读

呀，好像运行错误了，好像这个说明书太长了，希望有人跟我一起读读，总共78页的PDF文件，我明天再弄弄！

转录组HTseq对基因表达量进行计数

ulwvfje — Mon, 16 Mar 2015 14:39:44 +0000

转录组HTseq对基因表达量进行计数

一：下载安装该软件

下载htseq这个python模块安装解压包，依赖于很多python的其它安装包及库，模块，我最讨厌python了，在有些电脑上特别难安装，而且服务器还有权限的问题。

解压进入该目录，输入 python setup.py install --user 记住，是- - 而不是—

这样只是把这个软件安装到自己的目录

安装完毕后，会出现这两个程序，在自己的python库里面，可以直接调用这两个程序的，我这里它们的路径是 .local/bin ，很奇怪的一个路径，我也是用find命令才找到的

我在这里主要讲解，在这里调用这个命令来进行操作，直接把它当做一个程序来使用，而不是仅仅当做是python里面的一个模块调用，不需要import HTseq。

二：准备数据

输入文件

输入为sam格式的文件，如果是paired-end数据必须按照reads名称排序（sort by name）。先用samtools先对bam文件（tophat2的输出结果为bam）排序，再转换为sam。

命令：samtools sort -n file.bam #sort bam by name

samtools view -h bamfile.bam>samfile.sam

其实可以是任意的sam文件，在这里我主要演示我自己跑tophat出来的bam文件转为的sam文件，就是三个RNA数据的结果

这样得到的三个sam文件特别大，bam文件是sam的二进制文件才三五个G，到了sam格式就是十几二十个G了，其实完全没必要自己把它转为sam文件，因为htseq有个参数-f可以控制输入格式是bam文件。

三：运行命令

官方的Usage：htseq-count [options]

HTSeq的作者Simon Anders建议使用ENSEMBL的gtf文件。但是如果用了ensembl的，那么之前tophat就应该用ensembl的gtf作为参考来比对

也可以使用python -m HTSeq.scripts.count instead of htseq-count

我的命令是：

/home/jmzeng/.local/bin/htseq-count case1.sam /home/jmzeng/ref-database/hg19.gtf

但是我还是喜欢批处理来运行，一次性解决所有的bam文件计数问题

出来得到的日志是这样的

约等待几个小时就OK啦

四：输出文件解读

共两万多个基因，每个基因一行，基因名加上count数

可以head看一下里面的内容如下

tips; 1，你可以用--idattr transcript_id来指定程序计算转录本而不是基因，但是这样会导致共有转录本重合地方太多

参考：

安装http://pgfe.umassmed.edu/ou/archives/2549

操作htseq的方法http://www-huber.embl.de/users/anders/HTSeq/doc/tour.html

http://chenxindayangzhou.blog.163.com/blog/static/2809209220137234916786/

另外一个操作方法http://www-huber.embl.de/users/anders/HTSeq/doc/count.html