自学miRNA-seq分析第五讲~miRNA表达量获取

ulwvfje — Sat, 25 Jun 2016 09:34:46 +0000

拿到比对后的sam/bam文件之后，这只能算是level2的数据，一般我们给他人share我们的结果也是直接给表达矩阵的， miRNA分析跟mRNA分析类似，但是它的表达矩阵更好获取一点。如果是mRNA，我们一般会跟基因组来比较，而基因组就那24条参考染色体，想知道具体比对到了哪个基因，需要根据基因组注释文件来写程序提取表达量信息，现在比较流行的是htseq这个软件，我前面也写过教程如何安装和使用，这里就不啰嗦了。但是对于miRNA，因为我比对的就是那1881条前体miRNA序列，所以直接分析比对的sam/bam文件就可以知道每条参考miRNA序列的表达量了。

## step6: counts the reads which mapping to each miRNA reference.

## we need to exclude unmapped as well as multiple-mapped reads

## XS:i: Alignment score for second-best alignment. Can be negative. Can be greater than 0 in --local mode

## NM:i:1 ## NM i Edit distance to the reference, including ambiguous bases but excluding clipping

#The following command exclude unmapped (-F 4) as well as multiple-mapped (grep -v “XS:”) reads

#samtools view -F 4 input.bam | grep -v "XS:" | wc -l

## 180466//1520320

##cat >count.hairpin.sh

ls *hairpin.sam | while read id

do

samtools view -SF 4 $id |perl -alne '{$h{$F[2]}++}END{print "$_\t$h{$_}" foreach sort keys %h }' > ${id%%_*}.hairpin.counts

done

## bash count.hairpin.sh

##cat >count.mature.sh

ls *mature.sam | while read id

do

samtools view -SF 4 $id |perl -alne '{$h{$F[2]}++}END{print "$_\t$h{$_}" foreach sort keys %h }' > ${id%%_*}.mature.counts

done

## bash count.mature.sh

上面的代码，是我自己写的脚本来算表达量，非常简单，因为我没有考虑细节，直接想得到各个样本测序数据的表达量而已。如果是比对到了参考基因组，就要根据miRNA的gff注释文件用htseq等软件来计算表达量啦。

得到了表达量，就可以跟文献来做比较啦：

### step7: compare the results with paper's

GSM1470353: control-CM, experiment1; Homo sapiens; miRNA-Seq SRR1542714

GSM1470354: ET1-CM, experiment1; Homo sapiens; miRNA-Seq SRR1542715

GSM1470355: control-CM, experiment2; Homo sapiens; miRNA-SeqSRR1542716

GSM1470356: ET1-CM, experiment2; Homo sapiens; miRNA-Seq SRR1542717

GSM1470357: control-CM, experiment3; Homo sapiens; miRNA-Seq SRR1542718

GSM1470358: ET1-CM, experiment3; Homo sapiens; miRNA-Seq SRR1542719

### 下面我用R语言来检验一下，我得到的分析结果跟文章发表的结果的区别。

a=read.table("bowtie_bam/SRR1542714.mature.counts")

b=read.table("paper_results/GSM1470353_iPS_010313_Unstim_known_miRNA_counts.txt")

plot(log(tmp[,2]),log(tmp[,3]))

cor(tmp[,2],tmp[,3])

##[1] 0.8413439

相关性还不错，总算没有分析错咯。

这个代码是我自己根据文章的理解写出的，因为我本身不擅长miRNA数据分析，所以在进行alignment的时候参数选择可能并不是那么友好，如果有高手能指正就最好了，可以直接打我电话告诉我，或者发邮箱给我，邮箱用户名是jmzeng1314，是163邮箱。

转录组HTseq对基因表达量进行计数

ulwvfje — Mon, 16 Mar 2015 14:39:44 +0000

转录组HTseq对基因表达量进行计数

一：下载安装该软件

下载htseq这个python模块安装解压包，依赖于很多python的其它安装包及库，模块，我最讨厌python了，在有些电脑上特别难安装，而且服务器还有权限的问题。

解压进入该目录，输入 python setup.py install --user 记住，是- - 而不是—

这样只是把这个软件安装到自己的目录

安装完毕后，会出现这两个程序，在自己的python库里面，可以直接调用这两个程序的，我这里它们的路径是 .local/bin ，很奇怪的一个路径，我也是用find命令才找到的

我在这里主要讲解，在这里调用这个命令来进行操作，直接把它当做一个程序来使用，而不是仅仅当做是python里面的一个模块调用，不需要import HTseq。

二：准备数据

输入文件

输入为sam格式的文件，如果是paired-end数据必须按照reads名称排序（sort by name）。先用samtools先对bam文件（tophat2的输出结果为bam）排序，再转换为sam。

命令：samtools sort -n file.bam #sort bam by name

samtools view -h bamfile.bam>samfile.sam

其实可以是任意的sam文件，在这里我主要演示我自己跑tophat出来的bam文件转为的sam文件，就是三个RNA数据的结果

这样得到的三个sam文件特别大，bam文件是sam的二进制文件才三五个G，到了sam格式就是十几二十个G了，其实完全没必要自己把它转为sam文件，因为htseq有个参数-f可以控制输入格式是bam文件。

三：运行命令

官方的Usage：htseq-count [options]

HTSeq的作者Simon Anders建议使用ENSEMBL的gtf文件。但是如果用了ensembl的，那么之前tophat就应该用ensembl的gtf作为参考来比对

也可以使用python -m HTSeq.scripts.count instead of htseq-count

我的命令是：

/home/jmzeng/.local/bin/htseq-count case1.sam /home/jmzeng/ref-database/hg19.gtf

但是我还是喜欢批处理来运行，一次性解决所有的bam文件计数问题

出来得到的日志是这样的

约等待几个小时就OK啦

四：输出文件解读

共两万多个基因，每个基因一行，基因名加上count数

可以head看一下里面的内容如下

tips; 1，你可以用--idattr transcript_id来指定程序计算转录本而不是基因，但是这样会导致共有转录本重合地方太多

参考：

安装http://pgfe.umassmed.edu/ou/archives/2549

操作htseq的方法http://www-huber.embl.de/users/anders/HTSeq/doc/tour.html

http://chenxindayangzhou.blog.163.com/blog/static/2809209220137234916786/

另外一个操作方法http://www-huber.embl.de/users/anders/HTSeq/doc/count.html

生信菜鸟团 » HTseq

自学miRNA-seq分析第五讲~miRNA表达量获取

转录组HTseq对基因表达量进行计数