一个RNA-seq实战-超级简单-2小时搞定！

ulwvfje — Fri, 30 Dec 2016 08:38:33 +0000

请不要直接拷贝我的代码，需要自己理解，然后打出来，思考我为什么这样写代码。

软件请用最新版，尤其是samtools等被我存储在系统环境变量的，考虑到读者众多，一般的软件我都会自带版本信息的！

我用两个小时，不代表你是两个小时就学会，有些朋友反映学了两个星期才学会，这很正常，没毛病，不要异想天开两个小时就达到我的水平。

转录组如果只看表达量真的是超级简单，真是超级简单，而且人家作者本来就测是SE50，这种破数据，也就是看表达量用的！

首先作者分析结果是：

数据在GEO地址是：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177

我们需要下载的RNA-seq的数据：

https://www.ncbi.nlm.nih.gov//sra/?term=SRP029245

https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=SRP029245

ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP029/SRP029245

下载地址很容易获取啦！

for ((i=677;i<=680;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP029/SRP029245/SRR957$i/SRR957$i.sra;done

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;done

因为我用fastqc看了看数据质量，发现没有什么问题，代码如下：

ls *fastq |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10

所以直接用hisat2软件把测序得到的fastq文件比对到hg19参考基因组上面

reference=/home/jianmingzeng/reference/index/hisat/hg19/genome

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957677.fastq -S control_1.sam 2>control_1.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957678.fastq -S control_2.sam 2>control_2.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957679.fastq -S siSUZ12_1.sam 2>siSUZ12_1.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957680.fastq -S siSUZ12_2.sam 2>siSUZ12_2.log

而且查看log日志可以发现，比对效果杠杠的：

93.10% overall alignment rate
92.44% overall alignment rate
92.36% overall alignment rate
93.22% overall alignment rate

然后把sam文件根据reads name来排序并且转换为bam文件节省空间

ls *sam |while read id;do (nohup samtools sort -n -@ 5 -o ${id%%.*}.Nsort.bam $id &);done

最后用htseq-counts工具来对每一个样本进行基因的表达量定量！

ls *.Nsort.bam |while read id;do (nohup samtools view $id | ~/.local/bin/htseq-count -f sam -s no -i gene_name - ~/reference/gtf/gencode/gencode.v25lift37.annotation.gtf 1>${id%%.*}.geneCounts 2>${id%%.*}.HTseq.log&);done

得到的文件如下：

这4个样本的基因的counts数据就可以用一系列的R包来做差异分析了，包括limma的voom，DEseq2，edgeR等等。这些包的用法都烂大街了，我就不赘述了。

做完差异分析，就可以跟作者的结果做对比，看看自己做的是不是对的。

自学miRNA-seq分析第五讲~miRNA表达量获取

ulwvfje — Sat, 25 Jun 2016 09:34:46 +0000

拿到比对后的sam/bam文件之后，这只能算是level2的数据，一般我们给他人share我们的结果也是直接给表达矩阵的， miRNA分析跟mRNA分析类似，但是它的表达矩阵更好获取一点。如果是mRNA，我们一般会跟基因组来比较，而基因组就那24条参考染色体，想知道具体比对到了哪个基因，需要根据基因组注释文件来写程序提取表达量信息，现在比较流行的是htseq这个软件，我前面也写过教程如何安装和使用，这里就不啰嗦了。但是对于miRNA，因为我比对的就是那1881条前体miRNA序列，所以直接分析比对的sam/bam文件就可以知道每条参考miRNA序列的表达量了。

## step6: counts the reads which mapping to each miRNA reference.

## we need to exclude unmapped as well as multiple-mapped reads

## XS:i: Alignment score for second-best alignment. Can be negative. Can be greater than 0 in --local mode

## NM:i:1 ## NM i Edit distance to the reference, including ambiguous bases but excluding clipping

#The following command exclude unmapped (-F 4) as well as multiple-mapped (grep -v “XS:”) reads

#samtools view -F 4 input.bam | grep -v "XS:" | wc -l

## 180466//1520320

##cat >count.hairpin.sh

ls *hairpin.sam | while read id

do

samtools view -SF 4 $id |perl -alne '{$h{$F[2]}++}END{print "$_\t$h{$_}" foreach sort keys %h }' > ${id%%_*}.hairpin.counts

done

## bash count.hairpin.sh

##cat >count.mature.sh

ls *mature.sam | while read id

do

samtools view -SF 4 $id |perl -alne '{$h{$F[2]}++}END{print "$_\t$h{$_}" foreach sort keys %h }' > ${id%%_*}.mature.counts

done

## bash count.mature.sh

上面的代码，是我自己写的脚本来算表达量，非常简单，因为我没有考虑细节，直接想得到各个样本测序数据的表达量而已。如果是比对到了参考基因组，就要根据miRNA的gff注释文件用htseq等软件来计算表达量啦。

得到了表达量，就可以跟文献来做比较啦：

### step7: compare the results with paper's

GSM1470353: control-CM, experiment1; Homo sapiens; miRNA-Seq SRR1542714

GSM1470354: ET1-CM, experiment1; Homo sapiens; miRNA-Seq SRR1542715

GSM1470355: control-CM, experiment2; Homo sapiens; miRNA-SeqSRR1542716

GSM1470356: ET1-CM, experiment2; Homo sapiens; miRNA-Seq SRR1542717

GSM1470357: control-CM, experiment3; Homo sapiens; miRNA-Seq SRR1542718

GSM1470358: ET1-CM, experiment3; Homo sapiens; miRNA-Seq SRR1542719

### 下面我用R语言来检验一下，我得到的分析结果跟文章发表的结果的区别。

a=read.table("bowtie_bam/SRR1542714.mature.counts")

b=read.table("paper_results/GSM1470353_iPS_010313_Unstim_known_miRNA_counts.txt")

plot(log(tmp[,2]),log(tmp[,3]))

cor(tmp[,2],tmp[,3])

##[1] 0.8413439

相关性还不错，总算没有分析错咯。

这个代码是我自己根据文章的理解写出的，因为我本身不擅长miRNA数据分析，所以在进行alignment的时候参数选择可能并不是那么友好，如果有高手能指正就最好了，可以直接打我电话告诉我，或者发邮箱给我，邮箱用户名是jmzeng1314，是163邮箱。

生信菜鸟团 » 表达量

一个RNA-seq实战-超级简单-2小时搞定！

自学miRNA-seq分析第五讲~miRNA表达量获取