生信菜鸟团 » RNA-seq

一个RNA-seq实战-超级简单-2小时搞定！

ulwvfje — Fri, 30 Dec 2016 08:38:33 +0000

请不要直接拷贝我的代码，需要自己理解，然后打出来，思考我为什么这样写代码。

软件请用最新版，尤其是samtools等被我存储在系统环境变量的，考虑到读者众多，一般的软件我都会自带版本信息的！

我用两个小时，不代表你是两个小时就学会，有些朋友反映学了两个星期才学会，这很正常，没毛病，不要异想天开两个小时就达到我的水平。

转录组如果只看表达量真的是超级简单，真是超级简单，而且人家作者本来就测是SE50，这种破数据，也就是看表达量用的！

首先作者分析结果是：

数据在GEO地址是：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177

我们需要下载的RNA-seq的数据：

https://www.ncbi.nlm.nih.gov//sra/?term=SRP029245

https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=SRP029245

ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP029/SRP029245

下载地址很容易获取啦！

for ((i=677;i<=680;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP029/SRP029245/SRR957$i/SRR957$i.sra;done

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;done

因为我用fastqc看了看数据质量，发现没有什么问题，代码如下：

ls *fastq |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10

所以直接用hisat2软件把测序得到的fastq文件比对到hg19参考基因组上面

reference=/home/jianmingzeng/reference/index/hisat/hg19/genome

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957677.fastq -S control_1.sam 2>control_1.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957678.fastq -S control_2.sam 2>control_2.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957679.fastq -S siSUZ12_1.sam 2>siSUZ12_1.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957680.fastq -S siSUZ12_2.sam 2>siSUZ12_2.log

而且查看log日志可以发现，比对效果杠杠的：

93.10% overall alignment rate
92.44% overall alignment rate
92.36% overall alignment rate
93.22% overall alignment rate

然后把sam文件根据reads name来排序并且转换为bam文件节省空间

ls *sam |while read id;do (nohup samtools sort -n -@ 5 -o ${id%%.*}.Nsort.bam $id &);done

最后用htseq-counts工具来对每一个样本进行基因的表达量定量！

ls *.Nsort.bam |while read id;do (nohup samtools view $id | ~/.local/bin/htseq-count -f sam -s no -i gene_name - ~/reference/gtf/gencode/gencode.v25lift37.annotation.gtf 1>${id%%.*}.geneCounts 2>${id%%.*}.HTseq.log&);done

得到的文件如下：

这4个样本的基因的counts数据就可以用一系列的R包来做差异分析了，包括limma的voom，DEseq2，edgeR等等。这些包的用法都烂大街了，我就不赘述了。

做完差异分析，就可以跟作者的结果做对比，看看自己做的是不是对的。

跟师妹聊Exome-seq、ChIP-seq、RNA-seq之间的差异

ulwvfje — Mon, 04 Jul 2016 15:50:43 +0000

最近学习CHIP-seq的分析流程，略有点心得，也跟以前掌握的WES和RNA-seq做了一些比较，趁跑步的时候跟师妹讨论了一下，正好师妹写了一篇博客来分享这个讨论结果，我也借此机会转载过来，分享给大家，算是借花献佛吧！师妹的博文是用markdown写作，我觉得大家应该直接看她的文章，写得条理清楚：Exome-seq、ChIP-seq、RNA-seq之间的差异

全外显子测序是啥？转录组测序是啥？转录组测序又是啥？他们之间有什么差别么？傻傻分不清，不用怕，多学习下就会了，下面让我们一起来看看！

1 温基础

测序深度： 指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，如果是全基因覆盖的话，那么获得的总数据量为20M。
覆盖度： 指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98 %，那么还有2%的序列区域是没有通过测序获得的。（你想实际测到的内容占想测内容的比例。）

2 理概念

全外显子测序（Exome-seq）： 首先外显子组（Exome）是指真核生物基因组中全部外显子区域的总和，包含了蛋白质合成最直接的信息。外显子组测序（Exome-seq）是利用设计好的探针将坐标已知的全基因组外显子区域的DNA捕捉并富集后，进行高通量测序的基因组分析方法。对于人类基因组来说，外显子区域大概占到基因组的1%，大概在30M左右。一般全外显子测序的测序深度为50X~200X，具体深度依研究目的而定，其个体之间的变异小（在VCF文件上记录着少许差异，一点点）。
转录组测序（RNA-seq）： 首先转录组是指在相同环境（或生理条件）下的在一个细胞、或一群细胞中所能转录出的所有RNA的总和，包括信使RNA（mRNA）、核糖体RNA（rRNA）、转运RNA（tRNA）及非编码RNA。转录组测序（RNA-seq）是将提取所要研究的特定类型的RNA，将其反转录成cDNA，利用高通量测序技术获得某一物种特定组织或器官在某一状态下的几乎所有转录本序列信息。对于已知参考基因组的物种，所获得大部分序列是已知的，同时会有一些新的转录本会被检测到，几乎可以忽略；甚至处于不同状态的人，其转录组数据有所不同。因此其主要的研究点——研究随着时空的变化、组织的变化、样本的变化，转录本发生改变。
染色质免疫共沉淀测序（ChIP-seq）： 主要用于蛋白质与DNA相互作用研究，采用特异抗体对目的蛋白进行免疫沉淀，分离与目的蛋白结合的基因组DNA片段，对其进行纯化和文库构建，再通过高通量测序的方法，在全基因组范围内寻找目的蛋白的DNA结合位点，从而获得全基因组范围内与组蛋白、转录因子等互作的DNA片段信息。（与外显子测序不一样，不是通过设计好的探针来捕获序列的，而是通过特异的RNApoly酶、组蛋白、转录因子来捕获序列的，蛋白结合在哪里就捕获哪里。每做一次实验，换一个蛋白，所捕获的序列是不一样的。）因此其主要研究点——研究用不同组蛋白、转录因子等不同蛋白来做不同的实验，找出互作的DNA序列的不同。

3 明差异

测序范围的区别： 全外显子测序和转录组测序的测序范围是已知的，均针对基因组的转录区域进行测序，但它们有一定的差异，主要为：（1）使用范围有所不同。外显子组测序只能对已知基因组序列信息的物种进行测序，而转录组测序没有这样的限制。转录组可以对Non-coding RNA等进行测序，而外显子组测序仅限于外显子区域；（2）转录组可以反映特定时刻、特定组织该物种的基因表达情况，而外显子组测序不具备此能力。但是，因为部分基因低表达或组织特异表达，转录组难以获得物种全部外显子的信息，而外显子组测序不受表达情况影响，可均一地获得外显子区域序列信息；（3）从转录组获得的遗传信息可能受到转录后加工的影响而导致与基因组不符，而外显子测序无此影响。染色质免疫共沉淀的测序范围是不确定的、未知的，研究不同蛋白质，其所捕获DNA序列区域是不同的；
测序深度的区别： 全外显子测序的测序深度在任何一个点是均匀的；转录组测序一定是不均匀的，以外显子为单位的不均匀；染色质免疫共沉淀测序的测序深度也是不均匀的，以每个碱基为单位的不均匀，与实验设计有关；

4 参考资料

1 绝大部分来自健明师兄口诉；

2 【你问我答】外显子测序篇

3 高通量基因组测序中，什么是测序深度和覆盖度？

相似文章

用limma包的voom函数来对RNA-seq数据做差异分析

ulwvfje — Mon, 11 Apr 2016 14:36:05 +0000

limma真不愧是最流行的差异分析包，十多年过去了，一直是芯片数据处理的好帮手。

现在又可以支持RNA-seq数据，我赶紧试用了一下!

我下面只讲用法，大家看代码就明白了！

##
library(limma)
library(pasilla)
data(pasillaGenes)
exprSet=counts(pasillaGenes)
group_list=pasillaGenes$condition
## 只需自己构造好表达矩阵exprSet和分因子即可group_list，一般只分成两组！！！
##一般是自己读取RNA-seq的基因的reads的counts数进行分析，

##请不要用RPKM等经过了normlization的表达矩阵来分析。
suppressMessages(library(limma))
design <- model.matrix(~factor(group_list))
colnames(design)=levels(factor(group_list))
rownames(design)=colnames(exprSet)
v <- voom(exprSet,design,normalize="quantile") ##这个是重点
## 到这里就跟limma本身的用法一样了！
fit <- lmFit(v,design)
fit2 <- eBayes(fit)
tempOutput = topTable(fit2, coef=2, n=Inf)
DEG_voom = na.omit(tempOutput)
head(DEG_voom)

它也是用了一种统计方法，把RNA-seq的基因的reads的counts数进行了normlization

看这个图就知道了，它把本来应该是数据离散程度非常大的RNA-seq的基因的reads的counts矩阵经过normlization后变成了类似于芯片表达数据的表达矩阵，然后其实可以直接用T检验来找差异基因了！

但是，如果你的分组不只是两个，就复杂了，你需要再仔细研读说明书，甚至你可能需要咨询实验设计人员或者统计人员！

用R语言的DESeq2包来对RNA-seq数据做差异分析

ulwvfje — Mon, 11 Apr 2016 11:21:35 +0000

我以前写过DESeq，以及过时了：http://www.bio-info-trainee.com/867.html

正好准备筹集bioconductor中文社区，我写简单讲一下DESeq2这个包如何用！

library(DESeq2)
library(limma)
library(pasilla)
data(pasillaGenes)
exprSet=counts(pasillaGenes) ##做好表达矩阵
group_list=pasillaGenes$condition##做好分组因子即可

(colData <- data.frame(row.names=colnames(exprSet), group_list=group_list))
dds <- DESeqDataSetFromMatrix(countData = exprSet,
colData = colData,
design = ~ group_list)

##上面是第一步第一步，构建dds这个对象，需要一个表达矩阵和分组矩阵！！！

dds2 <- DESeq(dds) ##第二步，直接用DESeq函数即可

resultsNames(dds2)

res <- results(dds2, contrast=c("group_list","treated","untreated"))

## 提取你想要的差异分析结果，我们这里是treated组对untreated组进行比较

resOrdered <- res[order(res$padj),]

resOrdered=as.data.frame(resOrdered)

可以看到程序非常好用！

它只对RNA-seq的基因的reads的counts数进行分析，请不要用RPKM等经过了normlization的表达矩阵来分析。

值得一提的是DESeq2软件独有的normlization方法！

rld <- rlogTransformation(dds2) ## 得到经过DESeq2软件normlization的表达矩阵！
exprSet_new=assay(rld)
par(cex = 0.7)
n.sample=ncol(exprSet)
if(n.sample>40) par(cex = 0.5)
cols <- rainbow(n.sample*1.2)
par(mfrow=c(2,2))
boxplot(exprSet, col = cols,main="expression value",las=2)
boxplot(exprSet_new, col = cols,main="expression value",las=2)
hist(exprSet)
hist(exprSet_new)

但是，如果你的分组不只是两个，就复杂了，你需要再仔细研读说明书，甚至你可能需要咨询实验设计人员或者统计人员！

RNA-seq比对软件HISAT说明书

ulwvfje — Sun, 10 May 2015 14:47:36 +0000

取代bowtie+tophat进行RNA-seq比对

HISAT全称为Hierarchical Indexing for Spliced Alignment of Transcripts，由约翰霍普金斯大学开发。它取代Bowtie/TopHat程序，能够将RNA-Seq的读取与基因组进行快速比对。这项成果发表在3月9日的《Nature Methods》上。

HISAT利用大量FM索引，以覆盖整个基因组。以人类基因组为例，它需要48,000个索引，每个索引代表~64,000 bp的基因组区域。这些小的索引结合几种比对策略，实现了RNA-Seq读取的高效比对，特别是那些跨越多个外显子的读取。尽管它利用大量索引，但HISAT只需要4.3 GB的内存。这种应用程序支持任何规模的基因组，包括那些超过40亿个碱基的。

HISAT软件可从以下地址获取：http://ccb.jhu.edu/software/hisat/index.shtml。

首先，我们安装这个软件！

Wget http://ccb.jhu.edu/software/hisat/downloads/hisat-0.1.5-beta-source.zip

官网下载的是源码包，需要make一下，make之后目录下面就多了很多程序，绿色的那些都是，看起来是不是很眼熟呀！！！

哈哈，这完全就是bowtie的模拟版本！！！

也可以从github里面下载，wget https://codeload.github.com/infphilo/hisat/zip/master

下载后直接解压即可使用啦。当然这个软件本身也有着详尽的说明书

http://ccb.jhu.edu/software/hisat/manual.shtml

然后就是准备数据，它跟tophat一样的功能。就是把用RNA-seq方法测序得到的fastq文件比对到参考基因组上面，所以就准这两个文件了哦

接下来是运行程序！

说明书上面写着分成两个步骤，构建索引和比对。

这个软件包模仿bowtie自带了一个example数据，而且它的说明书也是针对于那个example来的，我也简单运行一下。

$HISAT_HOME/hisat-build $HISAT_HOME/example/reference/22_20-21M.fa 22_20-21M_hisat

构建索引的命令如上，跟bowtie一样我修改了一下

/home/jmzeng/hoston/RNA-soft/hisat-0.1.5-beta/hisat-build 22_20-21M.fa my_hisat_index

连日志都跟bowtie一模一样，哈哈，可以看到我们的这个参考fasta文件 22_20-21M.fa 就变成索引文件啦，索引还是很多的！

然后就是比对咯，还是跟bowtie一样

$HISAT_HOME/hisat -x 22_20-21M_hisat -U $HISAT_HOME/example/reads/reads_1.fq -S eg1.sam

我的命令是

/home/jmzeng/hoston/RNA-soft/hisat-0.1.5-beta/hisat -x my_hisat_index -U ../reads/reads_1.fq -S reads1.sam

1000 reads; of these:

1000 (100.00%) were unpaired; of these:

0 (0.00%) aligned 0 times

1000 (100.00%) aligned exactly 1 time

0 (0.00%) aligned >1 times

100.00% overall alignment rate

哈哈，到这里。这个软件就运行完毕啦！！！是不是非常简单，只有你会用bowtie，这个就没有问题。当然啦，软件还是有很多细节是需要调整的。我下面就简单讲一个实际的例子哈！

首先，我用了1.5小时把4.6G的小鼠基因组构建了索引

/home/jmzeng/hoston/RNA-soft/hisat-0.1.5-beta/hisat-build Mus_musculus.GRCm38.fa.fa mouse_hisat_index

然后对我的四个测序文件进行比对。

for i in *fq

/home/jmzeng/hoston/RNA-soft/hisat-0.1.5-beta/hisat -x /home/jmzeng/hoston/mouse/mouse_hisat_index \

-p 30 -U $i.trimmed.single -S ./hisat_out/${i%.*}.sam

done

它运行的速度的确要比tophat快好多，太可怕的速度！！！！至于是否多消耗了内存我就没有看了

4.6G的小鼠，5G的测序数据，我只用了五个核，居然十分钟就跑完了！

然后听群友说是因为没有加 --known-splicesite-infile 这个参数的原因，没有用gtf文件来指导我们的RNA数据的比对，这样是不对的！

需要用下面这个脚本把gtf文件处理一下，然后导入什么那个参数来指导RNA比对。

extract_splice_sites.py genes.gtf > splicesites.txt

但是我报错了，错误很奇怪，没解决，但是我换了个 extract_splice_sites.py 程序，就可以运行啦！之前是HISAT 0.1.5-beta release 2/25/2015里面的python程序，后来我换做了github里面的就可以啦！

/home/jmzeng/hoston/RNA-soft/hisat-master/extract_splice_sites.py Mus_musculus.GRCm38.79.gtf >mouse_splicesites.txt

21192819 reads; of these:
21192819 (100.00%) were unpaired; of these:
14236834 (67.18%) aligned 0 times
5437800 (25.66%) aligned exactly 1 time
1518185 (7.16%) aligned >1 times

感觉没有变化，不知道为什么？

21192819 reads; of these:

21192819 (100.00%) were unpaired; of these:

14236838 (67.18%) aligned 0 times

5437793 (25.66%) aligned exactly 1 time

1518188 (7.16%) aligned >1 times

32.82% overall alignment rate

发表这个软件的文献本身也把这个软件跟其它软件做了详尽的对比

http://www.nature.com/nmeth/journal/v12/n4/full/nmeth.3317.html

Program	Run time (min)	Memory usage (GB)
Run times and memory usage for HISAT and other spliced aligners to align 109 million 101-bp RNA-seq reads from a lung fibroblast data set. We used three CPU cores to run the programs on a Mac Pro with a 3.7 GHz Quad-Core Intel Xeon E5 processor and 64 GB of RAM.
HISATx1	22.7	4.3
HISATx2	47.7	4.3
HISAT	26.7	4.3
STAR	25	28
STARx2	50.5	28
GSNAP	291.9	20.2
OLego	989.5	3.7
TopHat2	1,170	4.3

参考：http://www.plob.org/2015/03/20/8980.html

http://nextgenseek.com/2015/03/hisat-a-fast-and-memory-lean-rna-seq-aligner/

RNA-seq的比对软件star说明书

ulwvfje — Sun, 10 May 2015 14:42:11 +0000

类似于tophat的软件

首先当然是下载软件啦！

两个地方可以下载，一个是谷歌code中心，被墙啦，另一个是github，我的最爱。

wget https://codeload.github.com/alexdobin/STAR/zip/master

解压即可使用啦，其中程序在bin目录下面，根据自己的平台调用即可！

然后doc里面还有个pdf的说明文档，写的非常清楚，我也是看着那个文档学的这个软件！

接下来就是准备数据啦！

既然是类似于tophat一样的比对软件，当然是准备参考基因组和测序数据咯，毫无悬念。

然后该软件也给出了一些测试数据

ftp://ftp2.cshl.edu/gingeraslab/tracks/STARrelease/2.1.4/

然后就是运行程序的命令！

分为两个步骤：首先构建索引，然后比对即可，中间的参数根据具体需要可以细调！

构建索引时候，软件说明书给的例子是

The basic options to generate genome indices are as follows:
--runThreadN NumberOfThreads
--runMode genomeGenerate
--genomeDir /path/to/genomeDir
--genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 ...
--sjdbGTFfile /path/to/annotations.gtf
--sjdbOverhang ReadLength-1

我模仿了一下。对我从ensembl ftp里面下载的老鼠基因组构建了索引

/home/jmzeng/hoston/RNA-soft/STAR-master/bin/Linux_x86_64/STAR \

--runThreadN 30 #我的服务器还比较大，可以使用30个CPU \

--runMode genomeGenerate \

--genomeDir /home/jmzeng/hoston/mouse/STAR-mouse #构建好的索引放在这个目录 \

--genomeFastaFiles /home/jmzeng/hoston/mouse/Mus_musculus.GRCm38.fa.fa \

--sjdbGTFfile /home/jmzeng/hoston/mouse/Mus_musculus.GRCm38.79.gtf \

--sjdbOverhang 284 #我的测序数据长短不一，最长的是285bp

当然注释的地方你要删除掉才行呀，因为cpu用的比较多。

算一算时间，对4.6G的小鼠基因组来说，半个小时算是非常快的了！Bowtie2的index要搞两个多小时。

然后就是比对咯。这也是很简单的，软件说明书给的例子是

The basic options to run a mapping job are as follows:
--runThreadN NumberOfThreads
--genomeDir /path/to/genomeDir
--readFilesIn /path/to/read1 [/path/to/read2]

我稍微理解了一下参数，然后写出了自己的命令。

fq=740WT1.fq.trimmed.single

mkdir 740WT1_star

/home/jmzeng/hoston/RNA-soft/STAR-master/bin/Linux_x86_64/STAR \

--runThreadN 20 \

--genomeDir /home/jmzeng/hoston/mouse/STAR-mouse \

--readFilesIn $fq \

--outFileNamePrefix ./740WT1_star/740WT1

如果输出文件需要被cufflinks套装软件继续使用。就需要用一下参数

Cufflinks/Cuffdiff require spliced alignments with XS strand attribute, which STAR will generate with --outSAMstrandField intronMotif option.

还有--outSAMtype参数可以修改输出比对文件格式，可以是sam也可以是bam，可以是sort好的，也可以是不sort的。

最后是输出文件解读咯！

其实没什么好解读的，输出反正就是sam类似的比对文件咯，如果还有其它文件，需要自己好好解读说明书啦。我就不废话了！

值得一提的是，该程序提供了2次map的建议

The basic idea is to run 1st pass of STAR mapping with the usual parameters , then collect the junctions detected in the first pass, and use them as ”annotated” junctions for the 2nd pass mapping.

在对RNA-seq做snp-calling的时候可以用到，尤其是GATK官方还给出了教程，大家可以好好学习学习！

http://www.broadinstitute.org/gatk/guide/article?id=3891

搜索学习其他学者的RNA数据处理流程（包括原始数据、脚本、中间文件）

ulwvfje — Sat, 07 Mar 2015 11:52:20 +0000

搜索其他学者的RNA数据处理流程（包括原始数据、脚本、中间文件）

一：原始数据

是谷歌里面无意中搜索到的，是某个物种的RNA数据，不是很大，但是里面有所有的分析流程，非常方便，对原始reads进行了组装，和注释。

http://moana.dnsalias.org/~sgeib/Anth_RNAseq/Run2.1/RawData/

打开网址可以看到raw data的下载链接

二：中间文件

可以清楚的看到所有的流程操作手册

要是有空，可以对它们做一次检验，需要的空间不大40多个G的空间即可。

它是通过solexaQA套件中的两个perl程序来过滤reads的

它过滤之前和过滤之后都用来fastqc来进行质控画图

过滤之后的数据量如图所示

对这些reads进行trinity组装好得到转录本信息，是312M的数据量

转录本的统计信息如下

三：处理流程

四：所有的脚本，有兴趣的同学可以自行下载慢慢解读