生信菜鸟团 » 转录组软件

Bioconductor包chimeraviz嵌合RNA可视化

ulwvfje — Sat, 06 Jan 2018 09:41:26 +0000

Bioconductor包chimeraviz嵌合RNA可视化

高通量RNA测序已经能够更高效地检测融合转录本，但是融合检测的技术和相关软件通常产生高错误发现率。而一个自动整合RNA数据和已知基因组特征的可视化框架对于结果的检验是有帮助的。2017年发布的一个bioconductor包，chimeraviz就可以做到自动创建嵌合RNA可视化。

支持来自9种不同融合发现工具（deFuse、EricScript、InFusion、JAFFA、FusionCatcher、FusionMap、PRADA、SOAPfuse和STAR-FUSION）的输入。

官网教程

直接在bioconductor可以看到详细说明：https://bioconductor.org/packages/release/bioc/html/chimeraviz.html | HTML | R Script |

下载安装好该R包后，自带一系列的融合基因可视化的测试数据，文件如下：

  1.1K Oct 16 22:36 5267readsAligned.bam
   96B Oct 16 22:36 5267readsAligned.bam.bai
   22K Oct 16 22:36 FusionMap_01_TestDataset_InputFastq.FusionReport.txt
   37K Oct 16 22:36 Homo_sapiens.GRCh37.74.sqlite
   68K Oct 16 22:36 Homo_sapiens.GRCh37.74_subset.gtf
  1.9K Oct 16 22:36 PRADA.acc.fusion.fq.TAF.tsv
   32K Oct 16 22:36 UCSC.HG19.Human.CytoBandIdeogram.txt
   32K Oct 16 22:36 UCSC.HG38.Human.CytoBandIdeogram.txt
   16K Oct 16 22:36 defuse_833ke_results.filtered.tsv
  4.6K Oct 16 22:36 ericscript_SRR1657556.results.total.tsv
  1.7M Oct 16 22:36 fusion5267and11759reads.bam
   57K Oct 16 22:36 fusion5267and11759reads.bam.bai
  4.1K Oct 16 22:36 fusioncatcher_833ke_final-list-candidate-fusion-genes.txt
  2.1K Oct 16 22:36 infusion_fusions.txt
  4.3K Oct 16 22:36 jaffa_results.csv
  2.6K Oct 16 22:36 reads.1.fq
  2.6K Oct 16 22:36 reads.2.fq
  1.0K Oct 16 22:36 reads_supporting_defuse_fusion_5267.1.fq
  1.0K Oct 16 22:36 reads_supporting_defuse_fusion_5267.2.fq
  3.3K Oct 16 22:36 soapfuse_833ke_final.Fusion.specific.for.genes
  2.0K Oct 16 22:36 star-fusion.fusion_candidates.final.abridged.txt

可以看到，所支持的9种融合基因检测工具的示例结果都在这里了，比如我最喜欢的star-fusion的结果节选如下：

#FusionName JunctionReadCount   SpanningFragCount   SpliceType  LeftGene    LeftBreakpoint  RightGene   RightBreakpoint
THRA--AC090627.1    27  93  ONLY_REF_SPLICE THRA^ENSG00000126351.8  chr17:38243106:+    AC090627.1^ENSG00000235300.3    chr17:46371709:+
THRA--AC090627.1    5   93  ONLY_REF_SPLICE THRA^ENSG00000126351.8  chr17:38243106:+    AC090627.1^ENSG00000235300.3    chr17:46384693:+
ACACA--STAC2    12  51  ONLY_REF_SPLICE ACACA^ENSG00000132142.15    chr17:35479453:-    STAC2^ENSG00000141750.6 chr17:37374426:-
RPS6KB1--SNF8   10  43  ONLY_REF_SPLICE RPS6KB1^ENSG00000108443.9   chr17:57970686:+    SNF8^ENSG00000159210.5  chr17:47021337:-
TOB1--SYNRG 8   30  ONLY_REF_SPLICE TOB1^ENSG00000141232.4  chr17:48943419:-    SYNRG^ENSG00000006114.11    chr17:35880751:-
VAPB--IKZF3 4   46  ONLY_REF_SPLICE VAPB^ENSG00000124164.11 chr20:56964573:+    IKZF3^ENSG00000161405.12    chr17:37934020:-
ZMYND8--CEP250  2   44  ONLY_REF_SPLICE ZMYND8^ENSG00000101040.15   chr20:45852970:-    CEP250^ENSG00000126001.11   chr20:34078463:+
AHCTF1--NAAA    3   38  ONLY_REF_SPLICE AHCTF1^ENSG00000153207.10   chr1:247094880:-    NAAA^ENSG00000138744.10 chr4:76846964:-
VAPB--IKZF3 1   46  ONLY_REF_SPLICE VAPB^ENSG00000124164.11 chr20:56964573:+    IKZF3^ENSG00000161405.12    chr17:37944627:-
VAPB--IKZF3 1   46  ONLY_REF_SPLICE VAPB^ENSG00000124164.11 chr20:56964573:+    IKZF3^ENSG00000161405.12    chr17:37922746:-
STX16--RAE1 4   33  ONLY_REF_SPLICE STX16^ENSG00000124222.17    chr20:57227143:+    RAE1^ENSG00000101146.8  chr20:55929088:+

这些结果文件导入R里面统一用import系列函数，比如：

library(chimeraviz)

# Get reference to results file from deFuse
defuse833ke <- system.file(
  "extdata",
  "defuse_833ke_results.filtered.tsv",
  package="chimeraviz")

# Load the results file into a list of fusion objects
fusions <- importDefuse(defuse833ke, "hg19")

## ---- message = FALSE------------------------------------------------------
length(fusions)

基因组全局可视化

soapfuse833ke <- system.file(
  "extdata",
  "soapfuse_833ke_final.Fusion.specific.for.genes",
  package = "chimeraviz")
fusions <- importSoapfuse(soapfuse833ke, "hg38", 10)
# Plot!
plotCircle(fusions)

主要是一个环形图，如下：

红色条带-染色体内融合，蓝色条带-染色体间融合。

单独可视化某个融合事件


if(!exists("defuse833ke"))
  defuse833ke <- system.file(
    "extdata",
    "defuse_833ke_results.filtered.tsv",
    package = "chimeraviz")
fusions <- importDefuse(defuse833ke, "hg19", 1)
# Choose a fusion object
fusion <- getFusionById(fusions, 5267)
# Load edb
if(!exists("edbSqliteFile"))
  edbSqliteFile <- system.file(
    "extdata",
    "Homo_sapiens.GRCh37.74.sqlite",
    package="chimeraviz")
edb <- ensembldb::EnsDb(edbSqliteFile)
# bamfile with reads in the regions of this fusion event
if(!exists("fusion5267and11759reads"))
  fusion5267and11759reads <- system.file(
    "extdata",
    "fusion5267and11759reads.bam",
    package = "chimeraviz")
# Plot!
plotFusion(
  fusion = fusion,
  bamfile = fusion5267and11759reads,
  edb = edb,
  nonUCSC = TRUE)

## ---- echo = FALSE, message = FALSE, fig.height = 5, fig.width = 10, dev='png'----
# Plot!
plotFusion(
  fusion = fusion,
  bamfile = bamfile5267,
  edb = edb,
  nonUCSC = TRUE,
  reduceTranscripts = TRUE)

这个可视化比较复杂一点，需要融合基因的事件详情，包含两个融合基因的bam片段文件，以及参考基因组的数据库信息。

然后有两种展现方式，一种是基于转录本的融合情况，一种是基于基因

RCC1-HENMT1融合例子。

顶部：显示融合的染色体位置。支持断裂点（红色曲线）的discordant reads数10（其中split的6，spanning的4），注释的转录本及read数图。

用LeafCutter探索转录组数据的可变剪切

ulwvfje — Fri, 05 Jan 2018 01:49:59 +0000

用LeafCutter探索转录组数据的可变剪切

该软件早在2016年就公布了，发表在biorxiv预印本上面，但直到2017年的双11，才发表在NG上面，文章是 : Annotation-free quantification of RNA splicing using LeafCutter 最大的特点应该是不需要参考基因组的基因注释信息了吧，就是gtf/gff文件可以省略，当然，比对还是需要的。它还有另外一个非常重要的功能，splicing quantitative trait loci (sQTLs) 但是跟我目前关系不大，就不介绍了。

背景介绍

目前主流的探究转录组数据的可变剪切的算法要么是基于estimate isoform ratios 或者 exon inclusion levels ，但是挑战还是蛮多的，可变剪切本跟正常转录本重合的比例很大，技术误差也是有的，依赖于基因现有的注释信息，既不准确，也不完全。所以作者开发了LeafCutter工具。

LeafCutter workflow.

First, short reads are mapped to the genome. When SNP data are available, WASP should be used to filter allele-specific reads that map with a bias.
Next, LeafCutter extracts junction reads from.bam files, identifies alternatively excised intron clusters, and summarizes intron usage as counts or proportions.
Finally, LeafCutter identifies intron clusters with differentially excised introns between two user-defined groups by using a Dirichlet-multinomial model, or maps genetic variants associated with intron excision levels by using a linear model.

作者在Genotype-Tissue Expression (GTEx) Consortium数据集上面测试了，并且把结果跟 GENCODE v19, Ensembl, and UCSC 着3大主流的基因注释信息数据库比较。还在其它数据库里面验证了，数据下载地址是：dbGaP under accession phs000424.v6.p1 (GTEx), GEO under accession GSE41637 (RNA-seq data from mammalian organs), and ENA under accession PRJEB3366 (Geuvadis).

软件下载地址：

LeafCutter software, https://github.com/davidaknowles/leafcutter;
LeafViz visualizations, https://leafcutter.shinyapps.io/leafviz/;
rheumatoid arthritis summary statistics, http://plaza.umin.ac.jp/yokada/datasource/software.htm.

软件安装及使用

最简单的就是conda进行安装了：

conda install -c davidaknowles r-leafcutter

如果安装失败，可能需要单独为它创建一个环境。

不过，它本身就是一个R包，所以在个人电脑里面的rstudio里面安装即可。

if (!require("devtools")) install.packages("devtools", repos='http://cran.us.r-project.org')
devtools::install_github("davidaknowles/leafcutter/leafcutter")

但是源代码里面有一些脚本和测试数据，所以还是要下载看看

mkdir -p ~/biosoft 
cd ~/biosoft
git clone https://github.com/davidaknowles/leafcutter
cd leafcutter
## 需要修改里面的一个脚本 scripts/bam2junc.sh 把软件路径增添进去即可

里面又是perl又是python的，感觉他们团队开发环境不统一。

第一步:bam2junc

比对一般来说，优先选择STAR等支持跨越内含子的转录组比对工具得到bam文件，运行下面的脚本即可进行批量转换：

cat bam_path.txt |while read id
do
file=$(basename $id )
sample=${file%%.*}
    echo Converting $id to $sample.junc
    sh /public/biosoft/leafcutter/scripts/bam2junc.sh  $id $sample.junc
done

得到的junc文件如下:

chr7    134840725   134843893   .   1   -
chr2    234355442   234355737   .   1   +
chr4    37828435    37831585    .   13  +
chr19   39101772    39101882    .   5   +
chr11   109735445   109827551   .   19  +
chr18   48458730    48465939    .   8   -
chr12   82751048    82752457    .   12  -
chr15   51018323    51018517    .   14  -
chr1    247323115   247335149   .   2   +
chr10   92920631    92982445    .   1   +

这个步骤有点耗时，所有的junc文件地址需要保存给下一步使用

第二步：Intron clustering

这个步骤，需要python2.7版本，这个是python的一个大坑，到现在版本仍然不统一。

ls *.junc >test_juncfiles.txt
python /public/biosoft/leafcutter/clustering/leafcutter_cluster.py -j test_juncfiles.txt -m 50 -o testYRIvsEU -l 500000

几分钟就运行完毕。

得到的比较重要的文件如下：

1.3M Jan  4 17:45 testYRIvsEU_perind.counts.gz
680K Jan  4 17:45 testYRIvsEU_perind_numers.counts.gz
5.0M Jan  4 17:45 testYRIvsEU_pooled
540K Jan  4 17:45 testYRIvsEU_refined
 877 Jan  4 17:45 testYRIvsEU_sortedlibs
 854 Jan  4 17:43 test_juncfiles.txt

值得注意的是 testYRIvsEU_perind_numers.counts.gz 文件，里面每一行都是一个内含子，每一列都是一个样本，写明了它们的表达值，这些数值就可以用来做可变剪切分析。

 #  zcat testYRIvsEU_perind_numers.counts.gz |tail
chr8:145651155:145651305:clu_6538 21 14 19 8 9 0 13 33 0 0 4 0 5 8 12 0 12 34 15 0 0 10 11
chr8:145651155:145651409:clu_6538 1021 611 186 190 294 284 681 89 222 57 257 363 694 807 523 44 469 812 926 71 80 260 214
chr8:145652362:145653872:clu_6539 1265 694 132 74 302 71 178 34 44 12 63 122 230 218 472 6 146 1421 1084 16 14 83 46
chr8:145652654:145653872:clu_6539 48 24 56 0 26 0 13 0 2 5 2 0 3 19 17 0 2 8 64 0 0 3 0
chr8:145652674:145653872:clu_6539 18 26 0 0 0 7 2 0 5 0 0 0 1 6 11 0 3 34 37 0 0 9 6
chr8:146017525:146017630:clu_6540 2 3 44 0 2 12 4 0 0 0 22 5 9 10 2 0 1 9 11 0 0 1 0
chr8:146017525:146017751:clu_6540 1067 671 620 41 295 347 224 89 62 33 262 136 229 223 356 17 288 480 1842 9 35 70 23
chr8:146076780:146078224:clu_6541 18 3 0 0 17 17 8 0 0 3 2 3 16 6 12 0 4 45 29 9 0 10 2
chr8:146076780:146078378:clu_6541 22 17 0 0 0 3 1 0 0 0 3 2 15 7 2 0 7 62 55 0 0 4 0
chr8:146076780:146078757:clu_6541 10 1 16 0 12 52 0 0 11 0 24 9 27 3 0 0 7 0 28 0 0 2 0

第三步：制作分组矩阵进行差异分析

避免暴露我真实的项目，这里就给作者的示例文件吧：

RNA.NA18486_YRI.chr1.bam YRI
RNA.NA18487_YRI.chr1.bam YRI
RNA.NA18488_YRI.chr1.bam YRI
RNA.NA18489_YRI.chr1.bam YRI
RNA.NA18498_YRI.chr1.bam YRI
RNA.NA06984_CEU.chr1.bam CEU
RNA.NA06985_CEU.chr1.bam CEU
RNA.NA06986_CEU.chr1.bam CEU
RNA.NA06989_CEU.chr1.bam CEU
RNA.NA06994_CEU.chr1.bam CEU

很简单的两列文件，说明每一个样本属于哪个组即可。

 /public/biosoft/leafcutter/scripts/leafcutter_ds.R --num_threads 4 \
 --exon_file=/public/biosoft/leafcutter/leafcutter/data/gencode19_exons.txt.gz \
testYRIvsEU_perind_numers.counts.gz group_info.txt

这里的group_info.txt 就是自己制作好的分组矩阵。值得提醒的是，上面的文件有且只能有2个分组，这样软件才知道怎么样去比较，如果自己的分组很多，可以考虑制作多个分组文件，运行多次。

当然，上面的脚本已经没有必要在linux服务器里面运行啦。

既然有了内含子的表达矩阵，又有了分组信息，差异分析根本就不会消耗多少计算资源，全部下载到自己的电脑里面去做吧。

自己打开文件 /public/biosoft/leafcutter/scripts/leafcutter_ds.R 就明白了整个流程。

也是几分钟就完成了全部结果。

Running differential splicing analysis...
Differential splicing summary:
                                             statuses Freq
1 <2 introns used in >=min_samples_per_intron samples  425
2                          <=1 sample with coverage>0   62
3               <=1 sample with coverage>min_coverage  939
4                            Not enough valid samples 3047
5                                             Success 2068
Saving results...
Loading exons from /Users/jmzeng/biosoft/leafcutter/leafcutter/data/gencode19_exons.txt.gz
All done, exiting

得到的文件里面，需要详细了解的是 leafcutter_ds_cluster_significance.txt 主要靠自己看readme啦。

第四步：可视化那些可变剪切

也是包装好的脚本。

 /Users/jmzeng/biosoft/leafcutter/scripts/ds_plots.R -e  /Users/jmzeng/biosoft/leafcutter/leafcutter/data/gencode19_exons.txt.gz testYRIvsEU_perind_numers.counts.gz   group_info.txt leafcutter_ds_cluster_significance.txt -f 0.05

所有的可变剪切形式都会可视化在一张PDF图里面。如下：

使用SGSeq探索可变剪切

ulwvfje — Thu, 14 Dec 2017 03:17:11 +0000

可变剪切是指mRNA前体以多种方式将exon连接在一起的过程。由于可变剪切使一个基因产生多个mRNA转录本，不同mRNA可能翻译成不同蛋白。

可变剪切背景知识

转录组一般是指从细胞或组织的基因组所转录出来的RNA的总和，包括编码蛋白质的mRNA和各种非编码RNA（rRNA,tRNA,snRNA,snoRNA,lncRNA,microRNA等）。真核生物的基因结构是不连续的，如下图：

其基因组最初的转录产物其实并不是成熟的mRNA分子，而是它的前体pre-mRNA，那么怎么变成成熟的mRNA呢，就需要从pre-mRNA中将非编码蛋白质的内含子（intron）切除，然后拼接剩下的编码蛋白质的外显子（exon）。但实际上，在这个过程中，有多种多样的前切和拼接方式，从而产生不同的剪切异构体，也就咱们要说的可变剪切。

可变剪切的形式复杂多样，大致可以分为5大类。

第一类是外显子跳跃型（exon skipping），发生跳跃的外显子和其两侧的内含子都被剪切掉，上游和下游的外显子被直接连着一起保留在剪切后的产物中。
第二类是内含子滞留型（intron retention），某一段核苷酸序列在一个剪切体中是外显子的一部分，而在与之对照的剪切体中却是内含子而被剪切掉。
第三类是可变5’或3’端剪切（alternative 5’ss splice or alternative 3’ss splice，其中5’ss称供体位点，3’ss称受体位点），和与它对照的另一个剪切体相比，发生剪切的位点在5’或3’端不同，除此，其他剪切选择一致。
第四类是转录起始区域可变剪切（alternative TSS），发生剪切的位点在转录起始区域，即与之对应的另一个剪切体除转录起始位点不同外，其余一致。
第五类是转录终止区域可变剪切（alternative TTS），与第四类对应，发生剪切的位点只是在转录终止位点不同。

软件算法

比较旧的分析可变剪切的软件主要有SpliceR、SpliceGrapher、ASprofile以及Splicing Express等，它们是基于cufflinks软件的结果，将reads回帖到基因组序列后，根据位置和长度及结构信息，来确定或预测可能的剪切体的类型。目前主流已经不再使用tophat+cufflinks流程了。

SGSeq流程

这里介绍一下SGSeq软件，输入文件是bam，但是需要用支持转录组数据比对的工具得到的bam文件，比如

GSNAP (T. D. Wu and Nacu 2010)
HISAT (Kim, Langmead, and Salzberg 2015)
STAR (Dobin et al. 2013)

其实是需要bam文件里面有XS 这样的标记！

SGSeq包的安装说明，使用方法都可以见官网：

HTML	R Script	SGSeq
PDF		Reference Manual
Text		NEWS

需要bam文件

安装好包之后可以看到附带的数据，如下：

jianmingzengs-iMac:IGV_2.3.98 jmzeng$ cd /Library/Frameworks/R.framework/Versions/3.4/Resources/library/SGSeq/extdata/bams/
jianmingzengs-iMac:bams jmzeng$ ls -lh
total 1952
-rw-r--r-- 1 jmzeng admin 54K Nov 1 01:26 N1.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 N1.bam.bai
-rw-r--r-- 1 jmzeng admin 86K Nov 1 01:26 N2.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 N2.bam.bai
-rw-r--r-- 1 jmzeng admin 75K Nov 1 01:26 N3.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 N3.bam.bai
-rw-r--r-- 1 jmzeng admin 92K Nov 1 01:26 N4.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 N4.bam.bai
-rw-r--r-- 1 jmzeng admin 75K Nov 1 01:26 T1.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 T1.bam.bai
-rw-r--r-- 1 jmzeng admin 90K Nov 1 01:26 T2.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 T2.bam.bai
-rw-r--r-- 1 jmzeng admin 65K Nov 1 01:26 T3.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 T3.bam.bai
-rw-r--r-- 1 jmzeng admin 75K Nov 1 01:26 T4.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 T4.bam.bai

这些bam文件之所以这么小，就是因为作者只是截取了hg19的部分数据，坐标是16 [87362942, 87425708]

需要注释文件

需根据bioconductor里面的txdb对象来构建比对文件的参考基因组，参考注释信息。如果是hg19的可以如下：

library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
txdb <- keepSeqlevels(txdb, "chr16")
seqlevelsStyle(txdb) <- "NCBI"
txf_ucsc <- convertToTxFeatures(txdb)
txf_ucsc <- txf_ucsc[txf_ucsc %over% gr]
head(txf_ucsc)
type(txf_ucsc)
head(txName(txf_ucsc))
head(geneName(txf_ucsc))

主要就是通过convertToTxFeatures()函数把 GRanges 对象转化成了一个TxFeatures对象，用来标记下面5种类型：

J (splice junction)
I (internal exon)
F (first/5′′-terminal exon)
L (last/5′′-terminal exon)
U (unspliced transcript).

再用 convertToSGFeatures() 函数把TxFeatures对象转化成SGFeatures 对象，用来标记

J (splice junction)
E (disjoint exon bin)
D (splice donor site)
A (splice acceptor site).

运行SGSeq软件

sgfc_ucsc <- analyzeFeatures(si, features = txf_ucsc)
sgfc_ucsc

因为软件包自带的数据非常小，所以很容易就运行完毕，不知道真实情况下我的16G的bam文件会处理多久。

探索处理结果

也是全部在R语言里面运行即可，下面的这些函数用来探索分析结果，这些表达矩阵就写明了每个基因的每个外显子的表达量以及两个外显子中间夹着的内含子的表达情况。

也就是说该软件在R里面就对所有的genomic features 进行了reads的计数。

colData(sgfc_ucsc)
rowRanges(sgfc_ucsc)
head(counts(sgfc_ucsc))
head(FPKM(sgfc_ucsc))

可变剪切形式的可视化

挑选其中一个基因，可视化表达差异情况

df <- plotFeatures(sgfc_ucsc, geneID = 1)
# 下面是复杂一点的可视化
sgfc_pred <- analyzeFeatures(si, which = gr)
head(rowRanges(sgfc_pred))
sgfc_pred <- annotate(sgfc_pred, txf_ucsc)
head(rowRanges(sgfc_pred))
df <- plotFeatures(sgfc_pred, geneID = 1, color_novel = "red")

这个是作者精选挑选的特殊的例子用来展现软件的成功，事实上应该是先全局检查哪些可变剪切存在，然后输出

## 下面是另外一个展现模式：
par(mfrow = c(5, 1), mar = c(1, 3, 1, 1))
plotSpliceGraph(rowRanges(sgfc_pred), geneID = 1, toscale = "none", color_novel = "red")
for (j in 1:4) {
 plotCoverage(sgfc_pred[, j], geneID = 1, toscale = "none")
}

从可变剪切预测结果里面鉴别剪切体

Instead of considering the full splice graph of a gene, the analysis can be focused on individual splice events. Function analyzeVariants() recursively identifies splice events from the graph, obtains representative counts for each splice variant, and computes estimates of relative splice variant usage, also referred to as ‘percentage spliced in’ (PSI or Ψ) (Venables et al. 2008, Katz et al. (2010)). （涉及到了一个算法的问题）

sgvc_pred <- analyzeVariants(sgfc_pred)
sgvc_pred
mcols(sgvc_pred)
variantFreq(sgvc_pred)
plotVariants(sgvc_pred, eventID = 1, color_novel = "red")
library(BSgenome.Hsapiens.UCSC.hg19)
seqlevelsStyle(Hsapiens) <- "NCBI"
vep <- predictVariantEffects(sgv_pred, txdb, Hsapiens)
vep

一个植物转录组项目的实战

ulwvfje — Thu, 02 Nov 2017 02:29:11 +0000

其实这个植物是拟南芥，所以跟人类研究的数据处理大同小异。

转录组

转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有 RNA 的总和，包括 mRNA 和非编码 RNA 。通过转录组测序，能够全面获得物种特定组织或器官的转录本信息，从而进行转录本结构研究、变异研究、基因表达水平研究以及全新转录本发现等研究。

其中，基因表达水平的探究是转录组领域最热门的方向，利用转录组数据来识别转录本和表达定量，是转录组数据的核心作用。由于这个作用，他可以不依赖其他组学信息，单独成为一个产品项目RNA-seq测序。所以很多时候转录组测序会与RNA-seq混为一谈。

现在RNA-seq数据使用广泛，但是没有一套流程可以解决所有的问题。比较值得关注的RNA-seq分析中的重要的步骤包括：实验设计，质控，read比对，表达定量，可视化，差异表达，识别可变剪切，功能注释，融合基因检测，eQTL定位等。

值得一提的是，这个教程也写的非常赞：https://github.com/twbattaglia/RNAseq-workflow

流程介绍

来自于R处理mRNA-seq数据

来自于2010发表在Genome Biology的From RNA-seq reads to differential expression results文章配图

数据来源文章

数据来自于发表在Nature commmunication 上的一篇文章 “Temporal dynamics of gene expression and histone marks at the Arabidopsis shoot meristem during flowerin”。原文用RNA-Seq的方式研究在开花阶段,芽分生组织在不同时期的基因表达变化。

原文的流程是： TopHat -> SummarizeOverlaps -> Deseq2 -> AmiGO 其中比对的参考基因组为TAIR10 ver.24 ，并且屏蔽了ribosomal RNA regions (2:3471–9557; 3:14,197,350–14,203,988)。

Deseq2只计算至少在一个时间段的FPKM的count > 1 的基因。

数据存放在http://www.ebi.ac.uk/arrayexpress/, ID为E-MTAB-5130。

实验设计： 4个时间段（0,1,2,3），分别有4个生物学重复，一共有16个样品。

数据下载

conda install -c bioconda salmon 

wget http://www.ebi.ac.uk/arrayexpress/files/E-MTAB-5130/E-MTAB-5130.sdrf.txt
head -n1 E-MTAB-5130.sdrf.txt | tr '\t' '\n' | nl | grep URI
tail -n +2 E-MTAB-5130.sdrf.txt | cut -f 33 | xargs -i wget {}


nohup wget ftp://ftp.ensemblgenomes.org/pub/plants/release-28/fasta/arabidopsis_thaliana/cdna/Arabidopsis_thaliana.TAIR10.28.cdna.all.fa.gz &

nohup wget ftp://ftp.ensemblgenomes.org/pub/plants/release-28/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.28.dna.genome.fa.gz &
nohup wget  ftp://ftp.ensemblgenomes.org/pub/plants/release-28/gff3/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.28.gff3.gz &
nohup wget ftp://ftp.ensemblgenomes.org/pub/plants/release-28/gtf/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.28.gtf.gz &

salmon 流程

软件介绍：ome of the upstream quantification methods (Salmon, Sailfish, kallisto) are substantially faster and require less memory and disk usage compared to alignment-based methods that require creation and storage of BAM files

软件官网：https://combine-lab.github.io/salmon/

先用用Salmon建立索引：

salmon index -t Arabidopsis_thaliana.TAIR10.28.cdna.all.fa.gz -i athal_index

建立索引耗时53秒，生成的索引文件夹如下：

[jianmingzeng@jade salmon]$ ls -lh
total 19M
-rw-rw-r-- 1 jianmingzeng jianmingzeng  19M Oct 17 11:18 Arabidopsis_thaliana.TAIR10.28.cdna.all.fa.gz
drwxrwxr-x 2 jianmingzeng jianmingzeng 4.0K Oct 17 11:54 athal_index
-rw-rw-r-- 1 jianmingzeng jianmingzeng  142 Oct 17 11:20 wget_cdna.sh
[jianmingzeng@jade salmon]$ ls -lh  athal_index/
total 1.1G
-rw-rw-r-- 1 jianmingzeng jianmingzeng 751M Oct 17 11:54 hash.bin
-rw-rw-r-- 1 jianmingzeng jianmingzeng  357 Oct 17 11:54 header.json
-rw-rw-r-- 1 jianmingzeng jianmingzeng  115 Oct 17 11:54 indexing.log
-rw-rw-r-- 1 jianmingzeng jianmingzeng  156 Oct 17 11:54 quasi_index.log
-rw-rw-r-- 1 jianmingzeng jianmingzeng   89 Oct 17 11:54 refInfo.json
-rw-rw-r-- 1 jianmingzeng jianmingzeng 7.8M Oct 17 11:53 rsd.bin
-rw-rw-r-- 1 jianmingzeng jianmingzeng 248M Oct 17 11:54 sa.bin
-rw-rw-r-- 1 jianmingzeng jianmingzeng  63M Oct 17 11:53 txpInfo.bin
-rw-rw-r-- 1 jianmingzeng jianmingzeng   96 Oct 17 11:54 versionInfo.json
[jianmingzeng@jade salmon]$

然后对所有数据定量

由于样本一共有16个，不可能一条条输入命令，所以我们写一个脚本：

#! /bin/bash
index=salmon/athal_index ## 指定索引文件夹
for fn in ERR1698{194..209};
do
    sample=`basename ${fn}`
    echo "Processin sample ${sampe}"
    salmon quant -i $index -l A \
        -1 ${sample}_1.fastq.gz \
        -2 ${sample}_2.fastq.gz \
        -p 5 -o quants/${sample}_quant
done

subread流程

也是首先构建索引，但是这个需要提前解压fa文件

gunzip Arabidopsis_thaliana.TAIR10.28.dna.genome.fa.gz
~/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/subread-buildindex -o athal_index   Arabidopsis_thaliana.TAIR10.28.dna.genome.fa

消耗时间也不到一分钟，生成的索引文件如下：

117M Oct 17 11:21 Arabidopsis_thaliana.TAIR10.28.dna.genome.fa
 15M Oct 17 11:41 Arabidopsis_thaliana.TAIR10.28.gff3.gz
 29M Oct 17 12:19 athal_index.00.b.array
231M Oct 17 12:19 athal_index.00.b.tab
 314 Oct 17 12:19 athal_index.files
345K Oct 17 12:18 athal_index.log

然后比对也是一个脚本批量化完成

#! /bin/bash
subjunc="/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/subjunc"; 
index='subread/athal_index';
for fn in ERR1698{194..209};
do
    sample=`basename ${fn}`
    echo "Processin sample ${sampe}" 
    $subjunc -i $index \
        -r ${sample}_1.fastq.gz \
        -R ${sample}_2.fastq.gz \
        -T 5 -o ${sample}_subjunc.bam
done

但是输出bam还不够，还需要用featureCounts对之进行定量

gff3='/home/jianmingzeng/data/public/tair/subread/Arabidopsis_thaliana.TAIR10.28.gff3.gz';
gtf='/home/jianmingzeng/data/public/tair/subread/Arabidopsis_thaliana.TAIR10.28.gtf';


featureCounts='/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/featureCounts';
$featureCounts -T 5 -p -t exon -g gene_name -a $gtf -o  counts.txt   *.bam
nohup $featureCounts -T 5 -p -t exon -g gene_id -a $gtf -o  counts_id.txt   *.bam &

这一步骤是非常快的。

比对可以有更多选择

$hisat -p 5 -x $hisat2_mm10_index -1 $fq1 -2 $fq2 -S $sample.sam 2>$sample.hisat.log
samtools sort -O bam -@ 5  -o ${sample}_hisat.bam $sample.sam

$subjunc -T 5  -i $subjunc_mm10_index -r $fq1  -R $fq2 -o ${sample}_subjunc.bam
## 比对的sam自动转为bam，但是并不按照参考基因组坐标排序

bwa mem -t 5 -M  $bwa_mm10_index $fq1 $fq2 1>$sample.sam 2>/dev/null 
samtools sort -O bam -@ 5  -o ${sample}_bwa.bam $sample.sam

$bowtie -p 5 -x $bowtie2_mm10_index -1 $fq1  -2 $fq2 | samtools sort  -O bam  -@ 5 -o - >${sample}_bowtie.bam

## star软件载入参考基因组非常耗时，约10分钟，也比较耗费内存，但是比对非常快，5M的序列就两分钟即可
$star --runThreadN  5 --genomeDir $star_mm10_index --readFilesCommand zcat --readFilesIn  $fq1 $fq2 --outFileNamePrefix  ${sample}_star 
## --outSAMtype BAM  可以用这个参数设置直接输出排序好的bam文件
samtools sort -O bam -@ 5  -o ${sample}_star.bam ${sample}_starAligned.out.sam

表达矩阵的normalization方法

统计学原理需要耗费很大功夫才能理解，主要是掌握这些normalization方法如何在R里面实现，还有它们的简单比较。

Total count (TC): Gene counts are divided by the total number of mapped reads (or library size) associated with their lane and multiplied by the mean total count across all the samples of the dataset.
Upper Quartile (UQ): Very similar in principle to TC, the total counts are replaced by the upper quartile of counts different from 0 in the computation of the normalization factors.
Median (Med): Also similar to TC, the total counts are replaced by the median counts different from 0 in the computation of the normalization factors. That is, the median is calculated as the median of gene counts of all runs.
DESeq: This normalization method is included in the DESeq Bioconductor package and is based on the hypothesis that most genes are not DE. The method is based on a negative binomial distribution model, with variance and mean linked by local regression, and presents an implementation that gives scale factors. Within the DESeq package, and with the estimateSizeFactorsForMatrixfunction, scaling factors can be calculated for each run. After dividing gene counts by each scaling factor, DESeq values are calculated as the total of rescaled gene counts of all runs.
Trimmed Mean of M-values (TMM): This normalization method is implemented in the edgeR Bioconductor package (Robinson et al., 2010). It is also based on the hypothesis that most genes are not DE. Scaling factors are calculated using the calcNormFactors function in the package, and then rescaled gene counts are obtained by dividing gene counts by each scaling factor for each run. TMM is the sum of rescaled gene counts of all runs.
Quantile (Q): First proposed in the context of microarray data, this normalization method consists in matching distributions of gene counts across lanes.
Reads Per Kilobase per Million mapped reads (RPKM): This approach was initially introduced to facilitate comparisons between genes within a sample and combines between- and within-sample normalization. This approach quantifies gene expression from RNA-Seq data by normalizing for the total transcript length and the number of sequencing reads.

差异分析

也是有很多种选择，主要是继承自上面的normalization方法，一般来说挑选好了normalization方法就决定了选取何种差异分析方法，也并不强求弄懂统计学原理，它们都被包装到了对应的R包里面，主要是对R包的学习。

edgeR (Robinson et al., 2010)
DESeq / DESeq2 (Anders and Huber, 2010, 2014)
DEXSeq (Anders et al., 2012)
limmaVoom
Cuffdiff / Cuffdiff2 (Trapnell et al., 2013)
PoissonSeq
baySeq

首先提取样本的分组信息

tail -n +2 E-MTAB-5130.sdrf.txt | cut -f 32,36 |sort -u

制作表达矩阵

这个表达矩阵，就是上游的比对+定量得到的，但是要按照下面的规则做成\t分割的txt文档，如下：

	SRR1039508	SRR1039509	SRR1039512	SRR1039513	SRR1039516	SRR1039517	SRR1039520	SRR1039521
ENSG00000000003	679	448	873	408	1138	1047	770	572
ENSG00000000005	0	0	0	0	0	0	0	0
ENSG00000000419	467	515	621	365	587	799	417	508
ENSG00000000457	260	211	263	164	245	331	233	229
ENSG00000000460	60	55	40	35	78	63	76	60
ENSG00000000938	0	0	2	0	1	0	0	0
ENSG00000000971	3251	3679	6177	4252	6721	11027	5176	7995
ENSG00000001036	1433	1062	1733	881	1424	1439	1359	1109
ENSG00000001084	519	380	595	493	820	714	696	704
ENSG00000001167	394	236	464	175	658	584	360	269
ENSG00000001460	172	168	264	118	241	210	155	177
ENSG00000001461	2112	1867	5137	2657	2735	2751	2467	2905
ENSG00000001497	524	488	638	357	676	806	493	475
ENSG00000001561	71	51	211	156	23	38	134	172

第一列是基因ID，后面的列是各个样本。其中第一行尤为注意，最开头是一个空格(了解R里面read.table函数原理)

制作分组矩阵

	dex	SampleName	cell
SRR1039508	untrt	GSM1275862	N61311
SRR1039509	trt	GSM1275863	N61311
SRR1039512	untrt	GSM1275866	N052611
SRR1039513	trt	GSM1275867	N052611
SRR1039516	untrt	GSM1275870	N080611
SRR1039517	trt	GSM1275871	N080611
SRR1039520	untrt	GSM1275874	N061011
SRR1039521	trt	GSM1275875	N061011

记住要跟上面的表达矩阵的样本名对应！！！

只有第一列是需要看的，其余的无所谓。

根据分组信息，是需要自己指定比对信息的，比如上面的分组矩阵，需要指定 -c 'trt-untrt'

下载差异分析脚本

wget  https://raw.githubusercontent.com/jmzeng1314/my-R/master/DEG_scripts/run_DEG.R
wget  https://raw.githubusercontent.com/jmzeng1314/my-R/master/DEG_scripts/tair/exprSet.txt
wget  https://raw.githubusercontent.com/jmzeng1314/my-R/master/DEG_scripts/tair/group_info.txt
Rscript ../run_DEG.R -e exprSet.txt -g group_info.txt -c 'Day1-Day0' -s counts  -m DESeq2

如果是转录组的raw counts数据，就选择 -s counts，如果是芯片等normalization好的表达矩阵数据，用默认参数即可。下面是例子：

# Rscript run_DEG.R -e airway.expression.txt -g airway.group.txt -c 'trt-untrt' -s counts -m DESeq2
# Rscript run_DEG.R -e airway.expression.txt -g airway.group.txt -c 'trt-untrt' -s counts -m edgeR
# Rscript run_DEG.R -e sCLLex.expression.txt -g sCLLex.group.txt -c 'progres.-stable'
# Rscript run_DEG.R -e sCLLex.expression.txt -g sCLLex.group.txt -c 'progres.-stable' -m t.test

对于转录组的raw counts数据，有DEseq2包和edgeR包可供选择。对于芯片等normalization好的表达矩阵数据，有limma和t.test供选择。

关于选择哪一组样本与哪一组样本比较，其实可以非常复杂，比如：http://genomicsclass.github.io/book/pages/expressing_design_formula.html

重要的脚本

比如 create_testData.R 里面有如何得到表达矩阵和分组矩阵的内容。

富集分析

这里不想讲解了，跟人类的基因的富集分析还有一点区别的。

其它数据

比如：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE89843 测定了402个NSCLC病人和377个正常人的血小板的转录组，数据分析方法如下：

For further downstream analyses, reads were quality-controlled using Trimmomatic, mapped to the humane reference genome using STAR, and intron-spanning reads were summarized using HTseq.

这个数据量要重分析，对计算资源要求就比较高了，但是可以直接下载作者分析好的表达矩阵： ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE89nnn/GSE89843/suppl/GSE89843_TEP_Count_Matrix.txt.gz

而且表达矩阵的后续分析也不仅仅是差异表达那么简单，毕竟测了如此多的样本。

史上最快的转录组流程-subread

ulwvfje — Thu, 19 Oct 2017 14:10:29 +0000

史上最快的转录组流程-subread

安装软件

二进制版本软件，直接找到官网下载解压即可使用。

cd ~/biosoft
# http://bioinf.wehi.edu.au/featureCounts/
mkdir featureCounts &&  cd featureCounts
## 之前以为这个软件就是用来计算表达量的，所以把文件夹取名为 featureCounts
wget https://sourceforge.net/projects/subread/files/subread-1.5.3/subread-1.5.3-Linux-x86_64.tar.gz
tar zxvf subread-1.5.3-Linux-x86_64.tar.gz

建立索引

每个比对工具的算法不一样，所以每个工具都需要对参考基因组建立自己的索引。本身参考基因组占一篇空间就不小，索引之后更大!

需要自行从UCSC下载参考基因组，我放在了~/reference/genome/ 目录

buildindex=~/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/subread-buildindex
cd /home/jianmingzeng/reference/index/subread/
$buildindex -o mm10  ~/reference/genome/mm10/mm10.fa
$buildindex -o hg19  ~/reference/genome/hg19/hg19.fa
$buildindex -o hg38  ~/reference/genome/hg38/hg38.fa

得到的索引文件如下：

749M Sep 15 17:37 hg19.00.b.array
4.9G Sep 15 17:37 hg19.00.b.tab
5.5K Sep 15 17:33 hg19.files
   0 Sep 15 17:17 hg19.log
2.3K Sep 15 17:38 hg19.reads
766M Sep 15 18:01 hg38.00.b.array
5.0G Sep 15 18:01 hg38.00.b.tab
 29K Sep 15 17:57 hg38.files
   0 Sep 15 17:38 hg38.log
 14K Sep 15 18:01 hg38.reads
652M Sep 15 17:17 mm10.00.b.array
4.4G Sep 15 17:17 mm10.00.b.tab
3.9K Sep 15 17:13 mm10.files
   0 Sep 15 16:52 mm10.log
1.6K Sep 15 17:17 mm10.reads

批量比对

做好一个配置文件，就可以运行下面的脚本。

subjunc="/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/subjunc"; 
subjunc_mm10_index='/home/jianmingzeng/reference/index/subread/mm10';

cat $config |while read id
do
    arr=($id)
    fq1=${arr[1]}
    fq2=${arr[2]}
    sample=${arr[0]}
    echo "  start alignment for $sample" `date`
    #$hisat -p 5 -x $mm10_index -1 $fq1 -2 $fq2 -S $sample.sam 2>$sample.hisat.log
    #samtools sort -O bam -@ 5  -o $sample.bam $sample.sam
    $subjunc -T 5  -i $subjunc_mm10_index -r $fq1  -R $fq2 -o ${sample}_subjunc.bam
    echo "  end alignment for $sample" `date`
done

配置文件就3列，第一列是样本名，第二列是该样本的fastq1，第二列是fastq2。多个样本的样本名不运行重复。

之前我以为hisat就很快了，换成了这个subjunc才知道没有最快，只有更快。

批量计算表达量

mm10_gtf='/home/jianmingzeng/reference/gtf/gencode/gencode.vM12.annotation.gtf';
featureCounts='/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/featureCounts';
$featureCounts -T 5 -p -t exon -g gene_id -a $mm10_gtf -o  counts.txt   *.bam

实在是没有想到这个软件居然会如此快，1M的reads耗时三五秒即可，甩之前的htseq-counts好几条街。

还有更多计算的模型和参数可以供挑选；http://bioinf.wehi.edu.au/featureCounts/

一个RNA-seq的反思

ulwvfje — Thu, 12 Jan 2017 10:51:22 +0000

熟悉我的人都知道RNA-seq是我的拿手好戏啦！

但是，今天处理了一个公共数据，比对率低的惊人！

是测序数据质量不好？

难道grcm38与mm10有差别？

还是比对工具的默认参数不行？

请看下去，看看老司机是如何翻车的！

数据比较新，是理所当然的认为测序数据肯定是OK的：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916

下载sra数据，转换为fastq我就不讲解了！

Written 30468155 spots for SRR3589959.sra

Written 52972617 spots for SRR3589960.sra

Written 36763726 spots for SRR3589961.sra

Written 43802631 spots for SRR3589962.sra

我用的是hisat2工具来比对，一般情况下我就用默认参数啦！

reference=/home/jianmingzeng/reference/index/hisat/grcm38/genome

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR3589959.fastq -S control_1.sam 2>control_1.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR3589960.fastq -S control_2.sam 2>control_2.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR3589961.fastq -S Akap95_1.sam 2>Akap95_1.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR3589962.fastq -S Akap95_2.sam 2>Akap95_2.log

ls *sam |while read id;do (nohup samtools sort -n -@ 5 -o ${id%%.*}.Nsort.bam $id &);done

但是让我意外的是比对率出奇的低~~~

0.48% overall alignment rate

0.62% overall alignment rate

0.48% overall alignment rate

0.49% overall alignment rate

起初我怀疑是参考基因组用错了，但是我查看了GEO里面的介绍，的确是mouse的ESC，所以我用grcm38没有问题呀！

然后我怀疑是测序数据质量的问题，但是质量再差也不会导致如此低的比对率呀~~~

所以我还是用fastqc检查了一下：

果然，质量值好到爆！！！！

而且我抽取了几条序列去blat一下，发现也可以比对呀，而且很明显是跨越intron的比对，超级经典的RNA-seq数据呀!!!

( 其实我这个blat结果也没有看仔细，正常的reads不应该被截成比对到基因组的正负链的，这其实预示着我把PE序列拼接了。)

那么就是我hisat2这个步骤的问题咯,我首先怀疑是不是我下载hisat的index搞错了，虽然看起来我命名是grcm38，但是有可能是我下载错误！我打开了sam文件看了看开头：

貌似的确是mouse基因组的染色体长度呀！很诡异，而且我清楚的记得，我下载的就是mouse的基因的索引呀！

https://ccb.jhu.edu/software/hisat2/index.shtml

难道grcm38与mm10有差别？

我就先用bowtie2测试一下mm10吧，毕竟我还没有hisat2的mm10的index呀！

head -1000 SRR3589959.fastq >tmp.fq

~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -x ~/reference/index/bowtie/mm10 -U tmp.fq -S tmp.sam

结果我挑出来的这1000条序列，全军覆没了，0.00% overall alignment rate，我傻眼了！

没办法呀，逼着我换hg19参考基因组看看：

~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -x ~/reference/index/bowtie/hg19 -U tmp.fq -S tmp.hg19.sam

仍然是全军覆没了，0.00% overall alignment rate，继续傻眼！

回过头看了看fastqc的报告，发现前面10个碱基的确有问题的！如果只是对RNA-seq进行定量，可能需要trim掉，但是，我以前从来不trim，照样不影响比对呀

不过，暂时看到这个问题，我就试着解决一下吧，先从这个思路来，

而且比对工具里面本来就有这个选项，没必要自己来trim的！具体参数见：https://ccb.jhu.edu/software/hisat2/manual.shtml

-5/--trim5 trim bases from 5'/left end of reads (0)

-3/--trim3 trim bases from 3'/right end of reads (0)

所以我加上了-p 6 -5 10 -3 10 --local 参数，比对人，可以拿到35.60% overall alignment rate，比对mouse，可以拿到98.80% overall alignment rate ，我勒个去，问题出来了，看起来好像是应该trim掉呀。以前的万能默认参数不行了！！！！

但是有个问题，虽然我用local模式都比对上了，但是首先100bp的reads我切成了80，而且都是40M，40S，说明只有reads的一般成功比对到了参考基因组序列呀！！！！

我然后用同样的参数，我测试了hisat2工具，但是hisat2里面压根就没有local的选项，仅仅是trim一下，对比对的改善毫无意义，所以重点在于--local这个参数，但它只是表象，本质还是这个测序数据出问题了！

数据为什么会出问题呢?

我再回过头看了看测序数据的fastqc报告，我勒个去，这么重要的图我居然忽略掉了，再联想到前面的40M，40S我瞬间明白了，这肯定是一个双端测序，被我搞成了单端测序数据！

而且我再去GEO介绍上面看，上面赫然写着PAIRED！！！！我死也想不明白，我明明是加了--split-3 参数呀，为什么sra转换成fastq会出这么明显的错误呢？

然后我检查我的脚本，马勒戈壁，我自己从我博客里面复制了我的代码，

唯一值得你看的就是这个图

是-- 不是— ，全角半角害死人呀，而且这个参数不识别它居然不报错，而是忽略我参数！！！

更要命的是我把wget跟fastq-dump一起运行的，而wget会给出一大堆的log日志，我都懒得看，结果，把fastq-dump的报错日志给掩盖了。

这就是老司机翻车的全部故事，希望你们引以为戒！

因为前面一直处理的是单端的数据，所以这个错误没有被发现。

我痛恨我博客的脚本了，而且我痛恨--这样的参数设置！

下面是我修改后的代码！！！

cut -f 3 config.txt |while read id ; do wget $id 2>/dev/null ;done

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --gzip --split-3 $id;done

老司机现在很伤心，一天的功夫白费了。

因为我已经把sra数据删除了，想重来一次的机会都不给我~~~

又要重新下载一次，好惨啊！！！！

总结一下吧：

QC这一步骤非常重要，不能太马虎！

原始数据不要随意删除，给自己一次重新来过的机会。

一个RNA-seq实战-超级简单-2小时搞定！

ulwvfje — Fri, 30 Dec 2016 08:38:33 +0000

请不要直接拷贝我的代码，需要自己理解，然后打出来，思考我为什么这样写代码。

软件请用最新版，尤其是samtools等被我存储在系统环境变量的，考虑到读者众多，一般的软件我都会自带版本信息的！

我用两个小时，不代表你是两个小时就学会，有些朋友反映学了两个星期才学会，这很正常，没毛病，不要异想天开两个小时就达到我的水平。

转录组如果只看表达量真的是超级简单，真是超级简单，而且人家作者本来就测是SE50，这种破数据，也就是看表达量用的！

首先作者分析结果是：

数据在GEO地址是：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177

我们需要下载的RNA-seq的数据：

https://www.ncbi.nlm.nih.gov//sra/?term=SRP029245

https://trace.ncbi.nlm.nih.gov/Traces/study/?acc=SRP029245

ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP029/SRP029245

下载地址很容易获取啦！

for ((i=677;i<=680;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP029/SRP029245/SRR957$i/SRR957$i.sra;done

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;done

因为我用fastqc看了看数据质量，发现没有什么问题，代码如下：

ls *fastq |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10

所以直接用hisat2软件把测序得到的fastq文件比对到hg19参考基因组上面

reference=/home/jianmingzeng/reference/index/hisat/hg19/genome

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957677.fastq -S control_1.sam 2>control_1.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957678.fastq -S control_2.sam 2>control_2.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957679.fastq -S siSUZ12_1.sam 2>siSUZ12_1.log

~/biosoft/HISAT/current/hisat2 -p 5 -x $reference -U SRR957680.fastq -S siSUZ12_2.sam 2>siSUZ12_2.log

而且查看log日志可以发现，比对效果杠杠的：

93.10% overall alignment rate
92.44% overall alignment rate
92.36% overall alignment rate
93.22% overall alignment rate

然后把sam文件根据reads name来排序并且转换为bam文件节省空间

ls *sam |while read id;do (nohup samtools sort -n -@ 5 -o ${id%%.*}.Nsort.bam $id &);done

最后用htseq-counts工具来对每一个样本进行基因的表达量定量！

ls *.Nsort.bam |while read id;do (nohup samtools view $id | ~/.local/bin/htseq-count -f sam -s no -i gene_name - ~/reference/gtf/gencode/gencode.v25lift37.annotation.gtf 1>${id%%.*}.geneCounts 2>${id%%.*}.HTseq.log&);done

得到的文件如下：

这4个样本的基因的counts数据就可以用一系列的R包来做差异分析了，包括limma的voom，DEseq2，edgeR等等。这些包的用法都烂大街了，我就不赘述了。

做完差异分析，就可以跟作者的结果做对比，看看自己做的是不是对的。

hisat2+stringtie+ballgown

ulwvfje — Fri, 25 Nov 2016 15:06:23 +0000

早在去年九月，我就写个博文说 RNA-seq流程需要进化啦！ http://www.bio-info-trainee.com/1022.html ，主要就是进化成hisat2+stringtie+ballgown的流程，但是我一直没有系统性的讲这个流程，因为我觉真心木有用。我只用了里面的hisat来做比对而已！但是群里的小伙伴问得特别多，我还是勉为其难的写一个教程吧，你们之间拷贝我的代码就可以安装这些软件的！然后自己找一个测试数据，我的脚本很容易用的！

其实我最喜欢这样的文章了：http://www.nature.com/nprot/journal/v11/n9/full/nprot.2016.095.html 而且人家还提供了所有的代码，不知道大家怎么还会有疑问的：http://www.nature.com/nprot/journal/v11/n9/extref/nprot.2016.095-S1.zip

人家已经把流程说得清清楚楚了，我还是说一个自己的体悟吧：

软件安装如下：

## Download and install HISAT

# https://ccb.jhu.edu/software/hisat2/index.shtml

cd ~/biosoft

mkdir HISAT && cd HISAT

#### readme: https://ccb.jhu.edu/software/hisat2/manual.shtml

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.0.4-Linux_x86_64.zip

unzip hisat2-2.0.4-Linux_x86_64.zip

ln -s hisat2-2.0.4 current

## ~/biosoft/HISAT/current/hisat2-build

## ~/biosoft/HISAT/current/hisat2

## Download and install StringTie

## https://ccb.jhu.edu/software/stringtie/ ## https://ccb.jhu.edu/software/stringtie/index.shtml?t=manual

cd ~/biosoft

mkdir StringTie && cd StringTie

wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-1.2.3.Linux_x86_64.tar.gz

tar zxvf stringtie-1.2.3.Linux_x86_64.tar.gz

ln -s stringtie-1.2.3.Linux_x86_64 current

# ~/biosoft/StringTie/current/stringtie

软件使用，我比较喜欢用shell脚本，而且是简单的那种：

while read id

do

sample=$(echo $id |cut -d" " -f 1 )

file1=$(echo $id |cut -d" " -f 2 )

file2=$(echo $id |cut -d" " -f 3 )

echo $sample

echo $file1

echo $file2

~/biosoft/HISAT/current/hisat2 -p 4 --dta -x ~/reference/index/hisat/hg19/genome -1 $file1 -2 $file2 -S $sample.hisat2.hg19.sam 2>$sample.hisat2.hg19.log &

done <$1

上面这个脚本需要一个3列的输入文件，分别是样本名，read1文件，read2文件，会产生以下的输出文件，sam文件。

while read id

do

file=$(basename $id )

sample=${file%%.*}

echo $id $sample

nohup samtools sort -@ 4 -o ${sample}.sorted.bam $id &

done <$1

最新版的samtools已经可以直接把sam文件变成排序好的bam文件啦~~~~

while read id

do

file=$(basename $id )

sample=${file%%.*}

echo $id $sample

nohup ~/biosoft/StringTie/current/stringtie -p 4 -G ~/reference/gtf/gencode/gencode.v25lift37.annotation.gtf -o $sample.hg19.stringtie.gtf -l $sample $id &

done <$1

stringTie的用法就是这样咯。没什么好讲的

~/biosoft/StringTie/current/stringtie --merge -p 8 -G ~/reference/gtf/gencode/gencode.v25lift37.annotation.gtf -o stringtie_merged.gtf mergelist.txt

while read id

file=$(basename $id )

sample=${file%%.*}

echo $id $sample

nohup ~/biosoft/StringTie/current/stringtie -e -B -G $2 -o ballgown/$sample/$sample.hg19.stringtie.gtf $id &

done <$1

我实在讲不下去了，因为真心不用这个东东，我都是拿到了sam/bam文件就直接去counts表达量矩阵了，而count reads数量是非常容易的事情，代码如下

nohup samtools view A.sorted.bam.Nsort.bam | ~/.local/bin/htseq-count -f sam -s no -i gene_name - ~/reference/gtf/gencode/gencode.v25lift37.annotation.gtf 1>A.geneCounts 2>A.HTseq.log &

下面的这些文件，导入到R里面用ballgown处理吧，不要在问我这个问题了。

htseq-counts跟bedtools的区别

ulwvfje — Tue, 15 Nov 2016 03:55:21 +0000

我以前写过bedtools和htseq-counts的教程，它们都可以用来对比对好的bam文件进行计数，正好群里有小伙伴问我它们的区别，我就简单做了一个比较，大家可以先看看我以前写的软件教程。写的有的挫：

使用Bedtools对RNA-seq进行基因计数，

转录组HTseq对基因表达量进行计数

言归正传，我这里没精力去探究它们的具体原理，只是看看它们数一个read是否属于某个基因的时候，区别在哪里，大家看下图：

很明显，bedtools不管三七二十一，只要你的reads比对到基因组的坐标跟目的基因坐标有交叉，就算你一个reads，不需要管你是不是multiple mapping的。

但是htseq就谨慎很多，而且还可以挑选model，一般来说，它会把multiple mapping的reads归类到 not unique aligned里面。

而且，大家做完分析，一定要再三检查，很明显人家hisat告诉你的mapping rate高达90%以上，即使除去那15%左右的multiple mapping，你counts表达量的时候，至少也可以counts 百分之五六十吧！！！

如果出现大数量级的no_feature，你自己就应该明白有问题了！

最后htseq-counts使用的时候有一些参数尤其需要注意：

软件官网说明书： http://www-huber.embl.de/HTSeq/doc/count.html

参考gtf文件可以是gencode或者是ensembl数据库的，但是尤其要注释chr的问题，而且版本问题，gtf/gff格式无所谓。比对后的文件一定要进行sort，推荐一定要sort -n，根据reads的name来sort

-f sam/bam 这个一定要搞清楚，如果对bam文件进行counts，必须保证你服务器的python安装了正确的pysam模块

-r name/pos，一般情况下我们的bam都是按照参考基因组的pos来sort的，但是这个软件默认却是reads的name，很坑，一般建议重新把bam文件sort一下，而不是选择 -r pos，因为-r pos实在是太消耗内存了。

-s yes/no/reverse, 这也是巨坑的参数，默认是yes，一般人拿到的数据都是no，所以千万要注意！！！

-t 选择gff/gtf文件的第3列，一般是exon，也可以是gene，transcript ，这个很少调整的。

-i 这个需要修改，不然默认是ensembl的基因ID，一般人看不懂，可以改为gene_name，前提是你的gff文件里面有gene_name这个属性。

其余的就不需要修改了。

我的代码如下：

nohup samtools view control.Nsort.bam | ~/.local/bin/htseq-count -f sam -s no -i gene_name - ~/reference/gtf/gencode/gencode.v25lift37.annotation.gtf 1>control.geneCounts 2>control.HTseq.log &

nohup samtools view G34V.Nsort.bam | ~/.local/bin/htseq-count -f sam -s no -i gene_name - ~/reference/gtf/gencode/gencode.v25lift37.annotation.gtf 1>G34V.geneCounts 2>G34V.HTseq.log &

nohup samtools view K27M.Nsort.bam | ~/.local/bin/htseq-count -f sam -s no -i gene_name - ~/reference/gtf/gencode/gencode.v25lift37.annotation.gtf 1>K27M.geneCounts 2>K27M.HTseq.log &

nohup samtools view WT.Nsort.bam | ~/.local/bin/htseq-count -f sam -s no -i gene_name - ~/reference/gtf/gencode/gencode.v25lift37.annotation.gtf 1>WT.geneCounts 2>WT.HTseq.log &

RNAseq数据完整生物信息分析流程第一讲之文献数据下载

ulwvfje — Tue, 09 Aug 2016 12:34:14 +0000

我这里拿的是bioconductor里面最常用的airway数据，因为差异表达分析在bioconductor里面是重点，它们这些包在介绍自己的算法以及做示范的时候都用的这个数据。可以在GEO数据库里面看到信息描述：http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778 可以看到是Illumina HiSeq 2000 (Homo sapiens) ，75bp paired-end 这个信息很重要，决定了下载sra数据之后如何解压以及如何比对。也可以看到作者把所有的测序原始数据都上传到了SRA中心：http://www.ncbi.nlm.nih.gov/sra?term=SRP033351 ，这里可以在linux服务器上面写一个简单的脚本批量下载所有的测序数据，然后根据GEO里面描述的metadata把原始数据改名。

for ((i=508;i<=523;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033351/SRR1039$i/SRR1039$i.sra;done
ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;done

需要自己看SRA里面的数据记录，上面的脚本不难写出，然后因为是Illumina的双端测序，所以我们用fastq-dump --split-3命令来把sra格式数据转换为fastq，但是因为这里有16个测序数据，所以最好是同步改名，我这里用脚本批量生成改名脚本如下：

为了节省空间，我用了--gzip压缩，该文件名，用-A参数。

nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_untreated SRR1039508.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_Dex SRR1039509.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_Alb SRR1039510.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_Alb_Dex SRR1039511.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_untreated SRR1039512.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_Dex SRR1039513.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_Alb SRR1039514.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_Alb_Dex SRR1039515.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_untreated SRR1039516.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_Dex SRR1039517.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_Alb SRR1039518.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_Alb_Dex SRR1039519.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_untreated SRR1039520.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_Dex SRR1039521.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_Alb SRR1039522.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_Alb_Dex SRR1039523.sra &

可以看到这里的16个样本来源于同样的4个人，是HASM细胞系，处理详情如下：

测序基础：

HASM细胞系-human airway smooth muscle，

The Illumina TruSeq assay was used to prepare 75bp paired-end libraries for HASM cells from four white male donors under four treatment conditions:

1) no treatment;

2) treatment with a β2-agonist (i.e. Albuterol, 1μM for 18h);

3) treatment with a glucocorticosteroid (i.e. Dexamethasone (Dex), 1μM for 18h);

4) simultaneous treatment with a β2-agonist and glucocorticoid

and the libraries were sequenced with an Illumina Hi-Seq 2000 instrument.

我们这里只是先根据fastq数据比对到参考基因组，然后计算每个样本的表达量即可，后续的分组计算差异表达，就需要个性化了。

下载的sra大小如下：

-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 04:21 SRR1039508.sra
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 05:20 SRR1039509.sra
-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 06:14 SRR1039510.sra
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 07:05 SRR1039511.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 08:07 SRR1039512.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.3G Aug 9 09:17 SRR1039513.sra
-rw-rw-r-- 1 jmzeng jmzeng 3.1G Aug 9 10:56 SRR1039514.sra
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 11:56 SRR1039515.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 13:02 SRR1039516.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.6G Aug 9 14:16 SRR1039517.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.3G Aug 9 15:17 SRR1039518.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.0G Aug 9 16:05 SRR1039519.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 16:56 SRR1039520.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.4G Aug 9 17:57 SRR1039521.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.0G Aug 9 18:46 SRR1039522.sra
-rw-rw-r-- 1 jmzeng jmzeng 1.4G Aug 9 19:28 SRR1039523.sra

解压后成双端测序的fastq数据如下：

-rw-rw-r-- 1 jmzeng jmzeng 2.5G Aug 9 20:12 N052611_Alb_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.5G Aug 9 20:12 N052611_Alb_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 20:44 N052611_Alb_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 20:44 N052611_Alb_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 289M Aug 9 20:44 N052611_Alb_Dex.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 951M Aug 9 20:59 N052611_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 954M Aug 9 20:59 N052611_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.7G Aug 9 20:53 N052611_untreated_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.7G Aug 9 20:53 N052611_untreated_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 20:45 N061011_Alb_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 20:45 N061011_Alb_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:59 N061011_Alb_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:59 N061011_Alb_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 16M Aug 9 20:45 N061011_Alb.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.4G Aug 9 20:48 N061011_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.4G Aug 9 20:48 N061011_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 20:00 N061011_untreated_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 20:00 N061011_untreated_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 759M Aug 9 20:00 N061011_untreated.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:03 N080611_Alb_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:03 N080611_Alb_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 19:59 N080611_Alb_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 19:59 N080611_Alb_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 535M Aug 9 19:59 N080611_Alb_Dex.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 20:06 N080611_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 20:06 N080611_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 20:01 N080611_untreated_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 20:01 N080611_untreated_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_Alb_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_Alb_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:08 N61311_Alb_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:08 N61311_Alb_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 08:07 N61311_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 08:07 N61311_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_untreated_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_untreated_2.fastq.gz

接下来所有的分析就基于此数据啦