生信菜鸟团 » 生信组学技术

CCLE数据库里面的1000多个细胞系的RNA-SEQ数据和拷贝数变异数据联合分析

ulwvfje — Wed, 14 Feb 2018 14:43:20 +0000

我看到这篇science的补充材料最后一个图是：

所以希望可以重复一遍这个分析。

重现完毕了，我再来更新哈

Bioconductor包chimeraviz嵌合RNA可视化

ulwvfje — Sat, 06 Jan 2018 09:41:26 +0000

Bioconductor包chimeraviz嵌合RNA可视化

高通量RNA测序已经能够更高效地检测融合转录本，但是融合检测的技术和相关软件通常产生高错误发现率。而一个自动整合RNA数据和已知基因组特征的可视化框架对于结果的检验是有帮助的。2017年发布的一个bioconductor包，chimeraviz就可以做到自动创建嵌合RNA可视化。

支持来自9种不同融合发现工具（deFuse、EricScript、InFusion、JAFFA、FusionCatcher、FusionMap、PRADA、SOAPfuse和STAR-FUSION）的输入。

官网教程

直接在bioconductor可以看到详细说明：https://bioconductor.org/packages/release/bioc/html/chimeraviz.html | HTML | R Script |

下载安装好该R包后，自带一系列的融合基因可视化的测试数据，文件如下：

  1.1K Oct 16 22:36 5267readsAligned.bam
   96B Oct 16 22:36 5267readsAligned.bam.bai
   22K Oct 16 22:36 FusionMap_01_TestDataset_InputFastq.FusionReport.txt
   37K Oct 16 22:36 Homo_sapiens.GRCh37.74.sqlite
   68K Oct 16 22:36 Homo_sapiens.GRCh37.74_subset.gtf
  1.9K Oct 16 22:36 PRADA.acc.fusion.fq.TAF.tsv
   32K Oct 16 22:36 UCSC.HG19.Human.CytoBandIdeogram.txt
   32K Oct 16 22:36 UCSC.HG38.Human.CytoBandIdeogram.txt
   16K Oct 16 22:36 defuse_833ke_results.filtered.tsv
  4.6K Oct 16 22:36 ericscript_SRR1657556.results.total.tsv
  1.7M Oct 16 22:36 fusion5267and11759reads.bam
   57K Oct 16 22:36 fusion5267and11759reads.bam.bai
  4.1K Oct 16 22:36 fusioncatcher_833ke_final-list-candidate-fusion-genes.txt
  2.1K Oct 16 22:36 infusion_fusions.txt
  4.3K Oct 16 22:36 jaffa_results.csv
  2.6K Oct 16 22:36 reads.1.fq
  2.6K Oct 16 22:36 reads.2.fq
  1.0K Oct 16 22:36 reads_supporting_defuse_fusion_5267.1.fq
  1.0K Oct 16 22:36 reads_supporting_defuse_fusion_5267.2.fq
  3.3K Oct 16 22:36 soapfuse_833ke_final.Fusion.specific.for.genes
  2.0K Oct 16 22:36 star-fusion.fusion_candidates.final.abridged.txt

可以看到，所支持的9种融合基因检测工具的示例结果都在这里了，比如我最喜欢的star-fusion的结果节选如下：

#FusionName JunctionReadCount   SpanningFragCount   SpliceType  LeftGene    LeftBreakpoint  RightGene   RightBreakpoint
THRA--AC090627.1    27  93  ONLY_REF_SPLICE THRA^ENSG00000126351.8  chr17:38243106:+    AC090627.1^ENSG00000235300.3    chr17:46371709:+
THRA--AC090627.1    5   93  ONLY_REF_SPLICE THRA^ENSG00000126351.8  chr17:38243106:+    AC090627.1^ENSG00000235300.3    chr17:46384693:+
ACACA--STAC2    12  51  ONLY_REF_SPLICE ACACA^ENSG00000132142.15    chr17:35479453:-    STAC2^ENSG00000141750.6 chr17:37374426:-
RPS6KB1--SNF8   10  43  ONLY_REF_SPLICE RPS6KB1^ENSG00000108443.9   chr17:57970686:+    SNF8^ENSG00000159210.5  chr17:47021337:-
TOB1--SYNRG 8   30  ONLY_REF_SPLICE TOB1^ENSG00000141232.4  chr17:48943419:-    SYNRG^ENSG00000006114.11    chr17:35880751:-
VAPB--IKZF3 4   46  ONLY_REF_SPLICE VAPB^ENSG00000124164.11 chr20:56964573:+    IKZF3^ENSG00000161405.12    chr17:37934020:-
ZMYND8--CEP250  2   44  ONLY_REF_SPLICE ZMYND8^ENSG00000101040.15   chr20:45852970:-    CEP250^ENSG00000126001.11   chr20:34078463:+
AHCTF1--NAAA    3   38  ONLY_REF_SPLICE AHCTF1^ENSG00000153207.10   chr1:247094880:-    NAAA^ENSG00000138744.10 chr4:76846964:-
VAPB--IKZF3 1   46  ONLY_REF_SPLICE VAPB^ENSG00000124164.11 chr20:56964573:+    IKZF3^ENSG00000161405.12    chr17:37944627:-
VAPB--IKZF3 1   46  ONLY_REF_SPLICE VAPB^ENSG00000124164.11 chr20:56964573:+    IKZF3^ENSG00000161405.12    chr17:37922746:-
STX16--RAE1 4   33  ONLY_REF_SPLICE STX16^ENSG00000124222.17    chr20:57227143:+    RAE1^ENSG00000101146.8  chr20:55929088:+

这些结果文件导入R里面统一用import系列函数，比如：

library(chimeraviz)

# Get reference to results file from deFuse
defuse833ke <- system.file(
  "extdata",
  "defuse_833ke_results.filtered.tsv",
  package="chimeraviz")

# Load the results file into a list of fusion objects
fusions <- importDefuse(defuse833ke, "hg19")

## ---- message = FALSE------------------------------------------------------
length(fusions)

基因组全局可视化

soapfuse833ke <- system.file(
  "extdata",
  "soapfuse_833ke_final.Fusion.specific.for.genes",
  package = "chimeraviz")
fusions <- importSoapfuse(soapfuse833ke, "hg38", 10)
# Plot!
plotCircle(fusions)

主要是一个环形图，如下：

红色条带-染色体内融合，蓝色条带-染色体间融合。

单独可视化某个融合事件


if(!exists("defuse833ke"))
  defuse833ke <- system.file(
    "extdata",
    "defuse_833ke_results.filtered.tsv",
    package = "chimeraviz")
fusions <- importDefuse(defuse833ke, "hg19", 1)
# Choose a fusion object
fusion <- getFusionById(fusions, 5267)
# Load edb
if(!exists("edbSqliteFile"))
  edbSqliteFile <- system.file(
    "extdata",
    "Homo_sapiens.GRCh37.74.sqlite",
    package="chimeraviz")
edb <- ensembldb::EnsDb(edbSqliteFile)
# bamfile with reads in the regions of this fusion event
if(!exists("fusion5267and11759reads"))
  fusion5267and11759reads <- system.file(
    "extdata",
    "fusion5267and11759reads.bam",
    package = "chimeraviz")
# Plot!
plotFusion(
  fusion = fusion,
  bamfile = fusion5267and11759reads,
  edb = edb,
  nonUCSC = TRUE)

## ---- echo = FALSE, message = FALSE, fig.height = 5, fig.width = 10, dev='png'----
# Plot!
plotFusion(
  fusion = fusion,
  bamfile = bamfile5267,
  edb = edb,
  nonUCSC = TRUE,
  reduceTranscripts = TRUE)

这个可视化比较复杂一点，需要融合基因的事件详情，包含两个融合基因的bam片段文件，以及参考基因组的数据库信息。

然后有两种展现方式，一种是基于转录本的融合情况，一种是基于基因

RCC1-HENMT1融合例子。

顶部：显示融合的染色体位置。支持断裂点（红色曲线）的discordant reads数10（其中split的6，spanning的4），注释的转录本及read数图。

用LeafCutter探索转录组数据的可变剪切

ulwvfje — Fri, 05 Jan 2018 01:49:59 +0000

用LeafCutter探索转录组数据的可变剪切

该软件早在2016年就公布了，发表在biorxiv预印本上面，但直到2017年的双11，才发表在NG上面，文章是 : Annotation-free quantification of RNA splicing using LeafCutter 最大的特点应该是不需要参考基因组的基因注释信息了吧，就是gtf/gff文件可以省略，当然，比对还是需要的。它还有另外一个非常重要的功能，splicing quantitative trait loci (sQTLs) 但是跟我目前关系不大，就不介绍了。

背景介绍

目前主流的探究转录组数据的可变剪切的算法要么是基于estimate isoform ratios 或者 exon inclusion levels ，但是挑战还是蛮多的，可变剪切本跟正常转录本重合的比例很大，技术误差也是有的，依赖于基因现有的注释信息，既不准确，也不完全。所以作者开发了LeafCutter工具。

LeafCutter workflow.

First, short reads are mapped to the genome. When SNP data are available, WASP should be used to filter allele-specific reads that map with a bias.
Next, LeafCutter extracts junction reads from.bam files, identifies alternatively excised intron clusters, and summarizes intron usage as counts or proportions.
Finally, LeafCutter identifies intron clusters with differentially excised introns between two user-defined groups by using a Dirichlet-multinomial model, or maps genetic variants associated with intron excision levels by using a linear model.

作者在Genotype-Tissue Expression (GTEx) Consortium数据集上面测试了，并且把结果跟 GENCODE v19, Ensembl, and UCSC 着3大主流的基因注释信息数据库比较。还在其它数据库里面验证了，数据下载地址是：dbGaP under accession phs000424.v6.p1 (GTEx), GEO under accession GSE41637 (RNA-seq data from mammalian organs), and ENA under accession PRJEB3366 (Geuvadis).

软件下载地址：

LeafCutter software, https://github.com/davidaknowles/leafcutter;
LeafViz visualizations, https://leafcutter.shinyapps.io/leafviz/;
rheumatoid arthritis summary statistics, http://plaza.umin.ac.jp/yokada/datasource/software.htm.

软件安装及使用

最简单的就是conda进行安装了：

conda install -c davidaknowles r-leafcutter

如果安装失败，可能需要单独为它创建一个环境。

不过，它本身就是一个R包，所以在个人电脑里面的rstudio里面安装即可。

if (!require("devtools")) install.packages("devtools", repos='http://cran.us.r-project.org')
devtools::install_github("davidaknowles/leafcutter/leafcutter")

但是源代码里面有一些脚本和测试数据，所以还是要下载看看

mkdir -p ~/biosoft 
cd ~/biosoft
git clone https://github.com/davidaknowles/leafcutter
cd leafcutter
## 需要修改里面的一个脚本 scripts/bam2junc.sh 把软件路径增添进去即可

里面又是perl又是python的，感觉他们团队开发环境不统一。

第一步:bam2junc

比对一般来说，优先选择STAR等支持跨越内含子的转录组比对工具得到bam文件，运行下面的脚本即可进行批量转换：

cat bam_path.txt |while read id
do
file=$(basename $id )
sample=${file%%.*}
    echo Converting $id to $sample.junc
    sh /public/biosoft/leafcutter/scripts/bam2junc.sh  $id $sample.junc
done

得到的junc文件如下:

chr7    134840725   134843893   .   1   -
chr2    234355442   234355737   .   1   +
chr4    37828435    37831585    .   13  +
chr19   39101772    39101882    .   5   +
chr11   109735445   109827551   .   19  +
chr18   48458730    48465939    .   8   -
chr12   82751048    82752457    .   12  -
chr15   51018323    51018517    .   14  -
chr1    247323115   247335149   .   2   +
chr10   92920631    92982445    .   1   +

这个步骤有点耗时，所有的junc文件地址需要保存给下一步使用

第二步：Intron clustering

这个步骤，需要python2.7版本，这个是python的一个大坑，到现在版本仍然不统一。

ls *.junc >test_juncfiles.txt
python /public/biosoft/leafcutter/clustering/leafcutter_cluster.py -j test_juncfiles.txt -m 50 -o testYRIvsEU -l 500000

几分钟就运行完毕。

得到的比较重要的文件如下：

1.3M Jan  4 17:45 testYRIvsEU_perind.counts.gz
680K Jan  4 17:45 testYRIvsEU_perind_numers.counts.gz
5.0M Jan  4 17:45 testYRIvsEU_pooled
540K Jan  4 17:45 testYRIvsEU_refined
 877 Jan  4 17:45 testYRIvsEU_sortedlibs
 854 Jan  4 17:43 test_juncfiles.txt

值得注意的是 testYRIvsEU_perind_numers.counts.gz 文件，里面每一行都是一个内含子，每一列都是一个样本，写明了它们的表达值，这些数值就可以用来做可变剪切分析。

 #  zcat testYRIvsEU_perind_numers.counts.gz |tail
chr8:145651155:145651305:clu_6538 21 14 19 8 9 0 13 33 0 0 4 0 5 8 12 0 12 34 15 0 0 10 11
chr8:145651155:145651409:clu_6538 1021 611 186 190 294 284 681 89 222 57 257 363 694 807 523 44 469 812 926 71 80 260 214
chr8:145652362:145653872:clu_6539 1265 694 132 74 302 71 178 34 44 12 63 122 230 218 472 6 146 1421 1084 16 14 83 46
chr8:145652654:145653872:clu_6539 48 24 56 0 26 0 13 0 2 5 2 0 3 19 17 0 2 8 64 0 0 3 0
chr8:145652674:145653872:clu_6539 18 26 0 0 0 7 2 0 5 0 0 0 1 6 11 0 3 34 37 0 0 9 6
chr8:146017525:146017630:clu_6540 2 3 44 0 2 12 4 0 0 0 22 5 9 10 2 0 1 9 11 0 0 1 0
chr8:146017525:146017751:clu_6540 1067 671 620 41 295 347 224 89 62 33 262 136 229 223 356 17 288 480 1842 9 35 70 23
chr8:146076780:146078224:clu_6541 18 3 0 0 17 17 8 0 0 3 2 3 16 6 12 0 4 45 29 9 0 10 2
chr8:146076780:146078378:clu_6541 22 17 0 0 0 3 1 0 0 0 3 2 15 7 2 0 7 62 55 0 0 4 0
chr8:146076780:146078757:clu_6541 10 1 16 0 12 52 0 0 11 0 24 9 27 3 0 0 7 0 28 0 0 2 0

第三步：制作分组矩阵进行差异分析

避免暴露我真实的项目，这里就给作者的示例文件吧：

RNA.NA18486_YRI.chr1.bam YRI
RNA.NA18487_YRI.chr1.bam YRI
RNA.NA18488_YRI.chr1.bam YRI
RNA.NA18489_YRI.chr1.bam YRI
RNA.NA18498_YRI.chr1.bam YRI
RNA.NA06984_CEU.chr1.bam CEU
RNA.NA06985_CEU.chr1.bam CEU
RNA.NA06986_CEU.chr1.bam CEU
RNA.NA06989_CEU.chr1.bam CEU
RNA.NA06994_CEU.chr1.bam CEU

很简单的两列文件，说明每一个样本属于哪个组即可。

 /public/biosoft/leafcutter/scripts/leafcutter_ds.R --num_threads 4 \
 --exon_file=/public/biosoft/leafcutter/leafcutter/data/gencode19_exons.txt.gz \
testYRIvsEU_perind_numers.counts.gz group_info.txt

这里的group_info.txt 就是自己制作好的分组矩阵。值得提醒的是，上面的文件有且只能有2个分组，这样软件才知道怎么样去比较，如果自己的分组很多，可以考虑制作多个分组文件，运行多次。

当然，上面的脚本已经没有必要在linux服务器里面运行啦。

既然有了内含子的表达矩阵，又有了分组信息，差异分析根本就不会消耗多少计算资源，全部下载到自己的电脑里面去做吧。

自己打开文件 /public/biosoft/leafcutter/scripts/leafcutter_ds.R 就明白了整个流程。

也是几分钟就完成了全部结果。

Running differential splicing analysis...
Differential splicing summary:
                                             statuses Freq
1 <2 introns used in >=min_samples_per_intron samples  425
2                          <=1 sample with coverage>0   62
3               <=1 sample with coverage>min_coverage  939
4                            Not enough valid samples 3047
5                                             Success 2068
Saving results...
Loading exons from /Users/jmzeng/biosoft/leafcutter/leafcutter/data/gencode19_exons.txt.gz
All done, exiting

得到的文件里面，需要详细了解的是 leafcutter_ds_cluster_significance.txt 主要靠自己看readme啦。

第四步：可视化那些可变剪切

也是包装好的脚本。

 /Users/jmzeng/biosoft/leafcutter/scripts/ds_plots.R -e  /Users/jmzeng/biosoft/leafcutter/leafcutter/data/gencode19_exons.txt.gz testYRIvsEU_perind_numers.counts.gz   group_info.txt leafcutter_ds_cluster_significance.txt -f 0.05

所有的可变剪切形式都会可视化在一张PDF图里面。如下：

使用SGSeq探索可变剪切

ulwvfje — Thu, 14 Dec 2017 03:17:11 +0000

可变剪切是指mRNA前体以多种方式将exon连接在一起的过程。由于可变剪切使一个基因产生多个mRNA转录本，不同mRNA可能翻译成不同蛋白。

可变剪切背景知识

转录组一般是指从细胞或组织的基因组所转录出来的RNA的总和，包括编码蛋白质的mRNA和各种非编码RNA（rRNA,tRNA,snRNA,snoRNA,lncRNA,microRNA等）。真核生物的基因结构是不连续的，如下图：

其基因组最初的转录产物其实并不是成熟的mRNA分子，而是它的前体pre-mRNA，那么怎么变成成熟的mRNA呢，就需要从pre-mRNA中将非编码蛋白质的内含子（intron）切除，然后拼接剩下的编码蛋白质的外显子（exon）。但实际上，在这个过程中，有多种多样的前切和拼接方式，从而产生不同的剪切异构体，也就咱们要说的可变剪切。

可变剪切的形式复杂多样，大致可以分为5大类。

第一类是外显子跳跃型（exon skipping），发生跳跃的外显子和其两侧的内含子都被剪切掉，上游和下游的外显子被直接连着一起保留在剪切后的产物中。
第二类是内含子滞留型（intron retention），某一段核苷酸序列在一个剪切体中是外显子的一部分，而在与之对照的剪切体中却是内含子而被剪切掉。
第三类是可变5’或3’端剪切（alternative 5’ss splice or alternative 3’ss splice，其中5’ss称供体位点，3’ss称受体位点），和与它对照的另一个剪切体相比，发生剪切的位点在5’或3’端不同，除此，其他剪切选择一致。
第四类是转录起始区域可变剪切（alternative TSS），发生剪切的位点在转录起始区域，即与之对应的另一个剪切体除转录起始位点不同外，其余一致。
第五类是转录终止区域可变剪切（alternative TTS），与第四类对应，发生剪切的位点只是在转录终止位点不同。

软件算法

比较旧的分析可变剪切的软件主要有SpliceR、SpliceGrapher、ASprofile以及Splicing Express等，它们是基于cufflinks软件的结果，将reads回帖到基因组序列后，根据位置和长度及结构信息，来确定或预测可能的剪切体的类型。目前主流已经不再使用tophat+cufflinks流程了。

SGSeq流程

这里介绍一下SGSeq软件，输入文件是bam，但是需要用支持转录组数据比对的工具得到的bam文件，比如

GSNAP (T. D. Wu and Nacu 2010)
HISAT (Kim, Langmead, and Salzberg 2015)
STAR (Dobin et al. 2013)

其实是需要bam文件里面有XS 这样的标记！

SGSeq包的安装说明，使用方法都可以见官网：

HTML	R Script	SGSeq
PDF		Reference Manual
Text		NEWS

需要bam文件

安装好包之后可以看到附带的数据，如下：

jianmingzengs-iMac:IGV_2.3.98 jmzeng$ cd /Library/Frameworks/R.framework/Versions/3.4/Resources/library/SGSeq/extdata/bams/
jianmingzengs-iMac:bams jmzeng$ ls -lh
total 1952
-rw-r--r-- 1 jmzeng admin 54K Nov 1 01:26 N1.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 N1.bam.bai
-rw-r--r-- 1 jmzeng admin 86K Nov 1 01:26 N2.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 N2.bam.bai
-rw-r--r-- 1 jmzeng admin 75K Nov 1 01:26 N3.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 N3.bam.bai
-rw-r--r-- 1 jmzeng admin 92K Nov 1 01:26 N4.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 N4.bam.bai
-rw-r--r-- 1 jmzeng admin 75K Nov 1 01:26 T1.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 T1.bam.bai
-rw-r--r-- 1 jmzeng admin 90K Nov 1 01:26 T2.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 T2.bam.bai
-rw-r--r-- 1 jmzeng admin 65K Nov 1 01:26 T3.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 T3.bam.bai
-rw-r--r-- 1 jmzeng admin 75K Nov 1 01:26 T4.bam
-rw-r--r-- 1 jmzeng admin 43K Nov 1 01:26 T4.bam.bai

这些bam文件之所以这么小，就是因为作者只是截取了hg19的部分数据，坐标是16 [87362942, 87425708]

需要注释文件

需根据bioconductor里面的txdb对象来构建比对文件的参考基因组，参考注释信息。如果是hg19的可以如下：

library(TxDb.Hsapiens.UCSC.hg19.knownGene)
txdb <- TxDb.Hsapiens.UCSC.hg19.knownGene
txdb <- keepSeqlevels(txdb, "chr16")
seqlevelsStyle(txdb) <- "NCBI"
txf_ucsc <- convertToTxFeatures(txdb)
txf_ucsc <- txf_ucsc[txf_ucsc %over% gr]
head(txf_ucsc)
type(txf_ucsc)
head(txName(txf_ucsc))
head(geneName(txf_ucsc))

主要就是通过convertToTxFeatures()函数把 GRanges 对象转化成了一个TxFeatures对象，用来标记下面5种类型：

J (splice junction)
I (internal exon)
F (first/5′′-terminal exon)
L (last/5′′-terminal exon)
U (unspliced transcript).

再用 convertToSGFeatures() 函数把TxFeatures对象转化成SGFeatures 对象，用来标记

J (splice junction)
E (disjoint exon bin)
D (splice donor site)
A (splice acceptor site).

运行SGSeq软件

sgfc_ucsc <- analyzeFeatures(si, features = txf_ucsc)
sgfc_ucsc

因为软件包自带的数据非常小，所以很容易就运行完毕，不知道真实情况下我的16G的bam文件会处理多久。

探索处理结果

也是全部在R语言里面运行即可，下面的这些函数用来探索分析结果，这些表达矩阵就写明了每个基因的每个外显子的表达量以及两个外显子中间夹着的内含子的表达情况。

也就是说该软件在R里面就对所有的genomic features 进行了reads的计数。

colData(sgfc_ucsc)
rowRanges(sgfc_ucsc)
head(counts(sgfc_ucsc))
head(FPKM(sgfc_ucsc))

可变剪切形式的可视化

挑选其中一个基因，可视化表达差异情况

df <- plotFeatures(sgfc_ucsc, geneID = 1)
# 下面是复杂一点的可视化
sgfc_pred <- analyzeFeatures(si, which = gr)
head(rowRanges(sgfc_pred))
sgfc_pred <- annotate(sgfc_pred, txf_ucsc)
head(rowRanges(sgfc_pred))
df <- plotFeatures(sgfc_pred, geneID = 1, color_novel = "red")

这个是作者精选挑选的特殊的例子用来展现软件的成功，事实上应该是先全局检查哪些可变剪切存在，然后输出

## 下面是另外一个展现模式：
par(mfrow = c(5, 1), mar = c(1, 3, 1, 1))
plotSpliceGraph(rowRanges(sgfc_pred), geneID = 1, toscale = "none", color_novel = "red")
for (j in 1:4) {
 plotCoverage(sgfc_pred[, j], geneID = 1, toscale = "none")
}

从可变剪切预测结果里面鉴别剪切体

Instead of considering the full splice graph of a gene, the analysis can be focused on individual splice events. Function analyzeVariants() recursively identifies splice events from the graph, obtains representative counts for each splice variant, and computes estimates of relative splice variant usage, also referred to as ‘percentage spliced in’ (PSI or Ψ) (Venables et al. 2008, Katz et al. (2010)). （涉及到了一个算法的问题）

sgvc_pred <- analyzeVariants(sgfc_pred)
sgvc_pred
mcols(sgvc_pred)
variantFreq(sgvc_pred)
plotVariants(sgvc_pred, eventID = 1, color_novel = "red")
library(BSgenome.Hsapiens.UCSC.hg19)
seqlevelsStyle(Hsapiens) <- "NCBI"
vep <- predictVariantEffects(sgv_pred, txdb, Hsapiens)
vep

外显子测序流程-文章里面的

ulwvfje — Tue, 14 Nov 2017 07:11:34 +0000

就是做一个图床而已，需要这个图片的网页url链接，没别的意思！

一、质控（fastqc +tookit）

1数据质量：

1）碱基质量分布

2）reads质量分布

3）reads长度分布

4）GC含量

2数据过滤

1）原始reads数

2）平均质量值>Q20 reads数目和比例

3）平均质量值>Q30 reads数目和比例

4）过滤掉reads中碱基质量

二、比对（bwa）

1）比对上基因组的reads数及占总数的比例

2）完全匹配的reads数

3）匹配上各个染色体的reads数

4）染色体上的覆盖深度

5）落在目标区域（exon）的reads数

6）落在目标区域+-100的reads数

7）目标区域碱基覆盖深度

8）目标区域碱基被覆盖比例

9）目标区域碱基被覆盖（50X，100X，150X，200X。。。）的比例

三、find SNV（samtools +picard+gatk+varscan）

1）picard ：sam >sort.bam

2）gatk ：sort.bam >sort.dedup.bam (去重复)

3）gatk ：sort.dedup.bam > realign.bam (重新比对，indel和snp校正)

4）Gatk ：碱基质量重打分。（未进行）

5）Varscan ：call SNV

四、突变注释

1）annovar注释。

2）注释结果统计（同义，非同义突变，基因上下游，内含子，外显子上。。等）

3）dbsnp 注释（找到的snp是否在dbsnp数据库上）

4） cosmic63 ：癌症相关突变

五、突变分析

1）snv在个染色体上的分布

2）各基因上snv的分布

3）Snv位点较多的基因进行功能分析（pathway，kegg的通路分析和Go功能富集）

850K甲基化芯片数据的分析

ulwvfje — Wed, 08 Nov 2017 02:53:14 +0000

公众号文章，作者是北京基因组所，任云晓

本文是看到生信技能树有个450K甲基化芯片数据处理传送门，我呢，恰好不久前用一个集成度很高的ChAMP包分析过850K的甲基化芯片数据。所以，就想着把自己的笔记整理下，可以和更多的小伙伴学习交流，还有个原因可能是因为这是四月份打算学生信时，接手的第一个任务，曲曲折折好几个月才跑通流程，遇到的坑也比较多，想记录下来。

我之前分析时是参考ChAMP包的源文档，非常详细的整个流程的介绍，但是，在笔记快整理完时突然发现作者的博客也写过一篇介绍的文章，博客里写的不像源文档很官方，这里面有很多作者很直白的解释和补充，还有作者一些很深刻的思考。看了之后发现自己对很多分析理解的还不是很深刻。所以如果想学甲基化芯片数据分析的小伙伴可以以官方源文档和作者的博客为主，这篇笔记仅仅作为额外的参考吧。

ChAMP的源文档：https://bioconductor.org/packages/release/bioc/vignettes/ChAMP/inst/doc/ChAMP.html

作者的博客：http://blog.csdn.net/joshua_hit/article/details/54982018

ChAMP包的github: https://github.com/Bioconductor-mirror/ChAMP/search?utf8=%E2%9C%93&q=ChAMP&type=

Illumina甲基化芯片目前仍是很多实验室做甲基化项目的首选，尤其是对于大样本研究而言，其性价比相当高；目前在临床上应用还是很广的。这种芯片的发展主要经历了27K、450K以及850K（27K，450K，850K指能测到的CpG甲基化位点），目前积累的数据主要是450K芯片的，之后850K可能会成为甲基化芯片的主流。楼主之前写过一篇450K芯片预处理的帖子，其中很详细介绍了这种芯片的基础知识以及流程图和代码，大家可以先看看。芯片的处理流程一般就是：数据读入——数据过滤——数据校正——下游分析。

数据处理一种时基于GenomeStudio（illumina开发的软件），但是只对于小样本，另一种基于R的各种package，如lumi、minfi、wateRmelon、ChAMP等。

与测序相比，芯片的处理可能对计算资源的要求不算高，主要使用的工具就是R，但是R的使用比较耗内存，尤其是处理大批量数据的时候。

Step1: 基础知识的补充

在正式分析前，我结合作业先将有关甲基化和芯片的基础知识整理了一下。

Illumina 甲基化芯片的原理及探针的设计（I型探针和II型探针)

原理：简而言之，基于亚硫酸盐处理后的DNA序列杂交的信号探测。亚硫酸盐是甲基化探测的“金标准”，不管是芯片或者甲基化测序，都要先对DNA样品进行亚硫酸盐处理，使非甲基化的C变成U，而甲基化的C保持不变，从而在后续的测序或者杂交后区分出来。

450K和850K采用了两种探针Infinium Ⅰ 和Infinium Ⅱ对甲基化进行测定，Infinium I采用了两种bead（甲基化M和非甲基化U，如图显示），而II只有一种bead（即甲基化和非甲基化在一起），这也导致了它们在后续荧光探测的不同，450K采用了两种荧光探测信号（红光和绿光）（图1）。

图1 Illumina Methylation Assay

甲基化概述：

DNA甲基化被认为是表观遗传调控的一种方式，如Cytosine methylation (5-mC)是研究最多的，被认为是哺乳动物中常见的甲基化方式, 最近有一些研究也发现了其他形式的甲基化，如2016年Nature上发表了一篇关于鼠的胚胎干细胞的m6A（N6-methyladenine）形式的甲基化。DAN甲基化被认为对基因表达，染色质重塑，细胞分化，疾病等都有重要影响（图2）。

图2 甲基化与疾病的关系及术语的描述

甲基化的检测方法：

目前甲基化检测的方法可以概括为三种：芯片、测序、免疫沉淀。具体选择何种方法主要还是根据实验目的和实验室条件了。但目前来说，甲基化芯片技术从覆盖度，检测灵敏度和价格综合考虑，还是性价比相对高的（图3）。

图3 甲基化检测方法的比较

关于甲基化芯片常见的Glossary:

CpG island: Defned as regions > 500 bp, 55% GC and expected/observed CpG ratio of > 0.65. 40% of gene promoters contain islands.

CpG shelves: ~4Kb from islands.

CpG shores: ~2Kb from islands, > 75% of tissuespecifc differentially methylated regions found in shores. Methylation in shores shows higher correlation with gene expression than CpG islands.

Differentially methylated regions (DMR): Cell-, tissue-, and condition- specifc differences in methylation.

Enhancer: A short region of DNA that can activate transcription and is often regulated by methylation.

Hypermethylation: Most cytosines are methylated.Hypomethylation: Most cytosines do not have 5-mC. Euchromatin and active gene promoters are hypomethylated.

Beta value:通常的甲基化衡量方法被称为“Beta”值; 等于甲基化百分比，并定义为“Meth”除以“Meth + Unmeth”。

CGI: CpG island 即甲基化岛。

因为手头的数据是850K的甲基化数据，之前也只接触过ChAMP包，所以这里就以ChAMP包介绍850K甲基化数据分析。ChAMP包是一个集成度很高的包，它包括450K和EPIC(即通常所说的850K)两套分析流程，完整的包括了数据的载入，标准化，矫正，差异甲基化和富集分析等功能（图4）。

图4 ChAMP Pepeline

Step2:计算机资源的准备

作业1安装好R软件及相应的包，下载R包的说明书，整理它们的官网链接。

R的使用真的很耗内存，我有28个样本（14个control, 14个case), 之前4G内存的电脑，本地分析总时半路电脑就卡死了。所以最好配置高一点，或者在服务器上下载安装R和Rstudio（这里最好安装Rstudio, 因为ChAMP包中有很多的GUI图形功能，Rstudio可以更好实现，或者含有X11功能的linux系统）。

软件的安装：

R和Rstudio 的本地安装很简单，直接到官网下载，只要注意安装时的路径不要有中文，Rstudio安装前要先安装R。

服务器版本的Rstudio安装好后，在网页地址栏输入访问地址：服务器IP:8787，用户名和密码为Linux用户的用户名和密码。

具体安装方法可以参考生信宝典陈老师的一篇文章http://www.biotrainee.com/thread-1808-1-1.html。

下载R包：

下载ChAMP 包，官网给出了很详细的流程说明（https://bioconductor.org/packages/release/bioc/vignettes/ChAMP/inst/doc/ChAMP.html）。

source("https://bioconductor.org/biocLite.R")
biocLite("ChAMP")

NOTE: ChAMP有很多依赖包，安装时，若报错有哪个包没有，就继续安装 biocLite("YourErrorPackage")，可能3-4次就可以安装成功。

导入ChAMP包并测试：

导入ChAMP包后，根据是450K的数据或者是850K的数据，导入测试数据集，走一下分析流程，检测包是否正常工作，更重要的是看该包的文档，理解每一步流程的意义。该包的文档很详细，建议大家看原文档，下面给出的啰啰嗦嗦的介绍基本上都来自官网的文档说明（https://bioconductor.org/packages/release/bioc/vignettes/ChAMP/inst/doc/ChAMP.html）。

library("ChAMP")
#450K的数据导入：
testDir=system.file("extdata",package="ChAMPdata")
myLoad <- champ.load(testDir,arraytype="450K")
#850K的数据
data(EPICSimData)

Step 3: 数据读入

数据的读入这里可能坑最多，首先450K 和850K甲基化芯片的原始数据格式都是IDAT, 因为数组是用两种不同的颜色来测量的，所以每个样本都有两个文件，通常是扩展名Grn.idat和Red.idat。数据在载入时还需要一个Sample_Sheet.csv文件（图5）（也称做pd file）, 这个文件很重要，它包含了样本的信息，可以对照测试数据的csv文件和自己的csv文件，对信息不全的地方进行补充。尤其要注意Sample_Group 这一列信息是否有，这一列信息代表你想比较的表型类型，比如癌和癌旁。另一个我遇到过的一个隐形坑在Sentrix_ID，这一列数因为数字串很长，在Excel中可能以科学计数法显示，然后本来是长数字串后两位不一样的数字串都变为一样的，在读入时就会报重复字符的错误，所以这里一定要核查下长数字串的信息，如果有错误，自己重新输入时以文档格式输入，或者前面加右单引‘。csv文件准备好后，将csv文件与所有样本的芯片数据（即IDAT文件）放在一个文件下，然后就可以正常读入了。

图5 Sample_Sheet.csv fiel

library("ChAMP")
myLoad <- champ.load("F:/850K Methylation Chip/biotree_850K/methy_rawData",arraytype = "EPIC")
save(myLoad,file="myLoad.rda")

champ.load()包含了 champ.import() 和champ.filter()，这里会自动过滤p值>0.01; probes beadcount <3 in at least 5% of samples;NoCG;probes with SNPs; MultiHit; probes located on X,Y chromosome。

在读入数据之后，最好保存，后续重复读入时会加快速度。

Step 4: 质控和标准化

CpG overview:

质控前可以先看看CpG的分布，包括在染色体上的分布；CpG岛附近的 open sea, shelf,shore (参考图2，理解具体意思) ; UTR,TSS; I 型探针和II探针上的分布（图6），这个信息对后续DMP的分析有帮助。

CpG.GUI(arraytype="EPIC")

图6 CpG Overview

质控:

然后进行质控，有两种方式：champ.QC() 和 QC.GUI()。champ.QC会产生三种类型的图（点图，beta 分布图，聚类图）以pdf格式输出，QC.GUI产生5个图，多了一个I型、II型探针图和热图（图7）。所有的GUI功能都比较耗内存，且产生的是网页交互式的图片，每幅图的右上角给的都有保存按钮，要注意的是保存时文件名要加上.png的后缀（图7）。

#champ.QC()
QC.GUI(arraytype="EPIC")

图7 QC Overview

标准化:

champ.norm 提供了四种方法：BMIQ, SWAN1, PBC2 and FunctionalNormliazation4。默认的方法是BMIQ, 且BMIQ对850K的标准化方法更好一点，所以这里我选择的是BMIQ的标准化方法，没有尝试其他的标准化方法。

myNorm <- champ.norm(arraytype="EPIC")
QC.GUI(myNorm,arraytype="EPIC")
save(myNorm,file="myNorm.rda")

SVD plot 和批次效应：

SVD(singular value decomposition) 这里用于评估数据集中变量的主要成分。这种成分可能确实是你感兴趣的生物因素，也可能是技术来源的一些变量成分（称为批次效应）（图8）。如果存在批次效应，就进行批次效应的矫正，矫正完之后可以再看看SVD plot。

champ.SVD()

图8 SVD Plot

Step 5: 差异甲基化分析（DMP & DMR & DMB)

差异分析是多数研究都要分析的，这里包括三种方法：DMP，DMR，DMB。DMP代表找出Differential Methylation Probe（差异化CpG位点），DMR代表找出Differential Methylation Region（差异化CpG区域），Block代表Differential Methylation Block（更大范围的差异化region区域）

简单来说，DMP是找出一个一个的差异甲基化CpG位点，DMR就是一个连续不断都比较长的差异片段，科学家们觉得，这样的连续差异片段，对于基因的影响会更加明显，只找这样的片段，可以使得计算生物学的打击精度更为准确，也可以让最终找出来的结论数据更少，便于实验人员筛选。另外一个类似的东西就是DMB，那个东西出现的原因是，有的科学家觉得，DMR这样的区域还不够显著，DNA上的甲基化出现变化，可能是绵延几千位点的！而且只会在基因以外的区域，但是这些基因以外的区域发生变化，却会导致基因的表达发生变化。你可以想象成，北京周边的河北在大炼钢铁，然后北京也跟着雾霾了，大概就是这意思。

DMP,DMR,DMB的结果都是基于的shiny的交互页面，左栏上方是 P-value 和 abs(logFC) ，可以选择想看的值，然后点submit, 右栏可以生成差异甲基化表，热图，feature&cgi, 左栏下方还有基因，CpG按钮，选择你想看的结果，submit, 右栏就会生成相应gene,CpG结果（图9）。

myDMP <- champ.DMP(arraytype="EPIC")
save(myDMP,file="myDMP.rda")
DMP.GUI()
myDMR <- champ.DMR(arraytype = "EPIC",method="DMRcate",cores=1)
save(myDMR,file="myDMR.rda")
DMR.GUI(arraytype="EPIC")
#myBlock <- champ.Block(arraytype = "EPIC")
#Block.GUI(arraytype="EPIC",compare.group=c("PrEC_cells","LNCaP_cells"))

图9 DMP Overview

Step 6: 基因富集和网络分析（GSEA & EpiMod）

差异甲基化分析后，你可能想知道DMP,DMR中涉及到的基因是否可以富集到某个生物功能或通路，GSEA(Gene Set Enrichment Analysis)和EpiMod（Differential Methylated Interaction Hotspots）提供了可以寻找作用通路网络中的疾病关联小网络的功能（图 10）。

myGSEA <- champ.GSEA(arraytype = "EPIC")
save(myGSEA,file="myGSEA.rda")

myEpiMod <- champ.EpiMod(arraytype="EPIC")
save(myEpiMod,file="myEpiMod.rda")

图10 EpiMod

Step 7: 拷贝数变异分析（CNA)

拷贝数变异，也就是有些基因片段被复制的此处过多或者过少，从而导致某些疾病。但是这个函数作者觉得有点粗糙，精度还不够。我试着跑了一下，时间超长（图11）。

myCNA <- champ.CNA(control = F,arraytype = "EPIC")
save(myCNA,file=myCNA)

图11 Frequency Plot of Cancer Sample

小结：如果用ChAMP包对450K或850K甲基化数据进行分析时，一是最好有个配置高一点的电脑；二是初始数据导入时，注意csv文件的格式，且要和IDAT文件放在一个文件下；其余的流程很少会遇到bug, 但最关键的是理解每一步的意义，能够根据分析的结果挖掘出想要的东西。

ps: 这次作业提供的公共数据，有IDAT文件，也有个csv文件，但是这里的csv文件和我的csv文件差别很大，不是很明白这里的csv文件是什么，有什么作用。

有不当之处欢迎指正和补充。

一个植物转录组项目的实战

ulwvfje — Thu, 02 Nov 2017 02:29:11 +0000

其实这个植物是拟南芥，所以跟人类研究的数据处理大同小异。

转录组

转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有 RNA 的总和，包括 mRNA 和非编码 RNA 。通过转录组测序，能够全面获得物种特定组织或器官的转录本信息，从而进行转录本结构研究、变异研究、基因表达水平研究以及全新转录本发现等研究。

其中，基因表达水平的探究是转录组领域最热门的方向，利用转录组数据来识别转录本和表达定量，是转录组数据的核心作用。由于这个作用，他可以不依赖其他组学信息，单独成为一个产品项目RNA-seq测序。所以很多时候转录组测序会与RNA-seq混为一谈。

现在RNA-seq数据使用广泛，但是没有一套流程可以解决所有的问题。比较值得关注的RNA-seq分析中的重要的步骤包括：实验设计，质控，read比对，表达定量，可视化，差异表达，识别可变剪切，功能注释，融合基因检测，eQTL定位等。

值得一提的是，这个教程也写的非常赞：https://github.com/twbattaglia/RNAseq-workflow

流程介绍

来自于R处理mRNA-seq数据

来自于2010发表在Genome Biology的From RNA-seq reads to differential expression results文章配图

数据来源文章

数据来自于发表在Nature commmunication 上的一篇文章 “Temporal dynamics of gene expression and histone marks at the Arabidopsis shoot meristem during flowerin”。原文用RNA-Seq的方式研究在开花阶段,芽分生组织在不同时期的基因表达变化。

原文的流程是： TopHat -> SummarizeOverlaps -> Deseq2 -> AmiGO 其中比对的参考基因组为TAIR10 ver.24 ，并且屏蔽了ribosomal RNA regions (2:3471–9557; 3:14,197,350–14,203,988)。

Deseq2只计算至少在一个时间段的FPKM的count > 1 的基因。

数据存放在http://www.ebi.ac.uk/arrayexpress/, ID为E-MTAB-5130。

实验设计： 4个时间段（0,1,2,3），分别有4个生物学重复，一共有16个样品。

数据下载

conda install -c bioconda salmon 

wget http://www.ebi.ac.uk/arrayexpress/files/E-MTAB-5130/E-MTAB-5130.sdrf.txt
head -n1 E-MTAB-5130.sdrf.txt | tr '\t' '\n' | nl | grep URI
tail -n +2 E-MTAB-5130.sdrf.txt | cut -f 33 | xargs -i wget {}


nohup wget ftp://ftp.ensemblgenomes.org/pub/plants/release-28/fasta/arabidopsis_thaliana/cdna/Arabidopsis_thaliana.TAIR10.28.cdna.all.fa.gz &

nohup wget ftp://ftp.ensemblgenomes.org/pub/plants/release-28/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.28.dna.genome.fa.gz &
nohup wget  ftp://ftp.ensemblgenomes.org/pub/plants/release-28/gff3/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.28.gff3.gz &
nohup wget ftp://ftp.ensemblgenomes.org/pub/plants/release-28/gtf/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.28.gtf.gz &

salmon 流程

软件介绍：ome of the upstream quantification methods (Salmon, Sailfish, kallisto) are substantially faster and require less memory and disk usage compared to alignment-based methods that require creation and storage of BAM files

软件官网：https://combine-lab.github.io/salmon/

先用用Salmon建立索引：

salmon index -t Arabidopsis_thaliana.TAIR10.28.cdna.all.fa.gz -i athal_index

建立索引耗时53秒，生成的索引文件夹如下：

[jianmingzeng@jade salmon]$ ls -lh
total 19M
-rw-rw-r-- 1 jianmingzeng jianmingzeng  19M Oct 17 11:18 Arabidopsis_thaliana.TAIR10.28.cdna.all.fa.gz
drwxrwxr-x 2 jianmingzeng jianmingzeng 4.0K Oct 17 11:54 athal_index
-rw-rw-r-- 1 jianmingzeng jianmingzeng  142 Oct 17 11:20 wget_cdna.sh
[jianmingzeng@jade salmon]$ ls -lh  athal_index/
total 1.1G
-rw-rw-r-- 1 jianmingzeng jianmingzeng 751M Oct 17 11:54 hash.bin
-rw-rw-r-- 1 jianmingzeng jianmingzeng  357 Oct 17 11:54 header.json
-rw-rw-r-- 1 jianmingzeng jianmingzeng  115 Oct 17 11:54 indexing.log
-rw-rw-r-- 1 jianmingzeng jianmingzeng  156 Oct 17 11:54 quasi_index.log
-rw-rw-r-- 1 jianmingzeng jianmingzeng   89 Oct 17 11:54 refInfo.json
-rw-rw-r-- 1 jianmingzeng jianmingzeng 7.8M Oct 17 11:53 rsd.bin
-rw-rw-r-- 1 jianmingzeng jianmingzeng 248M Oct 17 11:54 sa.bin
-rw-rw-r-- 1 jianmingzeng jianmingzeng  63M Oct 17 11:53 txpInfo.bin
-rw-rw-r-- 1 jianmingzeng jianmingzeng   96 Oct 17 11:54 versionInfo.json
[jianmingzeng@jade salmon]$

然后对所有数据定量

由于样本一共有16个，不可能一条条输入命令，所以我们写一个脚本：

#! /bin/bash
index=salmon/athal_index ## 指定索引文件夹
for fn in ERR1698{194..209};
do
    sample=`basename ${fn}`
    echo "Processin sample ${sampe}"
    salmon quant -i $index -l A \
        -1 ${sample}_1.fastq.gz \
        -2 ${sample}_2.fastq.gz \
        -p 5 -o quants/${sample}_quant
done

subread流程

也是首先构建索引，但是这个需要提前解压fa文件

gunzip Arabidopsis_thaliana.TAIR10.28.dna.genome.fa.gz
~/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/subread-buildindex -o athal_index   Arabidopsis_thaliana.TAIR10.28.dna.genome.fa

消耗时间也不到一分钟，生成的索引文件如下：

117M Oct 17 11:21 Arabidopsis_thaliana.TAIR10.28.dna.genome.fa
 15M Oct 17 11:41 Arabidopsis_thaliana.TAIR10.28.gff3.gz
 29M Oct 17 12:19 athal_index.00.b.array
231M Oct 17 12:19 athal_index.00.b.tab
 314 Oct 17 12:19 athal_index.files
345K Oct 17 12:18 athal_index.log

然后比对也是一个脚本批量化完成

#! /bin/bash
subjunc="/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/subjunc"; 
index='subread/athal_index';
for fn in ERR1698{194..209};
do
    sample=`basename ${fn}`
    echo "Processin sample ${sampe}" 
    $subjunc -i $index \
        -r ${sample}_1.fastq.gz \
        -R ${sample}_2.fastq.gz \
        -T 5 -o ${sample}_subjunc.bam
done

但是输出bam还不够，还需要用featureCounts对之进行定量

gff3='/home/jianmingzeng/data/public/tair/subread/Arabidopsis_thaliana.TAIR10.28.gff3.gz';
gtf='/home/jianmingzeng/data/public/tair/subread/Arabidopsis_thaliana.TAIR10.28.gtf';


featureCounts='/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/featureCounts';
$featureCounts -T 5 -p -t exon -g gene_name -a $gtf -o  counts.txt   *.bam
nohup $featureCounts -T 5 -p -t exon -g gene_id -a $gtf -o  counts_id.txt   *.bam &

这一步骤是非常快的。

比对可以有更多选择

$hisat -p 5 -x $hisat2_mm10_index -1 $fq1 -2 $fq2 -S $sample.sam 2>$sample.hisat.log
samtools sort -O bam -@ 5  -o ${sample}_hisat.bam $sample.sam

$subjunc -T 5  -i $subjunc_mm10_index -r $fq1  -R $fq2 -o ${sample}_subjunc.bam
## 比对的sam自动转为bam，但是并不按照参考基因组坐标排序

bwa mem -t 5 -M  $bwa_mm10_index $fq1 $fq2 1>$sample.sam 2>/dev/null 
samtools sort -O bam -@ 5  -o ${sample}_bwa.bam $sample.sam

$bowtie -p 5 -x $bowtie2_mm10_index -1 $fq1  -2 $fq2 | samtools sort  -O bam  -@ 5 -o - >${sample}_bowtie.bam

## star软件载入参考基因组非常耗时，约10分钟，也比较耗费内存，但是比对非常快，5M的序列就两分钟即可
$star --runThreadN  5 --genomeDir $star_mm10_index --readFilesCommand zcat --readFilesIn  $fq1 $fq2 --outFileNamePrefix  ${sample}_star 
## --outSAMtype BAM  可以用这个参数设置直接输出排序好的bam文件
samtools sort -O bam -@ 5  -o ${sample}_star.bam ${sample}_starAligned.out.sam

表达矩阵的normalization方法

统计学原理需要耗费很大功夫才能理解，主要是掌握这些normalization方法如何在R里面实现，还有它们的简单比较。

Total count (TC): Gene counts are divided by the total number of mapped reads (or library size) associated with their lane and multiplied by the mean total count across all the samples of the dataset.
Upper Quartile (UQ): Very similar in principle to TC, the total counts are replaced by the upper quartile of counts different from 0 in the computation of the normalization factors.
Median (Med): Also similar to TC, the total counts are replaced by the median counts different from 0 in the computation of the normalization factors. That is, the median is calculated as the median of gene counts of all runs.
DESeq: This normalization method is included in the DESeq Bioconductor package and is based on the hypothesis that most genes are not DE. The method is based on a negative binomial distribution model, with variance and mean linked by local regression, and presents an implementation that gives scale factors. Within the DESeq package, and with the estimateSizeFactorsForMatrixfunction, scaling factors can be calculated for each run. After dividing gene counts by each scaling factor, DESeq values are calculated as the total of rescaled gene counts of all runs.
Trimmed Mean of M-values (TMM): This normalization method is implemented in the edgeR Bioconductor package (Robinson et al., 2010). It is also based on the hypothesis that most genes are not DE. Scaling factors are calculated using the calcNormFactors function in the package, and then rescaled gene counts are obtained by dividing gene counts by each scaling factor for each run. TMM is the sum of rescaled gene counts of all runs.
Quantile (Q): First proposed in the context of microarray data, this normalization method consists in matching distributions of gene counts across lanes.
Reads Per Kilobase per Million mapped reads (RPKM): This approach was initially introduced to facilitate comparisons between genes within a sample and combines between- and within-sample normalization. This approach quantifies gene expression from RNA-Seq data by normalizing for the total transcript length and the number of sequencing reads.

差异分析

也是有很多种选择，主要是继承自上面的normalization方法，一般来说挑选好了normalization方法就决定了选取何种差异分析方法，也并不强求弄懂统计学原理，它们都被包装到了对应的R包里面，主要是对R包的学习。

edgeR (Robinson et al., 2010)
DESeq / DESeq2 (Anders and Huber, 2010, 2014)
DEXSeq (Anders et al., 2012)
limmaVoom
Cuffdiff / Cuffdiff2 (Trapnell et al., 2013)
PoissonSeq
baySeq

首先提取样本的分组信息

tail -n +2 E-MTAB-5130.sdrf.txt | cut -f 32,36 |sort -u

制作表达矩阵

这个表达矩阵，就是上游的比对+定量得到的，但是要按照下面的规则做成\t分割的txt文档，如下：

	SRR1039508	SRR1039509	SRR1039512	SRR1039513	SRR1039516	SRR1039517	SRR1039520	SRR1039521
ENSG00000000003	679	448	873	408	1138	1047	770	572
ENSG00000000005	0	0	0	0	0	0	0	0
ENSG00000000419	467	515	621	365	587	799	417	508
ENSG00000000457	260	211	263	164	245	331	233	229
ENSG00000000460	60	55	40	35	78	63	76	60
ENSG00000000938	0	0	2	0	1	0	0	0
ENSG00000000971	3251	3679	6177	4252	6721	11027	5176	7995
ENSG00000001036	1433	1062	1733	881	1424	1439	1359	1109
ENSG00000001084	519	380	595	493	820	714	696	704
ENSG00000001167	394	236	464	175	658	584	360	269
ENSG00000001460	172	168	264	118	241	210	155	177
ENSG00000001461	2112	1867	5137	2657	2735	2751	2467	2905
ENSG00000001497	524	488	638	357	676	806	493	475
ENSG00000001561	71	51	211	156	23	38	134	172

第一列是基因ID，后面的列是各个样本。其中第一行尤为注意，最开头是一个空格(了解R里面read.table函数原理)

制作分组矩阵

	dex	SampleName	cell
SRR1039508	untrt	GSM1275862	N61311
SRR1039509	trt	GSM1275863	N61311
SRR1039512	untrt	GSM1275866	N052611
SRR1039513	trt	GSM1275867	N052611
SRR1039516	untrt	GSM1275870	N080611
SRR1039517	trt	GSM1275871	N080611
SRR1039520	untrt	GSM1275874	N061011
SRR1039521	trt	GSM1275875	N061011

记住要跟上面的表达矩阵的样本名对应！！！

只有第一列是需要看的，其余的无所谓。

根据分组信息，是需要自己指定比对信息的，比如上面的分组矩阵，需要指定 -c 'trt-untrt'

下载差异分析脚本

wget  https://raw.githubusercontent.com/jmzeng1314/my-R/master/DEG_scripts/run_DEG.R
wget  https://raw.githubusercontent.com/jmzeng1314/my-R/master/DEG_scripts/tair/exprSet.txt
wget  https://raw.githubusercontent.com/jmzeng1314/my-R/master/DEG_scripts/tair/group_info.txt
Rscript ../run_DEG.R -e exprSet.txt -g group_info.txt -c 'Day1-Day0' -s counts  -m DESeq2

如果是转录组的raw counts数据，就选择 -s counts，如果是芯片等normalization好的表达矩阵数据，用默认参数即可。下面是例子：

# Rscript run_DEG.R -e airway.expression.txt -g airway.group.txt -c 'trt-untrt' -s counts -m DESeq2
# Rscript run_DEG.R -e airway.expression.txt -g airway.group.txt -c 'trt-untrt' -s counts -m edgeR
# Rscript run_DEG.R -e sCLLex.expression.txt -g sCLLex.group.txt -c 'progres.-stable'
# Rscript run_DEG.R -e sCLLex.expression.txt -g sCLLex.group.txt -c 'progres.-stable' -m t.test

对于转录组的raw counts数据，有DEseq2包和edgeR包可供选择。对于芯片等normalization好的表达矩阵数据，有limma和t.test供选择。

关于选择哪一组样本与哪一组样本比较，其实可以非常复杂，比如：http://genomicsclass.github.io/book/pages/expressing_design_formula.html

重要的脚本

比如 create_testData.R 里面有如何得到表达矩阵和分组矩阵的内容。

富集分析

这里不想讲解了，跟人类的基因的富集分析还有一点区别的。

其它数据

比如：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE89843 测定了402个NSCLC病人和377个正常人的血小板的转录组，数据分析方法如下：

For further downstream analyses, reads were quality-controlled using Trimmomatic, mapped to the humane reference genome using STAR, and intron-spanning reads were summarized using HTseq.

这个数据量要重分析，对计算资源要求就比较高了，但是可以直接下载作者分析好的表达矩阵： ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE89nnn/GSE89843/suppl/GSE89843_TEP_Count_Matrix.txt.gz

而且表达矩阵的后续分析也不仅仅是差异表达那么简单，毕竟测了如此多的样本。

史上最快的转录组流程-subread

ulwvfje — Thu, 19 Oct 2017 14:10:29 +0000

史上最快的转录组流程-subread

安装软件

二进制版本软件，直接找到官网下载解压即可使用。

cd ~/biosoft
# http://bioinf.wehi.edu.au/featureCounts/
mkdir featureCounts &&  cd featureCounts
## 之前以为这个软件就是用来计算表达量的，所以把文件夹取名为 featureCounts
wget https://sourceforge.net/projects/subread/files/subread-1.5.3/subread-1.5.3-Linux-x86_64.tar.gz
tar zxvf subread-1.5.3-Linux-x86_64.tar.gz

建立索引

每个比对工具的算法不一样，所以每个工具都需要对参考基因组建立自己的索引。本身参考基因组占一篇空间就不小，索引之后更大!

需要自行从UCSC下载参考基因组，我放在了~/reference/genome/ 目录

buildindex=~/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/subread-buildindex
cd /home/jianmingzeng/reference/index/subread/
$buildindex -o mm10  ~/reference/genome/mm10/mm10.fa
$buildindex -o hg19  ~/reference/genome/hg19/hg19.fa
$buildindex -o hg38  ~/reference/genome/hg38/hg38.fa

得到的索引文件如下：

749M Sep 15 17:37 hg19.00.b.array
4.9G Sep 15 17:37 hg19.00.b.tab
5.5K Sep 15 17:33 hg19.files
   0 Sep 15 17:17 hg19.log
2.3K Sep 15 17:38 hg19.reads
766M Sep 15 18:01 hg38.00.b.array
5.0G Sep 15 18:01 hg38.00.b.tab
 29K Sep 15 17:57 hg38.files
   0 Sep 15 17:38 hg38.log
 14K Sep 15 18:01 hg38.reads
652M Sep 15 17:17 mm10.00.b.array
4.4G Sep 15 17:17 mm10.00.b.tab
3.9K Sep 15 17:13 mm10.files
   0 Sep 15 16:52 mm10.log
1.6K Sep 15 17:17 mm10.reads

批量比对

做好一个配置文件，就可以运行下面的脚本。

subjunc="/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/subjunc"; 
subjunc_mm10_index='/home/jianmingzeng/reference/index/subread/mm10';

cat $config |while read id
do
    arr=($id)
    fq1=${arr[1]}
    fq2=${arr[2]}
    sample=${arr[0]}
    echo "  start alignment for $sample" `date`
    #$hisat -p 5 -x $mm10_index -1 $fq1 -2 $fq2 -S $sample.sam 2>$sample.hisat.log
    #samtools sort -O bam -@ 5  -o $sample.bam $sample.sam
    $subjunc -T 5  -i $subjunc_mm10_index -r $fq1  -R $fq2 -o ${sample}_subjunc.bam
    echo "  end alignment for $sample" `date`
done

配置文件就3列，第一列是样本名，第二列是该样本的fastq1，第二列是fastq2。多个样本的样本名不运行重复。

之前我以为hisat就很快了，换成了这个subjunc才知道没有最快，只有更快。

批量计算表达量

mm10_gtf='/home/jianmingzeng/reference/gtf/gencode/gencode.vM12.annotation.gtf';
featureCounts='/home/jianmingzeng/biosoft/featureCounts/subread-1.5.3-Linux-x86_64/bin/featureCounts';
$featureCounts -T 5 -p -t exon -g gene_id -a $mm10_gtf -o  counts.txt   *.bam

实在是没有想到这个软件居然会如此快，1M的reads耗时三五秒即可，甩之前的htseq-counts好几条街。

还有更多计算的模型和参数可以供挑选；http://bioinf.wehi.edu.au/featureCounts/

基因组重测序的unmapped reads assembly探究

ulwvfje — Sat, 02 Sep 2017 12:16:55 +0000

基因组重测序的unmapped reads assembly探究

主要参考这篇文章的图4：http://www.nature.com/ng/journal/v42/n11/fig_tab/ng.691_F4.html

这是2010年发表于nature genetics杂志的Whole-genome sequencing and comprehensive variant analysis of a Japanese individual using massively parallel sequencing 虽然文章选择的是SOAPdenovo,ABySS,Velvet这3款软件来进行组装，但毕竟是2010年的文章了，现在其实有更好的选择，比如Minia

选择Minia工具来组装

Minia软件也是基于de Bruijn图原理的短序列组装工具，优于以前的ABySS和SOAPdenovo，所以这里就选择它啦。

下载安装Minia

安装官网的指导说明书下载二进制版本即可，代码如下：

## Download and install Minia
# http://minia.genouest.org/
cd ~/biosoft
mkdir Minia &&  cd Minia
wget https://github.com/GATB/minia/releases/download/v2.0.7/minia-v2.0.7-bin-Linux.tar.gz 
tar -zxvf minia-v2.0.7-bin-Linux.tar.gz 
~/biosoft/Minia/minia-v2.0.7-bin-Linux/bin/minia --help 
## eg: ./minia -in reads.fa -kmer-size 31 -abundance-min 3 -out output_prefix

软件使用方法也非常简单，就一行命令，其中最佳-kmer-size需要用KmerGenie来确定。

使用

step1:提取比对失败的reads

samtools view -f4 jmzeng_recal.bam |perl -alne '{print "\@$F[0]\n$F[9]\n+\n$F[10]" }' >unmapped.fq

perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-lite.pl -verbose -fastq unmapped.fq -graph_data unmapped.gd -out_good null -out_bad null
perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-graphs.pl -i unmapped.gd -png_all -o unmapped
perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-graphs.pl -i unmapped.gd -html_all -o unmapped

cd ~/data/project/myGenome/gatk/jmzeng/unmapped

共31481084/4=7870271，仅仅是7.8M的reads

step2: 用KmerGenie确定kmer值

KmerGenie estimates the best k-mer length for genome de novo assembly.

KmerGenie predictions can be applied to single-k genome assemblers (e.g. Velvet, SOAPdenovo 2, ABySS, Minia).

## http://kmergenie.bx.psu.edu/
cd ~/biosoft
mkdir KmerGenie &&  cd KmerGenie
wget http://kmergenie.bx.psu.edu/kmergenie-1.7044.tar.gz
tar zxvf kmergenie-1.7044.tar.gz
cd kmergenie-1.7044
make 
python setup.py install --user
~/.local/bin/kmergenie --help 
cd ~/data/project/myGenome/gatk/jmzeng/unmapped
~/.local/bin/kmergenie unmapped.fq

step3: 运行Minia

cd ~/data/project/myGenome/gatk/jmzeng/unmapped
~/biosoft/Minia/minia-v2.0.7-bin-Linux/bin/minia  -in unmapped.fq -kmer-size 31 -abundance-min 3 -out output_prefix

7.8M的reads组装之后有272007条contigs

组装之后：

Prinseq v0.20.4 was used to calculate assembly statistics, including N50 contig size, GC content

cd ~/data/project/myGenome/gatk/jmzeng/unmapped

perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-lite.pl -verbose -fasta output_prefix.contigs.fa  -graph_data contigs.gd -out_good null -out_bad null 
perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-graphs.pl -i contigs.gd -png_all -o contigs
perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-graphs.pl -i contigs.gd -html_all -o contigs
perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-lite.pl -verbose -fasta output_prefix.contigs.fa  -stats_assembly

就是给出一些指标，如下；

stats_assembly  N50 176
stats_assembly  N75 113
stats_assembly  N90 78
stats_assembly  N95 70

Input Information

Input file(s):	output_prefix.contigs.fa
Input format(s):	FASTA
# Sequences:	272,007
Total bases:	44,868,011

Length Distribution

Mean sequence length:	164.95 ± 204.44 bp
Minimum length:	63 bp
Maximum length:	10,187 bp
Length range:	10,125 bp
Mode length:	150 bp with 16,461 sequences

然后用RNA-SEQ数据来比对验证！以后再讲

把组装好的contigs拿去NCBI做blast看看物种分布,Distribution of top nucleotide BLAST hits by species from the NCBI nr database for 1000 random contigs in the assembly！其实上面的prinseq软件也简单的给出了一个污染物种分布情况表，但是这个原理不一样。以后再讲

一个MeDIP-seq实战-超级简单-2小时搞定！

ulwvfje — Wed, 15 Feb 2017 06:34:38 +0000

请不要直接拷贝我的代码，需要自己理解，然后打出来，思考我为什么这样写代码。

软件请用最新版，尤其是samtools等被我存储在系统环境变量的，考虑到读者众多，一般的软件我都会自带版本信息的！

我用两个小时，不代表你是两个小时就学会，有些朋友反映学了两个星期才学会，这很正常，没毛病，不要异想天开两个小时就达到我的水平。

MeDIP-seq 跟ChIP-seq的分析手段是一模一样的，同理hMeDIP-seq，caMeDIP-seq等等，都没有本质上的区别，只是用的抗体不一样而已，请自行搜索基础知识，我只讲数据分析。

一个ChIP-seq实战-超级简单-2小时搞定！

一个RNA-seq实战-超级简单-2小时搞定！

请先看看我前面写的系列，对我而言很简单，因为软件我都安装了，数据我都下载好了，代码我都看得懂，对你，不一定简单，有朋友反映学了两个星期才弄懂，但至少，是可以弄懂的！

paper是Dnmt3L antagonizes DNA methylation at bivalent promoters and favors DNA methylation at gene bodies in ESCs.：https://www.ncbi.nlm.nih.gov/pubmed/24074865 发表在2013年CELL杂志上面，值得重复！

MeDIP-seq 数据在：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE44642

首先下载raw data数据：

wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP018/SRP018845/SRR764931/SRR764931.sra

wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP018/SRP018845/SRR764932/SRR764932.sra

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;done

用fastqc看了看数据质量，发现质量非常赞，我就不需要过滤reads了。代码如下：

ls *fastq |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10

如果要过滤，就用下面的代码：

ls *.fastq | while read id

~/biosoft/sickle/sickle-master/sickle se -t sanger -g -f $id -o ${id%%.*}.trimmed.fq.gz

done

首先用bowtie2软件把测序得到的fastq文件比对到mm10参考基因组上面，就两个数据，我就不写循环了！

对于这种没有control的数据，我们可以直接把peaks-calling 4部曲一起搞定的！

对比对好的bam文件，就可以直接用MACS软件来找peaks啦：

首先对这些bam文件批量转换成bw文件。然后批量画图

~/biosoft/bowtie/bowtie2-2.2.9/bowtie2 -p 6 -x ~/reference/index/bowtie/mm10 -U SRR764931.fastq | samtools sort -O bam -o shDnmt3L.bam

## 比对率很高，分别是96.67%(shDnmt3L) 和96.59%(shGFP),这比对率没得说了，非常赞！

samtools index shDnmt3L.bam

~/.local/bin/macs2 callpeak -t shDnmt3L.bam -m 10 30 -p 1e-5 -f BAM -g mm -n shDnmt3L 2>shDnmt3L.masc2.log

bamCoverage -b shDnmt3L.bam -o shDnmt3L.bw ## 这里有个参数，-p 10 --normalizeUsingRPKM

computeMatrix reference-point --referencePoint TSS -b 10000 -a 10000 -R ~/annotation/CHIPseq/mm10/ucsc.refseq.bed -S shDnmt3L.bw --skipZeros -o matrix1_shDnmt3L_TSS.gz

plotHeatmap -m matrix1_shDnmt3L_TSS.gz -out shDnmt3L.png

就两个数据，我就没有写循环了，现在你肯定能看懂了吧！

分析，就这样介绍咯！

参考：http://crazyhottommy.blogspot.com/search/label/MeDIP-seq