生信菜鸟团 » 比对

【直播】我的基因组（十一）:测序数据的比对

ulwvfje — Fri, 09 Dec 2016 01:04:10 +0000

上一次直播中，我们对拿到手的测序数据进行了质控，测序数据的质量已经得到了保证。那么接下来就可以把它拿来与参考基因组比对了，这里我们先用参考基因组hg19，大家可以参照【直播】我的基因组（五）:测试数据及参考基因组的准备来下载参考基因组hg19，我这里选择的是UCSC提供的hg19。然后安装bwa软件进行比对，可以参考【直播】我的基因组（四）：计算资源的准备来安装，以及对hg19建立索引。

我们首先简单讲一下为什么要进行比对以及比对过程是怎样的？

可以看到我们到手的测序数据格式是fastq，每条reads都是150个碱基组成，如果只看这fastq，我们没办法得知它的意义，参考基因组那么大(人类约30亿个碱基)，这个reads在我们基因组的哪里呢？

简单解释一下，假设人类基因组是123456789，如果我们的测序得到的reads是123，那么我们很明显知道这条reads在基因组的第一个位置，跨越了3个长度，如果我们的reads是567，那么我们也可以看到它在基因组的第5个位置。如果我们看到了一个reads是235567，同样我们也很容易看到它在基因组第2位置，但是在第3个位置参考是4，它却是5，这里可能是测序错误，也可能是这个reads真的变异了！

但是我们的参考基因组远远没有那么简单，30亿个碱基的庞大数目，测序的一条reads也有150个碱基，仅仅用肉眼观察基本不可能判断出它到底在哪里。但并非一定观察不到，如果你有多的不可计的时间及精力的话，手工比对穷极一生来搞定一条reads的比对就很不容易了（当然肯定不会有人这么傻，这里只是说数据量真的很大而已）。然而在我们手上可是有8.9亿条reads，所以我们需要借助计算机来进行比对，现在比较流行的基因组比对工具是bwa和bowtie，它俩的算法不一样，但是我们不需要了解那么具体，只需要知道它可以把我们的fastq测序文件通过与参考基因组的比对生成sam格式（自行搜索了解该格式）的比对结果文件（如下），从sam文件中，我们可以看到每条reads在参考基因组的位置，这条reads是在哪一条染色体，又是在这条染色体的哪个位置就可以一目了然。

对于比对的结果，我们可以用IGV可视化查看，还可以手动查看每个基因的比对情况：

下面我简单讲一下代码

1，下载hg19基因组

cd ~/referencemkdir -p genome/hg19 && cd genome/hg19

nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &

tar zvfx chromFa.tar.gz

cat *.fa > hg19.fa

rm chr*.fa

首先要理解linux基础命令，在我们的服务器上面新建好目录，找到hg19的下载链接，用linux自带的wget下载，因为文件太大，所以我们用nohup放在后台下载。下载后是压缩文件 chromFa.tar.gz，在linux里面需要用tar zvfx 来解压tar.gz文件即可。解压开后是一个个文件，需要用cat合并！最终效果如下：

2，安装bwa软件

## Download and install BWAcd ~/biosoft

mkdir bwa && cd bwa

#http://sourceforge.net/projects/bio-bwa/files/

wget https://sourceforge.net/projects/bio-bwa/files/bwa-0.7.15.tar.bz2

tar xvfj bwa-0.7.15.tar.bz2 # x extracts, v is verbose (details of what it is doing), f skips prompting for each individual file, and j tells it to unzip .bz2 files

cd bwa-0.7.15

make

~/biosoft/bwa/bwa-0.7.15/bwa

我所有的软件都安装在自己的home目录下面的biosoft文件夹。同样，也是找的bwa的下载地址，然后解压，然后直接make即可。很多人的服务器会报错zlib.h缺少的问题，看我以前的教程：http://www.bio-info-trainee.com/518.html ,缺少什么你就安装什么，但是缺少的东西需要安装到系统环境变量，但是我的bwa是直接安装到自己的目录，所以我用全路径在调用该软件。如果你的这个命令~/biosoft/bwa/bwa-0.7.15/bwa 能够显示下面的help文档，说明你已经安装成功啦~

3，对hg19参考基因组用bwa构建索引

cd ~/referencemkdir -p index/bwa && cd index/bwa

nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p ~/reference/index/bwa/hg19 ~/reference/genome/hg19/hg19.fa 1>hg19.bwa_index.log 2>&1 &

代码很简单，就是新建好一个文件夹来存放我们的参考基因组的索引，我这里选择的是我的home目录下面的reference/index/bwa/ 文件夹，可以看到如下内容：

我还是用了nohup把这个命令挂在后台，防止掉线，因为要运行2个小时左右，我加上time命令可以看到运行时间，我用了bwa的index模式来索引参考基因在，具体bwa用法可以自己看文档，但是我们只需要学会索引及比对就好了。有点类似于window下面的软件有一个个菜单栏一样，需要自己的鼠标点击来实现一个个功能，在linux下面就是把命令准备好，然后运行。

4.把fastq文件比对到参考基因组

for i in $(seq 1 6) ;do (nohup ~/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M ~/reference/index/bwa/hg19 KPGP-00001_L${i}_R1.fq.gz KPGP-00001_L${i}_R2.fq.gz 1>KPGP-00001_L${i}.sam 2>KPGP-00001_L${i}.bwa.align.log &);done

这个命令就一句话，但是里面的信息量非常大，需要熟练掌握linux命令以及shell脚本的语法，但是解析起来也很简单，就是因为我们的fastq文件命名是有规律的，根据规律我构造出一个循环命令，里面的i这个变量会自动扩展成1，2，3，4，5，6依次来用bwa mem 模式来比对，因为是PE150测序，所以选择这个模式，-M就是选择我们上一步构建好的参考基因组，最后面的 1> 和2>是把软件运行结果输出来，分别是标准输出和标准错误输出，大家可以自行搜索。如果fastq文件的命名发生变化，这个shell脚本是运行不了的，需要临时构建，自己得掌握脚本编写，不然就一个个的比对，手动。

大家可以去看【直播】我的基因组（七）:从整体理解全基因组测序数据的变异位点，来了解这个命令的运行结果。

请扫描以下二维码关注我们，获取直播系列的所有帖子！

关于multiple mapping我想说的

ulwvfje — Wed, 23 Nov 2016 12:09:13 +0000

很多时候，我们都要选取unique mapped的reads，尤其是在RNA-seq和CHIP-seq的时候，但是如何保留，各种教程都不一致，我稍微总结了一下，是因为使用的比对工具不一样导致的！但是主要都反应在sam文件的一系列tag里面~

首先对bwa来说，如果它遇到一个reads可以比对到参考基因在的多个序列，只会随机的选取一个位置来输出到sam文件，但是会加上一个tag是XS:I:来告诉我们第二好的比对情况的比对得分是多少，bowtie也是一样。但是它们都有参数来决定是否只对每个reads输出一条信息，还是输出全部的信息，在bwa是-a的参数，在bowtie里面是-m参数。

但是bowtie2里面取消了这个参数，它们都必须用XS:I:这个tag来挑选unique mapped的reads

但是如果是用hisat来比对的话，决定是否是唯一比对的却是NH这个tag信息。默认情况下一条reads可以输出多条比对结果。

我想起了再补充吧，其实应该找几个例子用IGV看看，就明白了，可是我暂时没有时间了，只是觉得这个很重要，就提一下。

用 SHRiMP 来比对color space的数据

ulwvfje — Thu, 04 Aug 2016 02:08:43 +0000

无意中接触了AB 5500xl Genetic Analyzer这个测序仪的数据，就是传说中的solid格式，也就是color space的测序数据，虽然拿到的测序数据也是fastq格式的， 4行代表一条read，但是第二行已经不是在是碱基序列啦，而是color的编码。Colors may be encoded either as numbers (0=blue, 1=green, 2=orange, 3=red) or as characters A/C/G/T (A=blue, C=green, G=orange, T=red).我们通常称为csfastq格式。

对于这种数据的处理，一般的比对软件是hold 不住的，我查了一下，SHRiMP，sequel和BFAST ，bowtie，是可以处理这种csfastq格式数据的比对的，我这里简单使用了最出名的SHRiMP 。

安装过程如下：

## http://compbio.cs.toronto.edu/shrimp/

cd ~/biosoft

mkdir SHRiMP && cd SHRiMP

wget http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz

tar zxvf SHRiMP_2_2_3.lx26.x86_64.tar.gz

cd SHRiMP_2_2_3

export SHRIMP_FOLDER=$PWD

## 如果需要永久使用就添加到.bashrc，如果只是用一次，就export即可。

软件说明书详细介绍了该软件的用法：http://compbio.cs.toronto.edu/shrimp/README

如果你的参考基因组很小，那么直接使用就好了。

如果是普通的小基因组和小的color space测序序列

$SHRIMP_FOLDER/bin/gmapper-cs test.csfasta \
  reference.fa \
  -N 4 -o 5 -h 80% >map.test.out 2>map.test.log

具体参数意义，大家看软件说明书吧。

或者对于miRNA来说

##　　We project the database with:

$SHRIMP_FOLDER/utils/project-db.py --seed 00111111001111111100,00111111110011111100,00111111111100111100,00111111111111001100,00111111111111110000 \

--h-flag --shrimp-mode ls miRBase/hairpin.human.fa

##

$SHRIMP_FOLDER/bin/gmapper-ls -L hairpin.human-ls SRR1542716.fastq --qv-offset 33 \

-o 1 -H -E -a -1 -q -30 -g -30 --qv-offset 33 --strata -N 8 >map.out 2>map.log

如果你的参加基因太大，超过了你的内存限制，那么就需要技巧了。

代码也不难，如下：

$SHRIMP_FOLDER/utils/split-db.py --ram-size 14 --prefix hg18 hg18.fa

$SHRIMP_FOLDER/utils/project-db.py --shrimp-mode ls hg18-14gb-*.fa

 for i in 1 2 3 4; do \
      $SHRIMP_FOLDER/bin/gmapper-ls -L hg18-14gb-12_12_12_12seeds-${i}of4-ls \
      reads.500kx2.36bp.ls.fa \
      -N 8 -p opp-in -I 50,500 -m 20 -i -25 -g -40 -e -10 -E \
      >map.db${i}of4.sam 2>map.db${i}of4.log
    done
  [...]
 ls map.db*.sam

$SHRIMP_FOLDER/bin/mergesam reads.500kx2.36bp.ls.fa map.db?of4.sam > map.sam

最后的map.sam文件就是我们比对结果啦！

sam文件我就不解释啦！

因为把参考基因组分开，还是很麻烦，而且耗时的，我并没有那样做，我的机器1T的内存，我不觉得有什么基因组会超出我的内存限制

华大soap系列的比对软件

ulwvfje — Thu, 05 May 2016 12:18:15 +0000

也不知道是什么原因，对国产软件总是提不起兴趣，所以尽管SOAP系列都已经发展到了十几个软件了，我依然没有去试用一下。

软件下载：

官网直接找到：http://soap.genomics.org.cn/

SOAPaligner/soap2 is a member of the SOAP (Short Oligonucleotide Analysis Package).

很久以前，大家说soap其实指的是类似于bwa这样的比对工具，但是后来这个工具箱丰富了，所以我们现在如果只看比对工具，要看的是SOAPaligner

我是linux系统，用wget下载：wget http://soap.genomics.org.cn/down/soap2.21release.tar.gz

解压，由于下载是可执行程序，就不需要安装啦！

安装之后把该软件添加到环境变量！

输入数据：

这里选择两个网络上的测试数据:

如果是真想用这个软件的话，需要参考基因组和测序数据，这个链接貌似已经年久失修啦~！

wget http://biocluster.ucr.edu/~tbackman/genome.fasta

# download a test reference genome (TAIR9 Chromosome 1) wget http://biocluster.ucr.edu/~tbackman/query.fastq

# download some test Illumina reads from Arabidopsis

运行命令：

2bwt-builder genome.fasta
# create binary of reference genome
soap -a query.fastq -D genome.fasta.index -o output.soap
# align query to genome and store output

结果解读：

由于测试数据没有下载下来，我安装了软件就懒得玩了，其实正经的来讲，应该写一个详细的测评，包括软件运行速度，比对准确率，等等，不过那样做就是发paper的节奏了，我随便玩玩，就算啦。

不过soap是一直在更新的，所以我相信他比对的结果，肯定是sam格式的。

所以结果就不用解读啦！

很老的比对软件maq

ulwvfje — Thu, 05 May 2016 12:16:38 +0000

MAQ在2008年还是蛮火的，但是现在基本都是BWA和bowtie的天下了。

就当怀念一下它吧，给它写一个教程！

软件下载：

官网直接找到：http://maq.sourceforge.net/

我是linux系统，用wget下载：wget https://sourceforge.net/projects/maq/files/maq/0.7.1/maq-0.7.1.tar.bz2

解压，很容易观察到是C++源码，所以用源码安装三部曲来安装

tar jxvf software.tar.bz2

cd software

./configure --prefix=$path

make

make test

安装之后把该软件添加到环境变量！

输入数据：

这里选择两个网络上的测试数据:

如果是真想用这个软件的话，需要参考基因组和测序数据，这个链接貌似已经年久失修啦~！

wget http://biocluster.ucr.edu/~tbackman/genome.fasta

# download a test reference genome (TAIR9 Chromosome 1) wget http://biocluster.ucr.edu/~tbackman/query.fastq

# download some test Illumina reads from Arabidopsis

运行命令：

maq # inspect command line options
maq fasta2bfa genome.fasta genome.bfa
# create binary of reference genome
maq fastq2bfq query.fastq readBinary.bfq
# create a binary of dataset
maq match out.map genome.bfa readBinary.bfq
# align query to genome and store output

结果解读：

我在想，这个MAQ软件发明之前，好像还没有SAM文件格式的定义，那么它的结果out.map肯定不是sam格式的。

哈哈，这个软件我无法安装，换了好几系统也没成功，如果是太老了，很多库文件却是。

我也懒得去解决了。

这种报错，对我这样的非计算机专业来说，简直是天书！

新的比对工具MOSAIK

ulwvfje — Tue, 15 Mar 2016 10:55:20 +0000

功能：序列比对，类似于BWA，Bowtie

优点：全平台，甚至支持pacbio的三代测序长reads

算法：是hash index，跟其它bwt算法不太一样

官网：https://github.com/wanpinglee/MOSAIK

paper：http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0090581

作者：WP Lee - ‎2014 - ‎被引用次数：70 - ‎相关文章

Overview:

MOSAIK is a stable, sensitive and open-source program for mapping second and 
third-generation sequencing reads to a reference genome. Uniquely among current 
mapping tools, MOSAIK can align reads generated by all the major sequencing 
technologies, including Illumina, Applied Biosystems SOLiD, Roche 454, 
Ion Torrent and Pacific BioSciences SMRT.

一，软件安装

软件下载地址：https://github.com/wanpinglee/MOSAIK/archive/master.zip

下载压缩包，解压后进入src源码目录，然后make即可！

这些程序就可以用啦！

里面有四个软件，所以需要四个步骤来完成比对！

build和jump是对参考基因组建立索引

build同时需要对测序数据进行索引

aligner是把两个索引进行比对！

text是把比对的结果转为其它可读格式，通常是sam比对格式

二，输入数据准备

比对当然需要测序的fastq格式reads和fa格式的参考基因组啦！

我是下载的http://odin.mdacc.tmc.edu/~xsu1/VirusSeq.html 里面的数据，因为之所以要用这个软件，也是因为找人体内病毒整合的需求！

PE测序的reads，参考基因组是病毒和人类

三，运行命令

下面是一个完整的脚本

首先对参考基因组构建索引

Mosaik_bin=~/bio-soft/MOSAIK/bin #设置好程序安装目录

##for gib virus reference genome

$Mosaik_bin/MosaikBuild -fr gibVirus.fa -oa gibVirus.fa.bin -st illumina -assignQual 40

$Mosaik_bin/MosaikJump -ia gibVirus.fa.bin -out gibVirus.JumpDb -hs 15

这两个步骤是构建hash索引，对这个60M的压缩包病毒基因组集合，时间是

MosaikBuild CPU time: 15.660 s, wall time: 18.146 s

MosaikJump CPU time: 329.031 s, wall time: 331.672 s

还可以接受，但是输出的index文件就有点难以接受了！！！！

333M Mar 11 19:55 gibVirus.fa.bin

60M Aug 13 2013 gibVirus.fa.gz

5.0G Mar 11 20:04 gibVirus.JumpDb_keys.jmp

1 Mar 11 19:59 gibVirus.JumpDb_meta.jmp

1.3G Mar 11 20:04 gibVirus.JumpDb_positions.jmp

如果是对人的hg19基因组来说，消耗的时间如下：

MosaikBuild CPU time: 183.642 s, wall time: 184.658 s

MosaikJump CPU time: 3985.608 s, wall time: 3995.323 s

一个多小时，还行！

对参考基因组建好了索引，还需要对测序数据构建索引！

$Mosaik_bin/MosaikBuild -q L526401A_1.fq.gz -q2 L526401A_2.fq.gz -out L526401A.bin -st illumina

数据双端测序，每个1.6G左右数据，构建索引耗时如下：

# reads written: 53060622

# bases written: 5304891143

MosaikBuild CPU time: 388.969 s, wall time: 391.149 s

接下来就比对！

ANN_PATH=~/bio-soft/MOSAIK/src/networkFile

$Mosaik_bin/MosaikAligner -in L526401A.bin \

-out L526401A.bin.aligned \

-ia ../Mosaik_JumpDb/hg19Virus.fa.bin \

-j ../Mosaik_JumpDb/hg19Virus.JumpDb \

-annpe $ANN_PATH/2.1.26.pe.100.0065.ann -annse $ANN_PATH/2.1.26.se.100.005.ann

比对的结果就是那个L526401A.bin.aligned，但是还需要用MosaikText转换成sam格式方便阅读！

$Mosaik_bin/MosaikText -in L526401A.bin.aligned -sam L526401A.bin.aligned.sam -u

其实它github里面有测试数据，你跑一遍就懂了！

四，数据结果解读

都是sam格式了就不比解释了

NGS数据比对工具持续收集

ulwvfje — Fri, 16 Oct 2015 11:29:21 +0000

无意中看到了这个网站，比wiki的还有全面和专业。搜集了现有还算比较出名的比对软件，并且列出来了，还做了简单评价，里面对比对工具的收集，主要是基于2012年的一个综述《Tools for mapping high-throughput sequencing data》，相信应该是有不少人都看过这篇综述的，其实生物信息初学者应该自己去文献数据库找点感兴趣的关键词的综述多看看，广泛涉猎总没有坏处的。

Features Comparison

The following Table enables a comparison of mappers based on different characteristics. The table can be sorted by column (just click on the column name). The data was collected from different sources and in some cases was provided by the developers. For execution times and memory requirements we refer to the above mentioned review (supplementary data is available here).

用 GMAP/GSNAP软件进行RNA-seq的alignment

ulwvfje — Thu, 24 Sep 2015 14:22:13 +0000

软件发表在：http://bioinformatics.oxfordjournals.org/content/26/7/873.abstract

软件的解说ppt ：http://www.mi.fu-berlin.de/wiki/pub/ABI/CompMethodsWS11/MHuska_GSNAP.pdf

一个例子：http://qteller.com/RNAseq-analysis-recipe.pdf

一个shell脚本： https://github.com/vsbuffalo/rna-seq-example

软件的下载地址： http://research-pub.gene.com/gmap/

有研究者认为这个软件的比对效果要比tophat要好，虽然现在已经多出来了非常多的RNA-seq的alignment软件，我还是简单看看这个软件吧，它本来是2005就出来的一个专门比对低通量的est序列，叫GMAP，后来进化成了GSNAP

step1：下载安装GMAP/GSNAP

wget http://research-pub.gene.com/gmap/src/gmap-gsnap-2015-09-21.tar.gz

是一个标准的linux源码程序，安装之前一定要看readme ，http://research-pub.gene.com/gmap/src/README

解压进去，然后源码安装三部曲,首先 ./configu 然后make 最后make install

会默认安装在 /usr/local/bin 下面，这里需要修改，因为你可能没有 /usr/local/bin 权限,安装到自己的目录，然后把它添加到环境变量！

step2 ：准备数据

比对一般都只需要两个数据，一是索引好的参考基因组，另一个是需要比对的测序数据。

但是这个GSNAP，还需要对应的GTF注释文件。

首先需要参考基因组：虽然软件本身提供了一个hg19的参考基因组，并且已经索引好了Human genome, version hg19 (5.5 GB)(http://research-pub.gene.com/gmap/genomes/hg19.tar.gz) ，但是下载很慢，而且不是对所有版本的GSNAP都适用。所以我这里对我自己的参考基因组进行索引。

gmap_build -D ./ -d my_hg19.fa

然后取ensemble下载hg19的gtf文件。

然后还需要把自己下载的gtf文件也构建索引，需要两个步骤

cat my_hg19.gtf | ~/software/gmap-2011-10-16/util/gtf_splicesites > my_hg19.splicesites

cat my_hg19.splicesites | iit_store -o my_hg19.gtf.index

然后拷贝需要比对的RNA-seq测序文件

step3: 运行程序

就是一步比对而已

gsnap

-D /home/jschnable/gsnap_indexes/

-d arabidopsisv10

--nthreads=50

-B 5

-s /home/jschnable/gsnap_indexes/arabidopsisv10.iit

-n 2

-Q

--nofails

--format=sam temp.fastq

> results.sam

参数有点多，自己看看说明书吧http://qteller.com/RNAseq-analysis-recipe.pdf 讲的非常详细。

Genomemapper软件使用说明书

ulwvfje — Wed, 24 Jun 2015 03:04:56 +0000

我以前一直以为有了bwa跟bowtie，没什么必要用其它的alignment软件，直到我碰到了高插入删除的helicos三代测序数据，我才发现，这个古董软件genomemapper居然大有用武之地了。

一．下载并且安装该软件

这是最新版本了

Release 0.4.4

2012-10-30

source code including documentation

Wget http://1001genomes.org/data/software/genomemapper/genomemapper_0.4.4/genomemapper-0.4.4.tar.gz

这个软件安装很简单，解压进入目录，make一下即可

看到make完了之后就会多了两个软件，其中一个是用来构建参考基因组索引，一个用来比对的！

二．准备数据

既然是比对软件，那么肯定是一个参考基因组，一个测序的fastq原始文件咯

当然这个软件比较奇葩，它还支持Multi-FASTA, FASTQ2 or SHORE flat file format,

三、比对命令

这里要分两步走，首先是构建参考基因组的索引，然后才是比对

/home/jmzeng/bio-soft/genomemapper-0.4.4/gmindex \

-i BRCA1.fa -x BRCA1.idx -t BRCA1.meta

首先构建索引，种子长度就用默认的12即可，然后构建完索引如下。

然后进行比对即可

/home/jmzeng/bio-soft/genomemapper-0.4.4/genomemapper \

-i BRCA1.fa -q SRR258835.fastq -M 4 -G 2 -E 4 -o mapped_reads.fl -u unmapped_reads.fl

成功比对的都输出到了mapped_reads.fl -这个文件，未比对上的在unmapped_reads.fl

我有12344条序列，成功比对的只有5276条，但是如果我用精确比对的算法，只有一千五百条是可以比对的，所以用这个允许4个mismatch和2个gap的比对算法，大大提高了比对率。

然后我修改了比对参数可以达到5605,5654,5696的提升。但是没有质的飞跃，估计本身我的这种helicos测序数据错误率就太可怕了。

四，输出结果解读

这个是很规则的tab键分割的文本字符，我就不解读了，大家看readme

SAMStat软件使用说明书

ulwvfje — Thu, 21 May 2015 04:00:59 +0000

这个软件是对我们的比对结果（通常是bwa,bowtie,tophat,hisat,star）bam或者sam来进行一个可视化的总结，类似于fastqc对我们的fastq测序结果做一个可视化总结，非常好用。

一．下载并安装该软件

软件主页是http://samstat.sourceforge.net/ 里面对该软件进行非常详细的说明

包括installation和usage，我这里简单的翻译一下。

Wget http://liquidtelecom.dl.sourceforge.net/project/samstat/samstat-1.5.tar.gz

解压开看里面的readme有介绍如何安装这个软件

Unpack the tarball:

bash-3.1$ tar -zxvf samstat-XXX.tar.gz

bash-3.1$ cd samstat

bash-3.1$ ./configure

bash-3.1$ make

bash-3.1$ make check

bash-3.1$ make install

如果用root命令就可以直接用samstat啦

如果没有root权限，安装的时候稍微有点不同

./configure --prefix=/home/jmzeng/my-bin/

make

make install

很简单的

二，数据，就是我们的bam文件啦

三，运行命令

四，结果

简单看看samtools flagstat 740WT1.bam 的结果

19232378 + 0 in total (QC-passed reads + QC-failed reads)

0 + 0 duplicates

18846845 + 0 mapped (98.00%:-nan%)

0 + 0 paired in sequencing

0 + 0 read1

0 + 0 read2

0 + 0 properly paired (-nan%:-nan%)

0 + 0 with itself and mate mapped

0 + 0 singletons (-nan%:-nan%)

0 + 0 with mate mapped to a different chr

0 + 0 with mate mapped to a different chr (mapQ>=5)

然后再看看我们的samstat的结果！

740WT1.bam.samstat.html

一个网页，非常丰富的内容

内容太多了，我懒得解释了

见软件说明书http://davetang.org/wiki/tiki-index.php?page=SAMStat