生信菜鸟团 » sam

很老的比对软件maq

ulwvfje — Thu, 05 May 2016 12:16:38 +0000

MAQ在2008年还是蛮火的，但是现在基本都是BWA和bowtie的天下了。

就当怀念一下它吧，给它写一个教程！

软件下载：

官网直接找到：http://maq.sourceforge.net/

我是linux系统，用wget下载：wget https://sourceforge.net/projects/maq/files/maq/0.7.1/maq-0.7.1.tar.bz2

解压，很容易观察到是C++源码，所以用源码安装三部曲来安装

tar jxvf software.tar.bz2

cd software

./configure --prefix=$path

make

make test

安装之后把该软件添加到环境变量！

输入数据：

这里选择两个网络上的测试数据:

如果是真想用这个软件的话，需要参考基因组和测序数据，这个链接貌似已经年久失修啦~！

wget http://biocluster.ucr.edu/~tbackman/genome.fasta

# download a test reference genome (TAIR9 Chromosome 1) wget http://biocluster.ucr.edu/~tbackman/query.fastq

# download some test Illumina reads from Arabidopsis

运行命令：

maq # inspect command line options
maq fasta2bfa genome.fasta genome.bfa
# create binary of reference genome
maq fastq2bfq query.fastq readBinary.bfq
# create a binary of dataset
maq match out.map genome.bfa readBinary.bfq
# align query to genome and store output

结果解读：

我在想，这个MAQ软件发明之前，好像还没有SAM文件格式的定义，那么它的结果out.map肯定不是sam格式的。

哈哈，这个软件我无法安装，换了好几系统也没成功，如果是太老了，很多库文件却是。

我也懒得去解决了。

这种报错，对我这样的非计算机专业来说，简直是天书！

新的比对工具MOSAIK

ulwvfje — Tue, 15 Mar 2016 10:55:20 +0000

功能：序列比对，类似于BWA，Bowtie

优点：全平台，甚至支持pacbio的三代测序长reads

算法：是hash index，跟其它bwt算法不太一样

官网：https://github.com/wanpinglee/MOSAIK

paper：http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0090581

作者：WP Lee - ‎2014 - ‎被引用次数：70 - ‎相关文章

Overview:

MOSAIK is a stable, sensitive and open-source program for mapping second and 
third-generation sequencing reads to a reference genome. Uniquely among current 
mapping tools, MOSAIK can align reads generated by all the major sequencing 
technologies, including Illumina, Applied Biosystems SOLiD, Roche 454, 
Ion Torrent and Pacific BioSciences SMRT.

一，软件安装

软件下载地址：https://github.com/wanpinglee/MOSAIK/archive/master.zip

下载压缩包，解压后进入src源码目录，然后make即可！

这些程序就可以用啦！

里面有四个软件，所以需要四个步骤来完成比对！

build和jump是对参考基因组建立索引

build同时需要对测序数据进行索引

aligner是把两个索引进行比对！

text是把比对的结果转为其它可读格式，通常是sam比对格式

二，输入数据准备

比对当然需要测序的fastq格式reads和fa格式的参考基因组啦！

我是下载的http://odin.mdacc.tmc.edu/~xsu1/VirusSeq.html 里面的数据，因为之所以要用这个软件，也是因为找人体内病毒整合的需求！

PE测序的reads，参考基因组是病毒和人类

三，运行命令

下面是一个完整的脚本

首先对参考基因组构建索引

Mosaik_bin=~/bio-soft/MOSAIK/bin #设置好程序安装目录

##for gib virus reference genome

$Mosaik_bin/MosaikBuild -fr gibVirus.fa -oa gibVirus.fa.bin -st illumina -assignQual 40

$Mosaik_bin/MosaikJump -ia gibVirus.fa.bin -out gibVirus.JumpDb -hs 15

这两个步骤是构建hash索引，对这个60M的压缩包病毒基因组集合，时间是

MosaikBuild CPU time: 15.660 s, wall time: 18.146 s

MosaikJump CPU time: 329.031 s, wall time: 331.672 s

还可以接受，但是输出的index文件就有点难以接受了！！！！

333M Mar 11 19:55 gibVirus.fa.bin

60M Aug 13 2013 gibVirus.fa.gz

5.0G Mar 11 20:04 gibVirus.JumpDb_keys.jmp

1 Mar 11 19:59 gibVirus.JumpDb_meta.jmp

1.3G Mar 11 20:04 gibVirus.JumpDb_positions.jmp

如果是对人的hg19基因组来说，消耗的时间如下：

MosaikBuild CPU time: 183.642 s, wall time: 184.658 s

MosaikJump CPU time: 3985.608 s, wall time: 3995.323 s

一个多小时，还行！

对参考基因组建好了索引，还需要对测序数据构建索引！

$Mosaik_bin/MosaikBuild -q L526401A_1.fq.gz -q2 L526401A_2.fq.gz -out L526401A.bin -st illumina

数据双端测序，每个1.6G左右数据，构建索引耗时如下：

# reads written: 53060622

# bases written: 5304891143

MosaikBuild CPU time: 388.969 s, wall time: 391.149 s

接下来就比对！

ANN_PATH=~/bio-soft/MOSAIK/src/networkFile

$Mosaik_bin/MosaikAligner -in L526401A.bin \

-out L526401A.bin.aligned \

-ia ../Mosaik_JumpDb/hg19Virus.fa.bin \

-j ../Mosaik_JumpDb/hg19Virus.JumpDb \

-annpe $ANN_PATH/2.1.26.pe.100.0065.ann -annse $ANN_PATH/2.1.26.se.100.005.ann

比对的结果就是那个L526401A.bin.aligned，但是还需要用MosaikText转换成sam格式方便阅读！

$Mosaik_bin/MosaikText -in L526401A.bin.aligned -sam L526401A.bin.aligned.sam -u

其实它github里面有测试数据，你跑一遍就懂了！

四，数据结果解读

都是sam格式了就不比解释了

SAMStat软件使用说明书

ulwvfje — Thu, 21 May 2015 04:00:59 +0000

这个软件是对我们的比对结果（通常是bwa,bowtie,tophat,hisat,star）bam或者sam来进行一个可视化的总结，类似于fastqc对我们的fastq测序结果做一个可视化总结，非常好用。

一．下载并安装该软件

软件主页是http://samstat.sourceforge.net/ 里面对该软件进行非常详细的说明

包括installation和usage，我这里简单的翻译一下。

Wget http://liquidtelecom.dl.sourceforge.net/project/samstat/samstat-1.5.tar.gz

解压开看里面的readme有介绍如何安装这个软件

Unpack the tarball:

bash-3.1$ tar -zxvf samstat-XXX.tar.gz

bash-3.1$ cd samstat

bash-3.1$ ./configure

bash-3.1$ make

bash-3.1$ make check

bash-3.1$ make install

如果用root命令就可以直接用samstat啦

如果没有root权限，安装的时候稍微有点不同

./configure --prefix=/home/jmzeng/my-bin/

make

make install

很简单的

二，数据，就是我们的bam文件啦

三，运行命令

四，结果

简单看看samtools flagstat 740WT1.bam 的结果

19232378 + 0 in total (QC-passed reads + QC-failed reads)

0 + 0 duplicates

18846845 + 0 mapped (98.00%:-nan%)

0 + 0 paired in sequencing

0 + 0 read1

0 + 0 read2

0 + 0 properly paired (-nan%:-nan%)

0 + 0 with itself and mate mapped

0 + 0 singletons (-nan%:-nan%)

0 + 0 with mate mapped to a different chr

0 + 0 with mate mapped to a different chr (mapQ>=5)

然后再看看我们的samstat的结果！

740WT1.bam.samstat.html

一个网页，非常丰富的内容

内容太多了，我懒得解释了

见软件说明书http://davetang.org/wiki/tiki-index.php?page=SAMStat

Samtools安装及使用

ulwvfje — Sun, 29 Mar 2015 13:45:27 +0000

一、下载安装该软件。

网上可以搜索到下载地址，解压之后make即可

一般都会报错

In file included from bam_cat.c:41:0:

htslib-1.1/htslib/bgzf.h:34:18: fatal error: zlib.h: No such file or directory

#include

compilation terminated.

make: *** [bam_cat.o] Error 1

然后，居然就通过了，晕。有时候我实在是搞不定linux系统一些具体的原理，但是反正就是能用！学会搜索，学会试错即可。

直到两年后我才理解（linux下的软件安装需要指定路径，而且是自己有权限的路径，2016年11月23日10:12:11），比如安装下面的方式来安装软件：

mkdir -p ~/biosoft/myBin
echo 'export PATH=/home/jianmingzeng/biosoft/myBin/bin:$PATH' >>~/.bashrc
source ~/.bashrc
cd ~/biosoft
mkdir cmake && cd cmake
wget http://cmake.org/files/v3.3/cmake-3.3.2.tar.gz
tar xvfz cmake-3.3.2.tar.gz
cd cmake-3.3.2
./configure --prefix=/home/jianmingzeng/biosoft/myBin ## 这里非常重要
make
make install

但是有些电脑会报另外一个错

#include

compilation terminated.

make: *** [bam_tview_curses.o] Error 1

我也顺便解决一下，因为以前我的服务器遇到过，也是很纠结的。

sudo apt-get install libncurses5-dev

二．准备数据及使用，见我的snp-caling流程

http://www.bio-info-trainee.com/?p=439

samtools view -bS tmp1.sam > tmp1.bam

samtools sort tmp1.bam tmp1.sorted

samtools index tmp1.sorted.bam

samtools mpileup -d 1000 -gSDf ../../../ref-database/hg19.fa tmp1.sorted.bam |bcftools view -cvNg – >tmp1.vcf

因为这个软件都是与bwa和bowtie等能产生sam文件的软件合作才能使用。

其中这个软件参数还是蛮多的，但是常用的就那么几个，网上也很容易找到教程

简单附上一点资料

samtools是一个用于操作sam和bam文件的工具合集。包含有许多命令。以下是常用命令的介绍

1. view

view命令的主要功能是：将sam文件转换成bam文件；然后对bam文件进行各种操作，比如数据的排序(不属于本命令的功能)和提取(这些操作是对bam文件进行的，因而当输入为sam文件的时候，不能进行该操作)；最后将排序或提取得到的数据输出为bam或sam（默认的）格式。

bam文件优点：bam文件为二进制文件，占用的磁盘空间比sam文本文件小；利用bam二进制文件的运算速度快。

view命令中，对sam文件头部的输入(-t或-T）和输出(-h)是单独的一些参数来控制的。

Usage: samtools view [options] | [region1 [...]]默认情况下不加 region，则是输出所有的 region. Options:

-b output BAM 默认下输出是 SAM 格式文件，该参数设置输出 BAM 格式 -h print header for the SAM output 默认下输出的 sam 格式文件不带 header，该参数设定输出sam文件时带 header 信息 -H print header only (no alignments) -S input is SAM 默认下输入是 BAM 文件，若是输入是 SAM 文件，则最好加该参数，否则有时候会报错。

例子：

#将sam文件转换成bam文件$ samtools view -bS abc.sam > abc.bam$ samtools view -b -S abc.sam -o abc.bam

#提取比对到参考序列上的比对结果$ samtools view -bF 4 abc.bam > abc.F.bam #提取paired reads中两条reads都比对到参考序列上的比对结果，只需要把两个4+8的值12作为过滤参数即可$ samtools view -bF 12 abc.bam > abc.F12.bam #提取没有比对到参考序列上的比对结果$ samtools view -bf 4 abc.bam > abc.f.bam #提取bam文件中比对到caffold1上的比对结果，并保存到sam文件格式$ samtools view abc.bam scaffold1 > scaffold1.sam #提取scaffold1上能比对到30k到100k区域的比对结果$ samtools view abc.bam scaffold1:30000-100000 > scaffold1_30k-100k.sam #根据fasta文件，将 header 加入到 sam 或 bam 文件中$ samtools view -T genome.fasta -h scaffold1.sam > scaffold1.h.sam

2. sort

sort对bam文件进行排序。

Usage: samtools sort [-n] [-m ] -m 参数默认下是 500,000,000 即500M（不支持K，M，G等缩写）。对于处理大数据时，如果内存够用，则设置大点的值，以节约时间。-n 设定排序方式按short reads的ID排序。默认下是按序列在fasta文件中的顺序（即header）和序列从左往右的位点排序。

例子：

$ samtools sort abc.bam abc.sort$ samtools view abc.sort.bam | less -S

3.merge

将2个或2个以上的已经sort了的bam文件融合成一个bam文件。融合后的文件不需要则是已经sort过了的。

Usage: samtools merge [-nr] [-h inh.sam] [...] Options: -n sort by read names -r attach RG tag (inferred from file names) -u uncompressed BAM output -f overwrite the output BAM if exist -1 compress level 1 -R STR merge file in the specified region STR [all] -h FILE copy the header in FILE to [in1.bam] Note: Samtools' merge does not reconstruct the @RG dictionary in the header. Users must provide the correct header with -h, or uses Picard which properly maintains the header dictionary in merging.

4.index

必须对bam文件进行默认情况下的排序后，才能进行index。否则会报错。

建立索引后将产生后缀为.bai的文件，用于快速的随机处理。很多情况下需要有bai文件的存在，特别是显示序列比对情况下。比如samtool的tview命令就需要；gbrowse2显示reads的比对图形的时候也需要。

Usage: samtools index [out.index]

例子：

#以下两种命令结果一样$ samtools index abc.sort.bam$ samtools index abc.sort.bam abc.sort.bam.bai

5. faidx

对fasta文件建立索引,生成的索引文件以.fai后缀结尾。该命令也能依据索引文件快速提取fasta文件中的某一条（子）序列

Usage: samtools faidx [ [...]] 对基因组文件建立索引$ samtools faidx genome.fasta#生成了索引文件genome.fasta.fai,是一个文本文件，分成了5列。第一列是子序列的名称；第二列是子序列的长度；个人认为“第三列是序列所在的位置”，因为该数字从上往下逐渐变大，最后的数字是genome.fasta文件的大小；第4和5列不知是啥意思。于是通过此文件，可以定位子序列在fasta文件在磁盘上的存放位置，直接快速调出子序列。 #由于有索引文件，可以使用以下命令很快从基因组中提取到fasta格式的子序列$ samtools faidx genome.fasta scffold_10 > scaffold_10.fasta

6. tview

tview能直观的显示出reads比对基因组的情况，和基因组浏览器有点类似。

Usage: samtools tview [ref.fasta] 当给出参考基因组的时候，会在第一排显示参考基因组的序列，否则，第一排全用N表示。按下 g ，则提示输入要到达基因组的某一个位点。例子“scaffold_10:1000"表示到达第10号scaffold的第1000个碱基位点处。使用H(左）J（上）K（下）L（右）移动显示界面。大写字母移动快，小写字母移动慢。使用空格建向左快速移动（和 L 类似），使用Backspace键向左快速移动（和 H 类似）。Ctrl+H 向左移动1kb碱基距离； Ctrl+L 向右移动1kb碱基距离可以用颜色标注比对质量，碱基质量，核苷酸等。30～40的碱基质量或比对质量使用白色表示；20～30黄色；10～20绿色；0～10蓝色。使用点号'.'切换显示碱基和点号；使用r切换显示read name等还有很多其它的使用说明，具体按？键来查看。

参考：samtools的说明文档：http://samtools.sourceforge.net/samtools.shtml

http://www.plob.org/2014/01/26/7112.html