<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; sam</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/sam/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>很老的比对软件maq</title>
		<link>http://www.bio-info-trainee.com/1613.html</link>
		<comments>http://www.bio-info-trainee.com/1613.html#comments</comments>
		<pubDate>Thu, 05 May 2016 12:16:38 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[maq]]></category>
		<category><![CDATA[sam]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1613</guid>
		<description><![CDATA[MAQ在2008年还是蛮火的，但是现在基本都是BWA和bowtie的天下了。 就 &#8230; <a href="http://www.bio-info-trainee.com/1613.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>MAQ在2008年还是蛮火的，但是现在基本都是BWA和bowtie的天下了。</div>
<div>就当怀念一下它吧，给它写一个教程！</div>
<div><span style="color: #ff0000;">软件下载：</span></div>
<div>官网直接找到：<a href="http://maq.sourceforge.net/">http://maq.sourceforge.net/</a></div>
<div>我是linux系统，用wget下载：wget <a href="https://sourceforge.net/projects/maq/files/maq/0.7.1/maq-0.7.1.tar.bz2">https://sourceforge.net/projects/maq/files/maq/0.7.1/maq-0.7.1.tar.bz2</a></div>
<div>解压，很容易观察到是C++源码，所以用源码安装三部曲来安装</div>
<blockquote>
<div>tar jxvf software.tar.bz2</div>
<div>cd software</div>
<div>./configure --prefix=$path</div>
<div>make</div>
<div>make test</div>
</blockquote>
<div>安装之后把该软件添加到环境变量！</div>
<div>输入数据：</div>
<div>这里选择两个网络上的测试数据:</div>
<div>如果是真想用这个软件的话，需要参考基因组和测序数据，这个链接貌似已经年久失修啦~！</div>
<blockquote>
<div><code>wget <a href="http://biocluster.ucr.edu/~tbackman/genome.fasta">http://biocluster.ucr.edu/~tbackman/genome.fasta</a> </code></div>
<div><code># download a test reference genome (TAIR9 Chromosome 1)<br />
wget </code><code><a href="http://biocluster.ucr.edu/~tbackman/query.fastq">http://biocluster.ucr.edu/~tbackman/query.fastq</a></code><code> </code></div>
<div><code># download some test Illumina reads from Arabidopsis</code></div>
</blockquote>
<div>
<div></div>
</div>
<p><span style="color: #ff0000;">运行命令：</span></p>
<blockquote>
<div><code>maq # inspect command line options</code><br />
<code>maq fasta2bfa genome.fasta genome.bfa</code><br />
<code>   # create binary of reference genome</code><br />
<code>maq fastq2bfq query.fastq readBinary.bfq</code><br />
<code>   # create a binary of dataset</code><br />
<code>maq match out.map genome.bfa readBinary.bfq</code><br />
<code># align query to genome and store output</code></div>
</blockquote>
<p><span style="color: #ff0000;">结果解读：</span></p>
<div>我在想，这个MAQ软件发明之前，好像还没有SAM文件格式的定义，那么它的结果<code>out.map肯定不是sam格式的。</code></div>
<div><code>哈哈，这个软件我无法安装，换了好几系统也没成功，如果是太老了，很多库文件却是。</code></div>
<div><code>我也懒得去解决了。</code></div>
<div><code>这种报错，对我这样的非计算机专业来说，简直是天书！</code></div>
<div><code><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/05/14.png"><img class="alignnone size-full wp-image-1614" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/05/14.png" alt="1" width="693" height="332" /></a></code></div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1613.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>新的比对工具MOSAIK</title>
		<link>http://www.bio-info-trainee.com/1457.html</link>
		<comments>http://www.bio-info-trainee.com/1457.html#comments</comments>
		<pubDate>Tue, 15 Mar 2016 10:55:20 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[alignment]]></category>
		<category><![CDATA[MOSAIK]]></category>
		<category><![CDATA[sam]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1457</guid>
		<description><![CDATA[功能：序列比对，类似于BWA，Bowtie 优点：全平台，甚至支持pacbio的 &#8230; <a href="http://www.bio-info-trainee.com/1457.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>功能：序列比对，类似于BWA，Bowtie</div>
<div>优点：全平台，甚至支持pacbio的三代测序长reads</div>
<div>算法：是hash index，跟其它bwt算法不太一样</div>
<div>官网：<a href="https://github.com/wanpinglee/MOSAIK" target="_blank">https://github.com/wanpinglee/MOSAIK</a></div>
<div>paper：<a href="http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0090581">http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0090581</a></div>
<div>
<div>
<div>作者：WP Lee - ‎2014 - ‎<a href="https://scholar.google.com/scholar?um=1&amp;ie=UTF-8&amp;lr&amp;cites=8963892741176779202">被引用次数：70</a> - ‎<a href="https://scholar.google.com/scholar?um=1&amp;ie=UTF-8&amp;lr&amp;q=related:wmGLkvQkZnzaqM:scholar.google.com/">相关文章</a></div>
</div>
</div>
<p><span id="more-1457"></span></p>
<div>
<pre>Overview:

MOSAIK is a stable, sensitive and open-source program for mapping second and 
third-generation sequencing reads to a reference genome. Uniquely among current 
mapping tools, MOSAIK can align reads generated by all the major sequencing 
technologies, including Illumina, Applied Biosystems SOLiD, Roche 454, 
Ion Torrent and Pacific BioSciences SMRT.</pre>
</div>
<h1><span style="color: #ff0000;">一，软件安装</span></h1>
<div>
<div>软件下载地址：<a href="https://github.com/wanpinglee/MOSAIK/archive/master.zip">https://github.com/wanpinglee/MOSAIK/archive/master.zip</a></div>
</div>
<div>下载压缩包，解压后进入src源码目录，然后make即可！</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/03/11.png"><img class="alignnone size-full wp-image-1458" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/03/11.png" alt="1" width="389" height="153" /></a></div>
<div>这些程序就可以用啦！</div>
<div>里面有四个软件，所以需要四个步骤来完成比对！</div>
<div>build和jump是对参考基因组建立索引</div>
<div>build同时需要对测序数据进行索引</div>
<div>aligner是把两个索引进行比对！</div>
<div>text是把比对的结果转为其它可读格式，通常是sam比对格式</div>
<h1><span style="color: #ff0000;">二，输入数据准备</span></h1>
<div>比对当然需要测序的fastq格式reads和fa格式的参考基因组啦！</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/03/21.png"><img class="alignnone size-full wp-image-1459" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/03/21.png" alt="2" width="554" height="202" /></a></div>
<div>我是下载的<a href="http://odin.mdacc.tmc.edu/~xsu1/VirusSeq.html" target="_blank">http://odin.mdacc.tmc.edu/~xsu1/VirusSeq.html</a>  里面的数据，因为之所以要用这个软件，也是因为找人体内病毒整合的需求！</div>
<div>PE测序的reads，参考基因组是病毒和人类</div>
<h1><span style="color: #ff0000;">三，运行命令</span></h1>
<div>下面是一个完整的脚本</div>
<div><span style="color: #4f81bd; font-size: medium;"><b>首先对参考基因组构建索引</b></span></div>
<div>
<blockquote>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">Mosaik_bin=~/bio-soft/MOSAIK/bin  #设置好程序安装目录</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">##for gib virus reference genome</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">$Mosaik_bin/MosaikBuild -fr gibVirus.fa -oa gibVirus.fa.bin -st illumina -assignQual 40</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">$Mosaik_bin/MosaikJump -ia gibVirus.fa.bin -out gibVirus.JumpDb -hs 15</span></div>
</blockquote>
</div>
<blockquote>
<div>这两个步骤是构建hash索引，对这个60M的压缩包病毒基因组集合，时间是</div>
<div>
<div>MosaikBuild CPU time: 15.660 s, wall time: 18.146 s</div>
</div>
<div>
<div>MosaikJump CPU time: 329.031 s, wall time: 331.672 s</div>
<div>还可以接受，但是输出的index文件就有点难以接受了！！！！</div>
</div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">333M Mar 11 19:55 gibVirus.fa.bin</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">60M Aug 13  2013 gibVirus.fa.gz</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">5.0G Mar 11 20:04 gibVirus.JumpDb_keys.jmp</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">1 Mar 11 19:59 gibVirus.JumpDb_meta.jmp</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">1.3G Mar 11 20:04 gibVirus.JumpDb_positions.jmp</span></div>
<div>如果是对人的hg19基因组来说，消耗的时间如下：</div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">MosaikBuild CPU time: 183.642 s, wall time: 184.658 s</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">MosaikJump CPU time: 3985.608 s, wall time: 3995.323 s</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">一个多小时，还行！</span></div>
</blockquote>
<p><span style="color: #4f81bd; font-size: medium;"><b>对参考基因组建好了索引，还需要对测序数据构建索引！</b></span></p>
<div>
<blockquote>
<div>$Mosaik_bin/MosaikBuild  -q L526401A_1.fq.gz -q2 L526401A_2.fq.gz -out L526401A.bin -st illumina</div>
</blockquote>
</div>
<blockquote>
<div>数据双端测序，每个1.6G左右数据，构建索引耗时如下：</div>
</blockquote>
<div>
<blockquote>
<div># reads written:          53060622</div>
<div># bases written:        5304891143</div>
<div></div>
<div>MosaikBuild CPU time: 388.969 s, wall time: 391.149 s</div>
</blockquote>
</div>
<p><span style="color: #4f81bd; font-size: medium;"><b>接下来就比对！</b></span></p>
<div>
<blockquote>
<div>ANN_PATH=~/bio-soft/MOSAIK/src/networkFile</div>
<div>$Mosaik_bin/MosaikAligner -in L526401A.bin  \</div>
<div>-out L526401A.bin.aligned \</div>
<div>-ia ../Mosaik_JumpDb/hg19Virus.fa.bin \</div>
<div>-j ../Mosaik_JumpDb/hg19Virus.JumpDb \</div>
<div>-annpe $ANN_PATH/2.1.26.pe.100.0065.ann -annse $ANN_PATH/2.1.26.se.100.005.ann</div>
</blockquote>
</div>
<p><span style="color: #4f81bd; font-size: medium;"><b>比对的结果就是那个L526401A.bin.aligned，但是还需要用MosaikText转换成sam格式方便阅读！</b></span></p>
<div>
<blockquote>
<div>$Mosaik_bin/MosaikText -in<span class="Apple-converted-space"> </span>L526401A.bin.aligned  -sam L526401A.bin.aligned.sam -u</div>
</blockquote>
</div>
<blockquote>
<div>其实它github里面有测试数据，你跑一遍就懂了！</div>
<div></div>
</blockquote>
<h1><span style="color: #ff0000;">四，数据结果解读</span></h1>
<div>都是sam格式了就不比解释了</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1457.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>SAMStat软件使用说明书</title>
		<link>http://www.bio-info-trainee.com/751.html</link>
		<comments>http://www.bio-info-trainee.com/751.html#comments</comments>
		<pubDate>Thu, 21 May 2015 04:00:59 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[sam]]></category>
		<category><![CDATA[samstat]]></category>
		<category><![CDATA[比对]]></category>
		<category><![CDATA[软件使用说明书]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=751</guid>
		<description><![CDATA[这个软件是对我们的比对结果（通常是bwa,bowtie,tophat,hisat &#8230; <a href="http://www.bio-info-trainee.com/751.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<h4><b></b>这个软件是对我们的比对结果（通常是bwa,bowtie,tophat,hisat,star）bam或者sam来进行一个可视化的总结，类似于fastqc对我们的fastq测序结果做一个可视化总结，非常好用。</h4>
<p>一．下载并安装该软件</p>
<p>软件主页是http://samstat.sourceforge.net/ 里面对该软件进行非常详细的说明</p>
<p>包括installation和usage，我这里简单的翻译一下。</p>
<p>Wget <a href="http://liquidtelecom.dl.sourceforge.net/project/samstat/samstat-1.5.tar.gz">http://liquidtelecom.dl.sourceforge.net/project/samstat/samstat-1.5.tar.gz</a></p>
<p>解压开看里面的readme有介绍如何安装这个软件</p>
<p>Unpack the tarball:</p>
<p>bash-3.1$ tar -zxvf samstat-XXX.tar.gz</p>
<p>bash-3.1$ cd samstat</p>
<p>bash-3.1$ ./configure</p>
<p>bash-3.1$ make</p>
<p>bash-3.1$ make check</p>
<p>bash-3.1$ make install</p>
<p>如果用root命令就可以直接用samstat啦</p>
<p>如果没有root权限，安装的时候稍微有点不同</p>
<p>./configure  --prefix=/home/jmzeng/my-bin/</p>
<p>make</p>
<p>make install</p>
<p>很简单的</p>
<p>二，数据，就是我们的bam文件啦</p>
<p>三，运行命令</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/SAMStat软件使用说明书710.png"><img class="alignnone size-full wp-image-752" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/SAMStat软件使用说明书710.png" alt="SAMStat软件使用说明书710" width="554" height="125" /></a></p>
<p>四，结果</p>
<p>简单看看samtools flagstat 740WT1.bam  的结果</p>
<p>19232378 + 0 in total (QC-passed reads + QC-failed reads)</p>
<p>0 + 0 duplicates</p>
<p>18846845 + 0 mapped (98.00%:-nan%)</p>
<p>0 + 0 paired in sequencing</p>
<p>0 + 0 read1</p>
<p>0 + 0 read2</p>
<p>0 + 0 properly paired (-nan%:-nan%)</p>
<p>0 + 0 with itself and mate mapped</p>
<p>0 + 0 singletons (-nan%:-nan%)</p>
<p>0 + 0 with mate mapped to a different chr</p>
<p>0 + 0 with mate mapped to a different chr (mapQ&gt;=5)</p>
<p>然后再看看我们的samstat的结果！</p>
<p>740WT1.bam.samstat.html</p>
<p>一个网页，非常丰富的内容</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/SAMStat软件使用说明书1168.png"><img class="alignnone size-full wp-image-753" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/SAMStat软件使用说明书1168.png" alt="SAMStat软件使用说明书1168" width="554" height="538" /></a></p>
<p>内容太多了，我懒得解释了</p>
<p>见软件说明书http://davetang.org/wiki/tiki-index.php?page=SAMStat</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/751.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Samtools安装及使用</title>
		<link>http://www.bio-info-trainee.com/518.html</link>
		<comments>http://www.bio-info-trainee.com/518.html#comments</comments>
		<pubDate>Sun, 29 Mar 2015 13:45:27 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[生信基础]]></category>
		<category><![CDATA[sam]]></category>
		<category><![CDATA[samtools]]></category>
		<category><![CDATA[安装]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=518</guid>
		<description><![CDATA[一、下载安装该软件。 网上可以搜索到下载地址，解压之后make即可 一般都会报错 &#8230; <a href="http://www.bio-info-trainee.com/518.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>一、下载安装该软件。</p>
<p>网上可以搜索到下载地址，解压之后make即可</p>
<p>一般都会报错</p>
<p>In file included from bam_cat.c:41:0:</p>
<p>htslib-1.1/htslib/bgzf.h:34:18: fatal error: zlib.h: No such file or directory</p>
<p><b> #include &lt;zlib.h&gt;</b></p>
<p>^</p>
<p>compilation terminated.</p>
<p>make: *** [bam_cat.o] Error 1</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Samtools安装及使用265.png"><img class="alignnone size-full wp-image-519" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Samtools安装及使用265.png" alt="Samtools安装及使用265" width="552" height="510" /></a></p>
<p>然后，居然就通过了，晕。<span style="color: #ff0000;"><strong>有时候我实在是搞不定linux系统一些具体的原理</strong></span>，但是反正就是能用！学会搜索，学会试错即可。</p>
<p>直到两年后我才理解（linux下 的软件安装需要指定路径，而且是自己有权限的路径，2016年11月23日10:12:11），比如安装下面的方式来安装软件：</p>
<p><strong><span style="color: #ff0000;">mkdir -p ~/biosoft/myBin</span></strong><br />
<strong><span style="color: #ff0000;">echo 'export PATH=/home/jianmingzeng/biosoft/myBin/bin:$PATH' &gt;&gt;~/.bashrc </span></strong><br />
<strong><span style="color: #ff0000;">source ~/.bashrc</span></strong><br />
<strong><span style="color: #ff0000;">cd ~/biosoft</span></strong><br />
<strong><span style="color: #ff0000;">mkdir cmake &amp;&amp; cd cmake</span></strong><br />
<strong><span style="color: #ff0000;">wget http://cmake.org/files/v3.3/cmake-3.3.2.tar.gz</span></strong><br />
<strong><span style="color: #ff0000;">tar xvfz cmake-3.3.2.tar.gz</span></strong><br />
<strong><span style="color: #ff0000;">cd cmake-3.3.2 </span></strong><br />
<strong><span style="color: #ff0000;">./configure --prefix=/home/jianmingzeng/biosoft/myBin  ## 这里非常重要</span></strong><br />
<strong><span style="color: #ff0000;">make </span></strong><br />
<strong><span style="color: #ff0000;">make install </span></strong></p>
<p>但是有些电脑会报另外一个错</p>
<p>#include &lt;curses.h&gt;</p>
<p>^</p>
<p>compilation terminated.</p>
<p>make: *** [bam_tview_curses.o] Error 1</p>
<p>我也顺便解决一下，因为以前我的服务器遇到过，也是很纠结的。</p>
<p>sudo apt-get install libncurses5-dev</p>
<p>二．准备数据及使用，见我的snp-caling流程</p>
<p><a href="http://www.bio-info-trainee.com/?p=439">http://www.bio-info-trainee.com/?p=439</a></p>
<p>samtools view -bS <b>tmp1.sam &gt; tmp1.bam</b></p>
<p>samtools sort <b>tmp1.bam tmp1.sorted</b></p>
<p>samtools <b>index tmp1.sorted.bam </b></p>
<p>samtools mpileup -d 1000  -gSDf   ../../../ref-database/hg19.fa  tmp1.sorted.bam |bcftools view -cvNg –  &gt;<b>tmp1.vcf</b></p>
<p>因为这个软件都是与bwa和bowtie等能产生sam文件的软件合作才能使用。</p>
<p>其中这个软件参数还是蛮多的，但是常用的就那么几个，网上也很容易找到教程</p>
<p>简单附上一点资料</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p><a href="http://www.plob.org/tag/samtools">samtools</a>是一个用于操作sam和bam文件的工具合集。包含有许多命令。以下是常用命令的介绍</p>
<h2><b>1. view</b></h2>
<p>view命令的主要功能是：将sam文件转换成bam文件；然后对bam文件进行各种操作，比如数据的排序(不属于本命令的功能)和提取(这些操作是对bam文件进行的，因而当输入为sam文件的时候，不能进行该操作)；最后将排序或提取得到的数据输出为bam或sam（默认的）格式。</p>
<p>bam文件优点：bam文件为二进制文件，占用的磁盘空间比sam文本文件小；利用bam二进制文件的运算速度快。</p>
<p>view命令中，对sam文件头部的输入(-t或-T）和输出(-h)是单独的一些参数来控制的。</p>
<p>Usage: samtools view [options] &lt;in.bam&gt;|&lt;in.sam&gt; [region1 [...]]默认情况下不加 region，则是输出所有的 region. Options:</p>
<p>-b       output BAM                  默认下输出是 SAM 格式文件，该参数设置输出 BAM 格式         -h       print header for the SAM output                  默认下输出的 sam 格式文件不带 header，该参数设定输出sam文件时带 header 信息         -H       print header only (no alignments)         -S       input is SAM                  默认下输入是 BAM 文件，若是输入是 SAM 文件，则最好加该参数，否则有时候会报错。</p>
<p>例子：</p>
<p>#将sam文件转换成bam文件$ samtools view -bS abc.sam &gt; abc.bam$ samtools view -b -S abc.sam -o abc.bam</p>
<p>#提取比对到参考序列上的比对结果$ samtools view -bF 4 abc.bam &gt; abc.F.bam #提取paired reads中两条reads都比对到参考序列上的比对结果，只需要把两个4+8的值12作为过滤参数即可$ samtools view -bF 12 abc.bam &gt; abc.F12.bam #提取没有比对到参考序列上的比对结果$ samtools view -bf 4 abc.bam &gt; abc.f.bam #提取bam文件中比对到caffold1上的比对结果，并保存到sam文件格式$ samtools view abc.bam scaffold1 &gt; scaffold1.sam #提取scaffold1上能比对到30k到100k区域的比对结果$ samtools view abc.bam scaffold1:30000-100000 &gt; scaffold1_30k-100k.sam #根据fasta文件，将 header 加入到 sam 或 bam 文件中$ samtools view -T genome.fasta -h scaffold1.sam &gt; scaffold1.h.sam</p>
<h2><b>2. sort</b></h2>
<p>sort对bam文件进行排序。</p>
<p>Usage: samtools sort [-n] [-m &lt;maxMem&gt;] &lt;in.bam&gt; &lt;out.prefix&gt;  -m 参数默认下是 500,000,000 即500M（不支持K，M，G等缩写）。对于处理大数据时，如果内存够用，则设置大点的值，以节约时间。-n 设定排序方式按short reads的ID排序。默认下是按序列在fasta文件中的顺序（即header）和序列从左往右的位点排序。</p>
<p>例子：</p>
<p>$ samtools sort abc.bam abc.sort$ samtools view abc.sort.bam | less -S</p>
<h2><b>3.merge</b></h2>
<p>将2个或2个以上的已经sort了的bam文件融合成一个bam文件。融合后的文件不需要则是已经sort过了的。</p>
<p>Usage:   samtools merge [-nr] [-h inh.sam] &lt;out.bam&gt; &lt;in1.bam&gt; &lt;in2.bam&gt;[...] Options: -n       sort by read names         -r       attach RG tag (inferred from file names)         -u       uncompressed BAM output         -f       overwrite the output BAM if exist         -1       compress level 1         -R STR   merge file in the specified region STR [all]         -h FILE  copy the header in FILE to &lt;out.bam&gt; [in1.bam] Note: Samtools' merge does not reconstruct the @RG dictionary in the header. Users      must provide the correct header with -h, or uses Picard which properly maintains      the header dictionary in merging.</p>
<h2><b>4.index</b></h2>
<p>必须对bam文件进行默认情况下的排序后，才能进行index。否则会报错。</p>
<p>建立索引后将产生后缀为.bai的文件，用于快速的随机处理。很多情况下需要有bai文件的存在，特别是显示序列比对情况下。比如samtool的tview命令就需要；gbrowse2显示reads的比对图形的时候也需要。</p>
<p>Usage: samtools index &lt;in.bam&gt; [out.index]</p>
<p>例子：</p>
<p>#以下两种命令结果一样$ samtools index abc.sort.bam$ samtools index abc.sort.bam abc.sort.bam.bai</p>
<h2><b>5. faidx</b></h2>
<p>对fasta文件建立索引,生成的索引文件以.fai后缀结尾。该命令也能依据索引文件快速提取fasta文件中的某一条（子）序列</p>
<p>Usage: samtools faidx &lt;in.bam&gt; [ [...]] 对基因组文件建立索引$ samtools faidx genome.fasta#生成了索引文件genome.fasta.fai,是一个文本文件，分成了5列。第一列是子序列的名称；第二列是子序列的长度；个人认为“第三列是序列所在的位置”，因为该数字从上往下逐渐变大，最后的数字是genome.fasta文件的大小；第4和5列不知是啥意思。于是通过此文件，可以定位子序列在fasta文件在磁盘上的存放位置，直接快速调出子序列。 #由于有索引文件，可以使用以下命令很快从基因组中提取到fasta格式的子序列$ samtools faidx genome.fasta scffold_10 &gt; scaffold_10.fasta</p>
<h2><b>6. tview</b></h2>
<p>tview能直观的显示出reads比对基因组的情况，和基因组浏览器有点类似。</p>
<p>Usage: samtools tview &lt;aln.bam&gt; [ref.fasta] 当给出参考基因组的时候，会在第一排显示参考基因组的序列，否则，第一排全用N表示。按下 g ，则提示输入要到达基因组的某一个位点。例子“scaffold_10:1000"表示到达第10号scaffold的第1000个碱基位点处。使用H(左）J（上）K（下）L（右）移动显示界面。大写字母移动快，小写字母移动慢。使用空格建向左快速移动（和 L 类似），使用Backspace键向左快速移动（和 H 类似）。Ctrl+H 向左移动1kb碱基距离； Ctrl+L 向右移动1kb碱基距离可以用颜色标注比对质量，碱基质量，核苷酸等。30～40的碱基质量或比对质量使用白色表示；20～30黄色；10～20绿色；0～10蓝色。使用点号'.'切换显示碱基和点号；使用r切换显示read name等还有很多其它的使用说明，具体按 ？ 键来查看。</p>
<p>&nbsp;</p>
<p>参考：<a href="http://www.plob.org/tag/samtools">samtools</a>的说明文档：<a href="http://samtools.sourceforge.net/samtools.shtml">http://samtools.sourceforge.net/samtools.shtml</a></p>
<p><a href="http://www.plob.org/2014/01/26/7112.html">http://www.plob.org/2014/01/26/7112.html</a></p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/518.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
