<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; 比对</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/%e6%af%94%e5%af%b9/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>【直播】我的基因组（十一）:测序数据的比对</title>
		<link>http://www.bio-info-trainee.com/2112.html</link>
		<comments>http://www.bio-info-trainee.com/2112.html#comments</comments>
		<pubDate>Fri, 09 Dec 2016 01:04:10 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[直播我的个人基因组]]></category>
		<category><![CDATA[基因组]]></category>
		<category><![CDATA[比对]]></category>
		<category><![CDATA[直播]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=2112</guid>
		<description><![CDATA[上一次直播中，我们对拿到手的测序数据进行了质控，测序数据的质量已经得到了保证。那 &#8230; <a href="http://www.bio-info-trainee.com/2112.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>上一次直播中，我们对拿到手的测序数据进行了质控，测序数据的质量已经得到了保证。那么接下来就可以把它拿来与参考基因组比对了，这里我们先用参考基因组hg19，大家可以参照<a href="http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&amp;mid=2247483738&amp;idx=1&amp;sn=bd57965cf960293837671b315b35c4d4&amp;chksm=9b4841e1ac3fc8f7d4102f1b07abce8d805542ef56b25c5aab21fb587276170d7a1ef8a6ab8a&amp;scene=21#wechat_redirect" target="_blank">【直播】我的基因组（五）:测试数据及参考基因组的准备</a>来下载参考基因组hg19，我这里选择的是UCSC提供的hg19。然后安装bwa软件进行比对，可以参考<a href="http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&amp;mid=2247483733&amp;idx=1&amp;sn=e16ae0c926adb50d82ad5910bff12a76&amp;chksm=9b4841eeac3fc8f894e5bd39053eadf3e961dec3316e190d4c6e56faa14627c50a0e3e684b5c&amp;scene=21#wechat_redirect" target="_blank">【直播】我的基因组（四）：计算资源的准备</a>来安装，以及对hg19建立索引。<span id="more-2112"></span></p>
<section class="" data-source="bj.96weixin.com">
<section>
<section class="">
<section>
<section class="">
<section class="">
<section>
<section>我们首先简单讲一下为什么要进行比对以及比对过程是怎样的？</section>
</section>
</section>
</section>
<section class=""></section>
</section>
</section>
</section>
</section>
<p>可以看到我们到手的测序数据格式是fastq，每条reads都是150个碱基组成，如果只看这fastq，我们没办法得知它的意义，参考基因组那么大(人类约30亿个碱基)，这个reads在我们基因组的哪里呢？</p>
<section class="" data-source="bj.96weixin.com">
<section>
<section class=""></section>
<section class=""></section>
</section>
<section class="">简单解释一下，假设人类基因组是123456789，如果我们的测序得到的reads是123，那么我们很明显知道这条reads在基因组的第一个位置，跨越了3个长度，如果我们的reads是567，那么我们也可以看到它在基因组的第5个位置。如果我们看到了一个reads是235567，同样我们也很容易看到它在基因组第2位置，但是在第3个位置参考是4，它却是5，这里可能是测序错误，也可能是这个reads真的变异了！</section>
<section>
<section class=""></section>
</section>
</section>
<p>但是我们的参考基因组远远没有那么简单，30亿个碱基的庞大数目，测序的一条reads也有150个碱基，仅仅用肉眼观察基本不可能判断出它到底在哪里。但并非一定观察不到，如果你有多的不可计的时间及精力的话，手工比对穷极一生来搞定一条reads的比对就很不容易了（当然肯定不会有人这么傻，这里只是说数据量真的很大而已）。然而在我们手上可是有8.9亿条reads，所以我们需要借助计算机来进行比对，现在比较流行的基因组比对工具是bwa和bowtie，它俩的算法不一样，但是我们不需要了解那么具体，只需要知道它可以把我们的fastq测序文件通过与参考基因组的比对生成<strong>sam</strong>格式（自行搜索了解该格式）的比对结果文件（如下），从sam文件中，我们可以看到每条reads在参考基因组的位置，这条reads是在哪一条染色体，又是在这条染色体的哪个位置就可以一目了然。</p>
<p><img class="" src="http://mmbiz.qpic.cn/mmbiz_png/cZNhZQ6j4wzuDK0p23Mt9iaibtiboAS9stdcAq6PhDe1uWIefg4RUKgp7bl6Ofw8bj8u5icbR4o3kBpEBVT09owCrQ/640?wx_fmt=png&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1" alt="" data-src="http://mmbiz.qpic.cn/mmbiz_png/cZNhZQ6j4wzuDK0p23Mt9iaibtiboAS9stdcAq6PhDe1uWIefg4RUKgp7bl6Ofw8bj8u5icbR4o3kBpEBVT09owCrQ/0?wx_fmt=png" data-type="png" data-ratio="0.38461538461538464" data-w="910" data-fail="0" /></p>
<p>对于比对的结果，我们可以用IGV可视化查看，还可以手动查看每个基因的比对情况：</p>
<p><img class="" src="http://mmbiz.qpic.cn/mmbiz_png/cZNhZQ6j4wzuDK0p23Mt9iaibtiboAS9std7fSgbbsFConhfaj5nlpE8FDp4KKhVmw6De0r3qx66VjOJicZ9LCVnDA/640?wx_fmt=png&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1" alt="" data-ratio="0.5846645367412141" data-src="http://mmbiz.qpic.cn/mmbiz_png/cZNhZQ6j4wzuDK0p23Mt9iaibtiboAS9std7fSgbbsFConhfaj5nlpE8FDp4KKhVmw6De0r3qx66VjOJicZ9LCVnDA/0?wx_fmt=png" data-type="png" data-w="313" data-fail="0" /></p>
<section class="" data-source="bj.96weixin.com"><img class="" src="http://mmbiz.qpic.cn/mmbiz/cZV2hRpuAPia3RFX6Mvw06kePJ7HbmI7bXMGOD1MdJia6m00iacPLYDFTbibPzcEx9N1GDCdhnLFz6yaobcDMcgwkQ/640?wx_fmt=png&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1" alt="" data-src="http://mmbiz.qpic.cn/mmbiz/cZV2hRpuAPia3RFX6Mvw06kePJ7HbmI7bXMGOD1MdJia6m00iacPLYDFTbibPzcEx9N1GDCdhnLFz6yaobcDMcgwkQ/0?wx_fmt=png" data-ratio="0.003" data-w="1000" data-fail="0" /></section>
<p>下面我简单讲一下代码</p>
<p><strong>1，下载hg19基因组</strong></p>
<section class="" data-source="bj.96weixin.com">
<section>
<section class="">
<section class="">
<section class="">
<section class="">
<section class="">cd ~/referencemkdir -p genome/hg19  &amp;&amp; cd genome/hg19</p>
<p>nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &amp;</p>
<p>tar zvfx chromFa.tar.gz</p>
<p>cat *.fa &gt; hg19.fa</p>
<section>rm chr*.fa</section>
</section>
</section>
</section>
</section>
</section>
</section>
</section>
<p>首先要理解linux基础命令，在我们的服务器上面新建好目录，找到hg19的下载链接，用linux自带的wget下载，因为文件太大，所以我们用nohup放在后台下载。下载后是压缩文件 chromFa.tar.gz，在linux里面需要用tar zvfx 来解压tar.gz文件即可。解压开后是一个个文件，需要用cat合并！最终效果如下：</p>
<p><img class="" src="http://mmbiz.qpic.cn/mmbiz_png/cZNhZQ6j4wzuDK0p23Mt9iaibtiboAS9stdEJqq3nw5wv7c74iaecOFKdwOIiac5Jpfh6r0JSEkrrCecIcm72ojt2ww/640?wx_fmt=png&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1" alt="" data-ratio="0.2434017595307918" data-src="http://mmbiz.qpic.cn/mmbiz_png/cZNhZQ6j4wzuDK0p23Mt9iaibtiboAS9stdEJqq3nw5wv7c74iaecOFKdwOIiac5Jpfh6r0JSEkrrCecIcm72ojt2ww/0?wx_fmt=png" data-type="png" data-w="341" data-fail="0" /></p>
<p><strong>2，安装bwa软件</strong></p>
<section class="" data-source="bj.96weixin.com">
<section>
<section class="">
<section class="">
<section class="">
<section class="">
<section class="">
<section>## Download and install BWAcd ~/biosoft</p>
<p>mkdir bwa &amp;&amp;  cd bwa</p>
<p>#http://sourceforge.net/projects/bio-bwa/files/</p>
<p>wget https://sourceforge.net/projects/bio-bwa/files/bwa-0.7.15.tar.bz2</p>
<p>tar xvfj bwa-0.7.15.tar.bz2 # x extracts, v is verbose (details of what it is doing), f skips prompting for each individual file, and j tells it to unzip .bz2 files</p>
<p>cd bwa-0.7.15</p>
<p>make</p>
<p>~/biosoft/bwa/bwa-0.7.15/bwa</p>
</section>
</section>
</section>
</section>
</section>
</section>
</section>
</section>
<p>我所有的软件都安装在自己的home目录下面的biosoft文件夹。同样，也是找的bwa的下载地址，然后解压，然后直接make即可。很多人的服务器会报错zlib.h缺少的问题，看我以前的教程：http://www.bio-info-trainee.com/518.html ,缺少什么你就安装什么，但是缺少的东西需要安装到系统环境变量，但是我的bwa是直接安装到自己的目录，所以我用全路径在调用该软件。如果你的这个命令~/biosoft/bwa/bwa-0.7.15/bwa  能够显示下面的help文档，说明你已经安装成功啦~</p>
<p><img class="" src="http://mmbiz.qpic.cn/mmbiz_png/cZNhZQ6j4wzuDK0p23Mt9iaibtiboAS9stduSBcianJmK4mrAukw7dpnf4YMleB9bvMGZSdqLFUzFqb2OJPM2svucA/640?wx_fmt=png&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1" alt="" data-ratio="0.7730769230769231" data-src="http://mmbiz.qpic.cn/mmbiz_png/cZNhZQ6j4wzuDK0p23Mt9iaibtiboAS9stduSBcianJmK4mrAukw7dpnf4YMleB9bvMGZSdqLFUzFqb2OJPM2svucA/0?wx_fmt=png" data-type="png" data-w="520" data-fail="0" /></p>
<p><strong>3，对hg19参考基因组用bwa构建索引</strong></p>
<section class="" data-source="bj.96weixin.com">
<section>
<section class="">
<section class="">
<section class="">
<section class="">
<section class="">
<section>cd ~/referencemkdir -p index/bwa &amp;&amp; cd index/bwa</p>
<p>nohup time ~/biosoft/bwa/bwa-0.7.15/bwa index   -a bwtsw   -p ~/reference/index/bwa/hg19  ~/reference/genome/hg19/hg19.fa 1&gt;hg19.bwa_index.log 2&gt;&amp;1   &amp;</p>
</section>
</section>
</section>
</section>
</section>
</section>
</section>
</section>
<p>代码很简单，就是新建好一个文件夹来存放我们的参考基因组的索引，我这里选择的是我的home目录下面的reference/index/bwa/ 文件夹，可以看到如下内容：</p>
<p><img class="" src="http://mmbiz.qpic.cn/mmbiz_png/cZNhZQ6j4wzuDK0p23Mt9iaibtiboAS9stdnoq2U3n6kfbNeJkHTjmFLLhIhLzaOG59kkhXiaxhxXZ4vcTHickd8YAA/640?wx_fmt=png&amp;tp=webp&amp;wxfrom=5&amp;wx_lazy=1" alt="" data-ratio="0.34139784946236557" data-src="http://mmbiz.qpic.cn/mmbiz_png/cZNhZQ6j4wzuDK0p23Mt9iaibtiboAS9stdnoq2U3n6kfbNeJkHTjmFLLhIhLzaOG59kkhXiaxhxXZ4vcTHickd8YAA/0?wx_fmt=png" data-type="png" data-w="372" data-fail="0" /></p>
<p>我还是用了nohup把这个命令挂在后台，防止掉线，因为要运行2个小时左右，我加上time命令可以看到运行时间，我用了bwa的index模式来索引参考基因在，具体bwa用法可以自己看文档，但是我们只需要学会索引及比对就好了。有点类似于window下面的软件有一个个菜单栏一样，需要自己的鼠标点击来实现一个个功能，在linux下面就是把命令准备好，然后运行。</p>
<p><strong>4.把fastq文件比对到参考基因组</strong></p>
<section class="" data-source="bj.96weixin.com">
<section>
<section class="">
<section class="">
<section class="">
<section class="">
<section class="">
<section>for i in $(seq 1 6) ;do (nohup ~/biosoft/bwa/bwa-0.7.15/bwa  mem -t 5 -M ~/reference/index/bwa/hg19  KPGP-00001_L${i}_R1.fq.gz KPGP-00001_L${i}_R2.fq.gz 1&gt;KPGP-00001_L${i}.sam 2&gt;KPGP-00001_L${i}.bwa.align.log &amp;);done</section>
</section>
</section>
</section>
</section>
</section>
</section>
</section>
<p><strong>这个命令就一句话，但是里面的信息量非常大， 需要熟练掌握linux命令以及shell脚本的语法</strong>，但是解析起来也很简单，就是因为我们的fastq文件命名是有规律的，根据规律我构造出一个循环命令，里面的i这个变量会自动扩展成1，2，3，4，5，6依次来用bwa  mem 模式来比对，因为是PE150测序，所以选择这个模式，-M就是选择我们上一步构建好的参考基因组，最后面的 1&gt; 和2&gt;是把软件运行结果输出来，分别是标准输出和标准错误输出，大家可以自行搜索。如果fastq文件的命名发生变化，这个shell脚本是运行不了的，需要临时构建，自己得掌握脚本编写，不然就一个个的比对，手动。</p>
<p>大家可以去看<a href="http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&amp;mid=2247483747&amp;idx=1&amp;sn=fc0c1e6d516dd4380e2d99b3644c8de7&amp;chksm=9b4841d8ac3fc8cebb4230aaa18c837c7b5f24ad911467050e7b172b6a0a18351fe77c6ae4f7&amp;scene=21#wechat_redirect" target="_blank"><strong>【直播】我的基因组（七）:从整体理解全基因组测序数据的变异位点</strong></a>，来了解这个命令的运行结果。</p>
<p>请扫描以下二维码关注我们，获取直播系列的所有帖子！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/10/12.png"><img class="alignnone size-full wp-image-1965" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/10/12.png" alt="1" width="634" height="589" /></a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/2112.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>关于multiple mapping我想说的</title>
		<link>http://www.bio-info-trainee.com/2047.html</link>
		<comments>http://www.bio-info-trainee.com/2047.html#comments</comments>
		<pubDate>Wed, 23 Nov 2016 12:09:13 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[杂谈-随笔]]></category>
		<category><![CDATA[mapping]]></category>
		<category><![CDATA[multiple]]></category>
		<category><![CDATA[unique]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=2047</guid>
		<description><![CDATA[很多时候，我们都要选取unique mapped的reads，尤其是在RNA-s &#8230; <a href="http://www.bio-info-trainee.com/2047.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>很多时候，我们都要选取unique mapped的reads，尤其是在RNA-seq和CHIP-seq的时候，但是如何保留，各种教程都不一致，我稍微总结了一下，是因为使用的比对工具不一样导致的！但是主要都反应在sam文件的一系列tag里面~</p>
<p>首先对bwa来说，如果它遇到一个reads可以比对到参考基因在的多个序列，只会随机的选取一个位置来输出到sam文件，但是会加上一个<strong><span style="color: #ff0000;">tag是XS:I:&lt;N&gt;</span></strong>来告诉我们第二好的比对情况的比对得分是多少，bowtie也是一样。但是它们都有参数来决定是否只对每个reads输出一条信息，还是输出全部的信息，在bwa是-a的参数，在bowtie里面是-m参数。</p>
<p>但是bowtie2里面取消了这个参数，它们都必须用XS:I:&lt;N&gt;这个tag来挑选unique mapped的reads</p>
<p>但是如果是用hisat来比对的话，决定是否是唯一比对的却是<strong><span style="color: #ff0000;">NH这个tag信息</span></strong>。默认情况下一条reads可以输出多条比对结果。</p>
<p>我想起了再补充吧，其实应该找几个例子用IGV看看，就明白了，可是我暂时没有时间了，只是觉得这个很重要，就提一下。</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/2047.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用 SHRiMP 来比对color space的数据</title>
		<link>http://www.bio-info-trainee.com/1858.html</link>
		<comments>http://www.bio-info-trainee.com/1858.html#comments</comments>
		<pubDate>Thu, 04 Aug 2016 02:08:43 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[color space]]></category>
		<category><![CDATA[SHRiMP]]></category>
		<category><![CDATA[solid]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1858</guid>
		<description><![CDATA[无意中接触了AB 5500xl Genetic Analyzer这个测序仪的数据 &#8230; <a href="http://www.bio-info-trainee.com/1858.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>无意中接触了AB 5500xl Genetic Analyzer这个测序仪的数据，就是传说中的solid格式，也就是color space的测序数据 ，虽然拿到的测序数据也是fastq格式的， 4行代表一条read，但是第二行已经不是在是碱基序列啦，而是color的编码。Colors may be encoded either as numbers (<code>0</code>=blue, <code>1</code>=green, <code>2</code>=orange, <code>3</code>=red) or as characters <code>A/C/G/T</code> (<code>A</code>=blue, <code>C</code>=green, <code>G</code>=orange, <code>T</code>=red).我们通常称为csfastq格式。</div>
<div>对于这种数据的处理，一般的比对软件是hold 不住的，我查了一下，SHRiMP，sequel和BFAST ，bowtie，是可以处理这种csfastq格式数据的比对的， 我这里简单使用了最出名的SHRiMP 。</div>
<p><span id="more-1858"></span></p>
<div>安装过程如下：</div>
<div>
<blockquote>
<div>## <a href="http://compbio.cs.toronto.edu/shrimp/">http://compbio.cs.toronto.edu/shrimp/</a></div>
<div>cd ~/biosoft</div>
<div>mkdir SHRiMP &amp;&amp;  cd SHRiMP</div>
<div>wget <a href="http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz">http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz</a></div>
<div>tar zxvf SHRiMP_2_2_3.lx26.x86_64.tar.gz</div>
<div>cd SHRiMP_2_2_3</div>
<div>export SHRIMP_FOLDER=$PWD</div>
</blockquote>
</div>
<div>## 如果需要永久使用就添加到.bashrc，如果只是用一次，就export即可。</div>
<div>软件说明书详细介绍了该软件的用法：<a href="http://compbio.cs.toronto.edu/shrimp/README">http://compbio.cs.toronto.edu/shrimp/README</a></div>
<div><span style="color: #ff0000;"><b>如果你的参考基因组很小，那么直接使用就好了。</b></span></div>
<div>
<div>如果是普通的小基因组和小的color space测序序列</div>
<div>
<blockquote>
<pre>$SHRIMP_FOLDER/bin/gmapper-cs <b><span style="color: #ff0000;">test.csfasta</span></b> \
  <span style="color: #ff0000;">reference.fa </span>\
  -N 4 -o 5 -h 80% &gt;map.test.out 2&gt;map.test.log</pre>
</blockquote>
</div>
<div>具体参数意义，大家看软件说明书吧。</div>
<div></div>
<div>或者对于miRNA来说</div>
<blockquote>
<div>##　　We project the database with:</div>
<div>$SHRIMP_FOLDER/utils/project-db.py --seed 00111111001111111100,00111111110011111100,00111111111100111100,00111111111111001100,00111111111111110000 \</div>
<div> --h-flag --shrimp-mode ls miRBase/hairpin.human.fa</div>
<div>##</div>
<div>$SHRIMP_FOLDER/bin/gmapper-ls -L  hairpin.human-ls SRR1542716.fastq <b><span style="color: #ff0000;"> --qv-offset 33</span></b>   \</div>
<div>-o 1 -H -E -a -1 -q -30 -g -30 --qv-offset 33 --strata -N 8  &gt;map.out 2&gt;map.log</div>
</blockquote>
</div>
<p><b><span style="color: #ff0000;">如果你的参加基因太大，超过了你的内存限制，那么就需要技巧了。</span></b></p>
<div>代码也不难，如下：</div>
<div>
<blockquote>
<pre>$SHRIMP_FOLDER/utils/split-db.py --ram-size 14 --prefix hg18 hg18.fa</pre>
<pre>$SHRIMP_FOLDER/utils/project-db.py --shrimp-mode ls hg18-14gb-*.fa</pre>
<pre> for i in 1 2 3 4; do \
      $SHRIMP_FOLDER/bin/gmapper-ls -L hg18-14gb-12_12_12_12seeds-${i}of4-ls \
      reads.500kx2.36bp.ls.fa \
      -N 8 -p opp-in -I 50,500 -m 20 -i -25 -g -40 -e -10 -E \
      &gt;map.db${i}of4.sam 2&gt;map.db${i}of4.log
    done
  [...]
 ls map.db*.sam</pre>
<pre>$SHRIMP_FOLDER/bin/mergesam reads.500kx2.36bp.ls.fa map.db?of4.sam &gt; map.sam</pre>
</blockquote>
<p>最后的map.sam文件就是我们 比对结果啦！</p>
</div>
<div>sam文件我就不解释啦！</div>
<div> 因为把参考基因组分开，还是很麻烦，而且耗时的，我并没有那样做，我的机器1T的内存，我不觉得有什么基因组会超出我的内存限制</div>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1858.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>华大soap系列的比对软件</title>
		<link>http://www.bio-info-trainee.com/1616.html</link>
		<comments>http://www.bio-info-trainee.com/1616.html#comments</comments>
		<pubDate>Thu, 05 May 2016 12:18:15 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[soap]]></category>
		<category><![CDATA[华大]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1616</guid>
		<description><![CDATA[也不知道是什么原因，对国产软件总是提不起兴趣，所以尽管SOAP系列都已经发展到了 &#8230; <a href="http://www.bio-info-trainee.com/1616.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>也不知道是什么原因，对国产软件总是提不起兴趣，所以尽管SOAP系列都已经发展到了十几个软件了，我依然没有去试用一下。</p>
<div>
<div><span style="color: #ff0000;">软件下载：</span></div>
<div>官网直接找到：<a href="http://soap.genomics.org.cn/">http://soap.genomics.org.cn/</a></div>
<div><strong>SOAPaligner/soap2</strong> is a member of the <strong>SOAP (Short Oligonucleotide Analysis Package)</strong>.</div>
<div>很久以前，大家说soap其实指的是类似于bwa这样的比对工具，但是后来这个工具箱丰富了，所以我们现在如果只看比对工具，要看的是<strong>SOAPaligner</strong></div>
<div>我是linux系统，用wget下载：wget <a href="http://soap.genomics.org.cn/down/soap2.21release.tar.gz">http://soap.genomics.org.cn/down/soap2.21release.tar.gz</a></div>
<div>解压，由于下载是可执行程序，就不需要安装啦！</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/05/15.png"><img class="alignnone size-full wp-image-1617" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/05/15.png" alt="1" width="296" height="114" /></a></div>
<div>安装之后把该软件添加到环境变量！</div>
<div>输入数据：</div>
<div>这里选择两个网络上的测试数据:</div>
<div>如果是真想用这个软件的话，需要参考基因组和测序数据，这个链接貌似已经年久失修啦~！</div>
<blockquote>
<div><code>wget <a href="http://biocluster.ucr.edu/~tbackman/genome.fasta">http://biocluster.ucr.edu/~tbackman/genome.fasta</a> </code></div>
<div><code># download a test reference genome (TAIR9 Chromosome 1)<br />
wget </code><code><a href="http://biocluster.ucr.edu/~tbackman/query.fastq">http://biocluster.ucr.edu/~tbackman/query.fastq</a></code><code> </code></div>
<div><code># download some test Illumina reads from Arabidopsis</code></div>
</blockquote>
<div>
<div></div>
</div>
<p><span style="color: #ff0000;">运行命令：</span></p>
<blockquote>
<div><code></code><code>2bwt-builder genome.fasta</code><br />
<code>   # create binary of reference genome</code><br />
<code>soap -a query.fastq -D genome.fasta.index -o output.soap</code><br />
<code>   # align query to genome and store output</code><code></code></div>
</blockquote>
<p><span style="color: #ff0000;">结果解读：</span></p>
<div>由于测试数据没有下载下来，我安装了软件就懒得玩了，其实正经的来讲，应该写一个详细的测评，包括软件运行速度，比对准确率，等等，不过那样做就是发paper的节奏了，我随便玩玩，就算啦。</div>
<div>不过soap是一直在更新的，所以我相信他比对的结果，肯定是sam格式的。</div>
<div>所以结果就不用解读啦！</div>
<div></div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1616.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>很老的比对软件maq</title>
		<link>http://www.bio-info-trainee.com/1613.html</link>
		<comments>http://www.bio-info-trainee.com/1613.html#comments</comments>
		<pubDate>Thu, 05 May 2016 12:16:38 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[maq]]></category>
		<category><![CDATA[sam]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1613</guid>
		<description><![CDATA[MAQ在2008年还是蛮火的，但是现在基本都是BWA和bowtie的天下了。 就 &#8230; <a href="http://www.bio-info-trainee.com/1613.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>MAQ在2008年还是蛮火的，但是现在基本都是BWA和bowtie的天下了。</div>
<div>就当怀念一下它吧，给它写一个教程！</div>
<div><span style="color: #ff0000;">软件下载：</span></div>
<div>官网直接找到：<a href="http://maq.sourceforge.net/">http://maq.sourceforge.net/</a></div>
<div>我是linux系统，用wget下载：wget <a href="https://sourceforge.net/projects/maq/files/maq/0.7.1/maq-0.7.1.tar.bz2">https://sourceforge.net/projects/maq/files/maq/0.7.1/maq-0.7.1.tar.bz2</a></div>
<div>解压，很容易观察到是C++源码，所以用源码安装三部曲来安装</div>
<blockquote>
<div>tar jxvf software.tar.bz2</div>
<div>cd software</div>
<div>./configure --prefix=$path</div>
<div>make</div>
<div>make test</div>
</blockquote>
<div>安装之后把该软件添加到环境变量！</div>
<div>输入数据：</div>
<div>这里选择两个网络上的测试数据:</div>
<div>如果是真想用这个软件的话，需要参考基因组和测序数据，这个链接貌似已经年久失修啦~！</div>
<blockquote>
<div><code>wget <a href="http://biocluster.ucr.edu/~tbackman/genome.fasta">http://biocluster.ucr.edu/~tbackman/genome.fasta</a> </code></div>
<div><code># download a test reference genome (TAIR9 Chromosome 1)<br />
wget </code><code><a href="http://biocluster.ucr.edu/~tbackman/query.fastq">http://biocluster.ucr.edu/~tbackman/query.fastq</a></code><code> </code></div>
<div><code># download some test Illumina reads from Arabidopsis</code></div>
</blockquote>
<div>
<div></div>
</div>
<p><span style="color: #ff0000;">运行命令：</span></p>
<blockquote>
<div><code>maq # inspect command line options</code><br />
<code>maq fasta2bfa genome.fasta genome.bfa</code><br />
<code>   # create binary of reference genome</code><br />
<code>maq fastq2bfq query.fastq readBinary.bfq</code><br />
<code>   # create a binary of dataset</code><br />
<code>maq match out.map genome.bfa readBinary.bfq</code><br />
<code># align query to genome and store output</code></div>
</blockquote>
<p><span style="color: #ff0000;">结果解读：</span></p>
<div>我在想，这个MAQ软件发明之前，好像还没有SAM文件格式的定义，那么它的结果<code>out.map肯定不是sam格式的。</code></div>
<div><code>哈哈，这个软件我无法安装，换了好几系统也没成功，如果是太老了，很多库文件却是。</code></div>
<div><code>我也懒得去解决了。</code></div>
<div><code>这种报错，对我这样的非计算机专业来说，简直是天书！</code></div>
<div><code><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/05/14.png"><img class="alignnone size-full wp-image-1614" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/05/14.png" alt="1" width="693" height="332" /></a></code></div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1613.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>新的比对工具MOSAIK</title>
		<link>http://www.bio-info-trainee.com/1457.html</link>
		<comments>http://www.bio-info-trainee.com/1457.html#comments</comments>
		<pubDate>Tue, 15 Mar 2016 10:55:20 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[alignment]]></category>
		<category><![CDATA[MOSAIK]]></category>
		<category><![CDATA[sam]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1457</guid>
		<description><![CDATA[功能：序列比对，类似于BWA，Bowtie 优点：全平台，甚至支持pacbio的 &#8230; <a href="http://www.bio-info-trainee.com/1457.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>功能：序列比对，类似于BWA，Bowtie</div>
<div>优点：全平台，甚至支持pacbio的三代测序长reads</div>
<div>算法：是hash index，跟其它bwt算法不太一样</div>
<div>官网：<a href="https://github.com/wanpinglee/MOSAIK" target="_blank">https://github.com/wanpinglee/MOSAIK</a></div>
<div>paper：<a href="http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0090581">http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0090581</a></div>
<div>
<div>
<div>作者：WP Lee - ‎2014 - ‎<a href="https://scholar.google.com/scholar?um=1&amp;ie=UTF-8&amp;lr&amp;cites=8963892741176779202">被引用次数：70</a> - ‎<a href="https://scholar.google.com/scholar?um=1&amp;ie=UTF-8&amp;lr&amp;q=related:wmGLkvQkZnzaqM:scholar.google.com/">相关文章</a></div>
</div>
</div>
<p><span id="more-1457"></span></p>
<div>
<pre>Overview:

MOSAIK is a stable, sensitive and open-source program for mapping second and 
third-generation sequencing reads to a reference genome. Uniquely among current 
mapping tools, MOSAIK can align reads generated by all the major sequencing 
technologies, including Illumina, Applied Biosystems SOLiD, Roche 454, 
Ion Torrent and Pacific BioSciences SMRT.</pre>
</div>
<h1><span style="color: #ff0000;">一，软件安装</span></h1>
<div>
<div>软件下载地址：<a href="https://github.com/wanpinglee/MOSAIK/archive/master.zip">https://github.com/wanpinglee/MOSAIK/archive/master.zip</a></div>
</div>
<div>下载压缩包，解压后进入src源码目录，然后make即可！</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/03/11.png"><img class="alignnone size-full wp-image-1458" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/03/11.png" alt="1" width="389" height="153" /></a></div>
<div>这些程序就可以用啦！</div>
<div>里面有四个软件，所以需要四个步骤来完成比对！</div>
<div>build和jump是对参考基因组建立索引</div>
<div>build同时需要对测序数据进行索引</div>
<div>aligner是把两个索引进行比对！</div>
<div>text是把比对的结果转为其它可读格式，通常是sam比对格式</div>
<h1><span style="color: #ff0000;">二，输入数据准备</span></h1>
<div>比对当然需要测序的fastq格式reads和fa格式的参考基因组啦！</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/03/21.png"><img class="alignnone size-full wp-image-1459" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/03/21.png" alt="2" width="554" height="202" /></a></div>
<div>我是下载的<a href="http://odin.mdacc.tmc.edu/~xsu1/VirusSeq.html" target="_blank">http://odin.mdacc.tmc.edu/~xsu1/VirusSeq.html</a>  里面的数据，因为之所以要用这个软件，也是因为找人体内病毒整合的需求！</div>
<div>PE测序的reads，参考基因组是病毒和人类</div>
<h1><span style="color: #ff0000;">三，运行命令</span></h1>
<div>下面是一个完整的脚本</div>
<div><span style="color: #4f81bd; font-size: medium;"><b>首先对参考基因组构建索引</b></span></div>
<div>
<blockquote>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">Mosaik_bin=~/bio-soft/MOSAIK/bin  #设置好程序安装目录</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">##for gib virus reference genome</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">$Mosaik_bin/MosaikBuild -fr gibVirus.fa -oa gibVirus.fa.bin -st illumina -assignQual 40</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">$Mosaik_bin/MosaikJump -ia gibVirus.fa.bin -out gibVirus.JumpDb -hs 15</span></div>
</blockquote>
</div>
<blockquote>
<div>这两个步骤是构建hash索引，对这个60M的压缩包病毒基因组集合，时间是</div>
<div>
<div>MosaikBuild CPU time: 15.660 s, wall time: 18.146 s</div>
</div>
<div>
<div>MosaikJump CPU time: 329.031 s, wall time: 331.672 s</div>
<div>还可以接受，但是输出的index文件就有点难以接受了！！！！</div>
</div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">333M Mar 11 19:55 gibVirus.fa.bin</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">60M Aug 13  2013 gibVirus.fa.gz</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">5.0G Mar 11 20:04 gibVirus.JumpDb_keys.jmp</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">1 Mar 11 19:59 gibVirus.JumpDb_meta.jmp</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">1.3G Mar 11 20:04 gibVirus.JumpDb_positions.jmp</span></div>
<div>如果是对人的hg19基因组来说，消耗的时间如下：</div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">MosaikBuild CPU time: 183.642 s, wall time: 184.658 s</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">MosaikJump CPU time: 3985.608 s, wall time: 3995.323 s</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">一个多小时，还行！</span></div>
</blockquote>
<p><span style="color: #4f81bd; font-size: medium;"><b>对参考基因组建好了索引，还需要对测序数据构建索引！</b></span></p>
<div>
<blockquote>
<div>$Mosaik_bin/MosaikBuild  -q L526401A_1.fq.gz -q2 L526401A_2.fq.gz -out L526401A.bin -st illumina</div>
</blockquote>
</div>
<blockquote>
<div>数据双端测序，每个1.6G左右数据，构建索引耗时如下：</div>
</blockquote>
<div>
<blockquote>
<div># reads written:          53060622</div>
<div># bases written:        5304891143</div>
<div></div>
<div>MosaikBuild CPU time: 388.969 s, wall time: 391.149 s</div>
</blockquote>
</div>
<p><span style="color: #4f81bd; font-size: medium;"><b>接下来就比对！</b></span></p>
<div>
<blockquote>
<div>ANN_PATH=~/bio-soft/MOSAIK/src/networkFile</div>
<div>$Mosaik_bin/MosaikAligner -in L526401A.bin  \</div>
<div>-out L526401A.bin.aligned \</div>
<div>-ia ../Mosaik_JumpDb/hg19Virus.fa.bin \</div>
<div>-j ../Mosaik_JumpDb/hg19Virus.JumpDb \</div>
<div>-annpe $ANN_PATH/2.1.26.pe.100.0065.ann -annse $ANN_PATH/2.1.26.se.100.005.ann</div>
</blockquote>
</div>
<p><span style="color: #4f81bd; font-size: medium;"><b>比对的结果就是那个L526401A.bin.aligned，但是还需要用MosaikText转换成sam格式方便阅读！</b></span></p>
<div>
<blockquote>
<div>$Mosaik_bin/MosaikText -in<span class="Apple-converted-space"> </span>L526401A.bin.aligned  -sam L526401A.bin.aligned.sam -u</div>
</blockquote>
</div>
<blockquote>
<div>其实它github里面有测试数据，你跑一遍就懂了！</div>
<div></div>
</blockquote>
<h1><span style="color: #ff0000;">四，数据结果解读</span></h1>
<div>都是sam格式了就不比解释了</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1457.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>NGS数据比对工具持续收集</title>
		<link>http://www.bio-info-trainee.com/1051.html</link>
		<comments>http://www.bio-info-trainee.com/1051.html#comments</comments>
		<pubDate>Fri, 16 Oct 2015 11:29:21 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[未分类]]></category>
		<category><![CDATA[NGS]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1051</guid>
		<description><![CDATA[无意中看到了这个网站，比wiki的还有全面和专业。搜集了现有还算比较出名的比对软 &#8230; <a href="http://www.bio-info-trainee.com/1051.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>无意中看到了这个网站，比wiki的还有全面和专业。搜集了现有还算比较出名的比对软件，并且列出来了，还做了简单评价，里面对比对工具的收集，主要是基于2012年的一个综述《Tools for mapping high-throughput sequencing data》，相信应该是有不少人都看过这篇综述的，其实生物信息初学者应该自己去文献数据库找点感兴趣的关键词的综述多看看，广泛涉猎总没有坏处的。</p>
<p>&lt;img src="http://www.ebi.ac.uk/~nf/hts_mappers/mappers_timeline.jpeg" alt="Mappers Timeline" width="800"&gt;</p>
<h3>Features Comparison</h3>
<p>The following Table enables a comparison of mappers based on different characteristics. The table can be sorted by column (just click on the column name). The data was collected from different sources and in some cases was provided by the developers. For execution times and memory requirements we refer to the above mentioned review (supplementary data is available <a href="http://www.ebi.ac.uk/%7Enf/hts_mappers/sup_mat/index.html">here</a>).</p>
<table style="height: 5px;" border="0" width="818" cellspacing="0">
<caption class="captiondataframe" align="top">The Data column indicates if the mapper is specifically tailored for DNA, RNA, miRNA, or bisulfite sequences.The Seq.Plat. column indicates if the mapper supports natively reads from a specific sequencing platform or not (N). The version column indicates the version of the mapper considered. Read length limits are showed in two columns: minimum read length (Min. RL) and maximum read length (Max. RL.). Unless otherwise stated the unit is base pairs. The support for mismatches and short indels is also presented including, when possible, the maximum number of allowed mismatches and indels: by default the value is presented in bases; in some cases the value is presented as a percentage of the read size; or as score, meaning that mapper uses a score function. The alignments reported column indicate the alignments reported when a read maps to multiple locations. The alignment column indicates if the reads are aligned end-to-end (Globally) or not (Locally). The Parallel column indicates if the mapper can be run in parallel and, if yes, how: using a shared-memory (SM) or/and a distributed memory (DM) computer. The QA (quality awareness) column indicates if the mapper uses read quality information during the mapping. The support for paired-end/mate-pair reads is indicated in the PE column. The Splicing column indicates, for the RNA mappers, if the detection of splice junctions is made de novo or/and through user provided libraries (Lib). The Index column indicates if the reads or/and the reference are indexed. The number of citations was obtained from Google Scholar on 13 June 2015.</caption>
</table>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1051.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用 GMAP/GSNAP软件进行RNA-seq的alignment</title>
		<link>http://www.bio-info-trainee.com/1016.html</link>
		<comments>http://www.bio-info-trainee.com/1016.html#comments</comments>
		<pubDate>Thu, 24 Sep 2015 14:22:13 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[转录组软件]]></category>
		<category><![CDATA[GSNAP]]></category>
		<category><![CDATA[RNA]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1016</guid>
		<description><![CDATA[软件发表在：http://bioinformatics.oxfordjourna &#8230; <a href="http://www.bio-info-trainee.com/1016.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>
<div>软件发表在：<a href="http://bioinformatics.oxfordjournals.org/content/26/7/873.abstract">http://bioinformatics.oxfordjournals.org/content/26/7/873.abstract</a></div>
<p>软件的解说ppt ：<a href="http://www.mi.fu-berlin.de/wiki/pub/ABI/CompMethodsWS11/MHuska_GSNAP.pdf">http://www.mi.fu-berlin.de/wiki/pub/ABI/CompMethodsWS11/MHuska_GSNAP.pdf</a></p>
<div>一个例子：<a href="http://qteller.com/RNAseq-analysis-recipe.pdf">http://qteller.com/RNAseq-analysis-recipe.pdf</a></div>
<div>一个shell脚本 ： <a href="https://github.com/vsbuffalo/rna-seq-example">https://github.com/vsbuffalo/rna-seq-example</a></div>
<div>软件的下载地址： <a href="http://research-pub.gene.com/gmap/">http://research-pub.gene.com/gmap/</a></div>
<div>有研究者认为这个软件的比对效果要比tophat要好，虽然现在已经多出来了非常多的RNA-seq的alignment软件，我还是简单看看这个软件吧，它本来是2005就出来的一个专门比对低通量的est序列，叫GMAP，后来进化成了GSNAP</div>
<div>step1：下载安装GMAP/GSNAP</div>
<div>wget <a href="http://research-pub.gene.com/gmap/src/gmap-gsnap-2015-09-21.tar.gz">http://research-pub.gene.com/gmap/src/gmap-gsnap-2015-09-21.tar.gz</a></div>
</div>
<div>是一个标准的linux源码程序，安装之前一定要看readme  ，<a href="http://research-pub.gene.com/gmap/src/README">http://research-pub.gene.com/gmap/src/README</a></div>
<div>解压进去，然后源码安装三部曲,首先 ./configu  然后make 最后make install</div>
<div>会默认安装在 /usr/local/bin 下面，这里需要修改，因为你可能没有 /usr/local/bin 权限,安装到自己的目录，然后把它添加到环境变量！</div>
<div></div>
<div>step2 ：准备数据</div>
<div>比对一般都只需要两个数据，一是索引好的参考基因组，另一个是需要比对的测序数据。</div>
<div>但是这个GSNAP，还需要对应的GTF注释文件。</div>
<div>首先需要参考基因组：虽然软件本身提供了一个hg19的参考基因组，并且已经索引好了<a href="http://research-pub.gene.com/gmap/genomes/hg19.tar.gz">Human genome, version hg19 (5.5 GB)</a>(http://research-pub.gene.com/gmap/genomes/hg19.tar.gz) ，但是下载很慢，而且不是对所有版本的GSNAP都适用。所以我这里对我自己的参考基因组进行索引。</div>
<div>gmap_build -D ./ -d  my_hg19.fa</div>
<div>然后取ensemble下载hg19的gtf文件。</div>
<div>然后还需要把自己下载的gtf文件也构建索引，需要两个步骤</div>
<div>cat my_hg19.gtf |  ~/software/gmap-2011-10-16/util/gtf_splicesites &gt;<span class="Apple-converted-space"> </span>my_hg19.splicesites</div>
<div>cat  my_hg19.splicesites <span class="Apple-converted-space"> </span>|   iit_store -o<span class="Apple-converted-space"> </span>my_hg19.gtf.index</div>
<div>然后拷贝需要比对的RNA-seq测序文件</div>
<div></div>
<div>step3: 运行程序</div>
<div>就是一步比对而已</div>
<div>
<div data-canvas-width="408.51666666666677">gsnap</div>
<div data-canvas-width="408.51666666666677">-D /home/jschnable/gsnap_indexes/</div>
<div data-canvas-width="408.51666666666677">-d arabidopsisv10</div>
<div data-canvas-width="11.05">--nthreads=50</div>
<div data-canvas-width="11.05">-B 5</div>
<div data-canvas-width="11.05">-s  /home/jschnable/gsnap_indexes/arabidopsisv10.iit</div>
<div>-n 2</div>
<div>-Q</div>
<div>--nofails</div>
<div data-canvas-width="11.2">--format=sam temp.fastq</div>
<div data-canvas-width="88.01666666666667">&gt; results.sam</div>
<div data-canvas-width="88.01666666666667">参数有点多，自己看看说明书吧<a href="http://qteller.com/RNAseq-analysis-recipe.pdf">http://qteller.com/RNAseq-analysis-recipe.pdf</a> 讲的非常详细。</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1016.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Genomemapper软件使用说明书</title>
		<link>http://www.bio-info-trainee.com/818.html</link>
		<comments>http://www.bio-info-trainee.com/818.html#comments</comments>
		<pubDate>Wed, 24 Jun 2015 03:04:56 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[gap]]></category>
		<category><![CDATA[mismatch]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=818</guid>
		<description><![CDATA[ 我以前一直以为有了bwa跟bowtie，没什么必要用其它的alignment软 &#8230; <a href="http://www.bio-info-trainee.com/818.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<h4> 我以前一直以为有了bwa跟bowtie，没什么必要用其它的alignment软件，直到我碰到了高插入删除的helicos三代测序数据，我才发现，这个古董软件genomemapper居然大有用武之地了。</h4>
<p>一．下载并且安装该软件</p>
<p>这是最新版本了</p>
<table>
<tbody>
<tr>
<td width="124">Release 0.4.4</td>
<td width="96">2012-10-30</td>
<td width="331"><a href="http://1001genomes.org/data/software/genomemapper/genomemapper_0.4.4/genomemapper-0.4.4.tar.gz">source code including documentation</a></td>
</tr>
</tbody>
</table>
<p>Wget <a href="http://1001genomes.org/data/software/genomemapper/genomemapper_0.4.4/genomemapper-0.4.4.tar.gz">http://1001genomes.org/data/software/genomemapper/genomemapper_0.4.4/genomemapper-0.4.4.tar.gz</a></p>
<p>这个软件安装很简单，解压进入目录，make一下即可</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/06/image001.png"><img class="alignnone size-full wp-image-820" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/06/image001.png" alt="image001" width="371" height="121" /></a></p>
<p>看到make完了之后就会多了两个软件，其中一个是用来构建参考基因组索引，一个用来比对的！</p>
<p>二．准备数据</p>
<p>既然是比对软件，那么肯定是一个参考基因组，一个测序的fastq原始文件咯</p>
<p>当然这个软件比较奇葩，它还支持Multi-FASTA, FASTQ2 or SHORE flat file format,</p>
<p>三、比对命令</p>
<p>这里要分两步走，首先是构建参考基因组的索引，然后才是比对</p>
<p>/home/jmzeng/bio-soft/genomemapper-0.4.4/gmindex \</p>
<p>-i BRCA1.fa -x BRCA1.idx -t BRCA1.meta</p>
<p>首先构建索引，种子长度就用默认的12即可，然后构建完索引如下。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/06/image002.png"><img class="alignnone size-full wp-image-821" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/06/image002.png" alt="image002" width="329" height="127" /></a></p>
<p>然后进行比对即可</p>
<p>/home/jmzeng/bio-soft/genomemapper-0.4.4/genomemapper \</p>
<p>-i BRCA1.fa -q SRR258835.fastq -M 4 -G 2 -E 4 -o mapped_reads.fl -u unmapped_reads.fl</p>
<p>成功比对的都输出到了mapped_reads.fl -这个文件，未比对上的在unmapped_reads.fl</p>
<p>我有12344条序列，成功比对的只有5276条，但是如果我用精确比对的算法，只有一千五百条是可以比对的，所以用这个允许4个mismatch和2个gap的比对算法，大大提高了比对率。</p>
<p>然后我修改了比对参数可以达到5605,5654,5696的提升。但是没有质的飞跃，估计本身我的这种helicos测序数据错误率就太可怕了。</p>
<p>四，输出结果解读</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/06/image004.jpg"><img class="alignnone size-full wp-image-823" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/06/image004.jpg" alt="image004" width="553" height="331" /></a></p>
<p>这个是很规则的tab键分割的文本字符，我就不解读了，大家看readme</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/818.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>SAMStat软件使用说明书</title>
		<link>http://www.bio-info-trainee.com/751.html</link>
		<comments>http://www.bio-info-trainee.com/751.html#comments</comments>
		<pubDate>Thu, 21 May 2015 04:00:59 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[sam]]></category>
		<category><![CDATA[samstat]]></category>
		<category><![CDATA[比对]]></category>
		<category><![CDATA[软件使用说明书]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=751</guid>
		<description><![CDATA[这个软件是对我们的比对结果（通常是bwa,bowtie,tophat,hisat &#8230; <a href="http://www.bio-info-trainee.com/751.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<h4><b></b>这个软件是对我们的比对结果（通常是bwa,bowtie,tophat,hisat,star）bam或者sam来进行一个可视化的总结，类似于fastqc对我们的fastq测序结果做一个可视化总结，非常好用。</h4>
<p>一．下载并安装该软件</p>
<p>软件主页是http://samstat.sourceforge.net/ 里面对该软件进行非常详细的说明</p>
<p>包括installation和usage，我这里简单的翻译一下。</p>
<p>Wget <a href="http://liquidtelecom.dl.sourceforge.net/project/samstat/samstat-1.5.tar.gz">http://liquidtelecom.dl.sourceforge.net/project/samstat/samstat-1.5.tar.gz</a></p>
<p>解压开看里面的readme有介绍如何安装这个软件</p>
<p>Unpack the tarball:</p>
<p>bash-3.1$ tar -zxvf samstat-XXX.tar.gz</p>
<p>bash-3.1$ cd samstat</p>
<p>bash-3.1$ ./configure</p>
<p>bash-3.1$ make</p>
<p>bash-3.1$ make check</p>
<p>bash-3.1$ make install</p>
<p>如果用root命令就可以直接用samstat啦</p>
<p>如果没有root权限，安装的时候稍微有点不同</p>
<p>./configure  --prefix=/home/jmzeng/my-bin/</p>
<p>make</p>
<p>make install</p>
<p>很简单的</p>
<p>二，数据，就是我们的bam文件啦</p>
<p>三，运行命令</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/SAMStat软件使用说明书710.png"><img class="alignnone size-full wp-image-752" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/SAMStat软件使用说明书710.png" alt="SAMStat软件使用说明书710" width="554" height="125" /></a></p>
<p>四，结果</p>
<p>简单看看samtools flagstat 740WT1.bam  的结果</p>
<p>19232378 + 0 in total (QC-passed reads + QC-failed reads)</p>
<p>0 + 0 duplicates</p>
<p>18846845 + 0 mapped (98.00%:-nan%)</p>
<p>0 + 0 paired in sequencing</p>
<p>0 + 0 read1</p>
<p>0 + 0 read2</p>
<p>0 + 0 properly paired (-nan%:-nan%)</p>
<p>0 + 0 with itself and mate mapped</p>
<p>0 + 0 singletons (-nan%:-nan%)</p>
<p>0 + 0 with mate mapped to a different chr</p>
<p>0 + 0 with mate mapped to a different chr (mapQ&gt;=5)</p>
<p>然后再看看我们的samstat的结果！</p>
<p>740WT1.bam.samstat.html</p>
<p>一个网页，非常丰富的内容</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/SAMStat软件使用说明书1168.png"><img class="alignnone size-full wp-image-753" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/SAMStat软件使用说明书1168.png" alt="SAMStat软件使用说明书1168" width="554" height="538" /></a></p>
<p>内容太多了，我懒得解释了</p>
<p>见软件说明书http://davetang.org/wiki/tiki-index.php?page=SAMStat</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/751.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
