<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; soap</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/soap/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>华大soap系列的比对软件</title>
		<link>http://www.bio-info-trainee.com/1616.html</link>
		<comments>http://www.bio-info-trainee.com/1616.html#comments</comments>
		<pubDate>Thu, 05 May 2016 12:18:15 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[soap]]></category>
		<category><![CDATA[华大]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1616</guid>
		<description><![CDATA[也不知道是什么原因，对国产软件总是提不起兴趣，所以尽管SOAP系列都已经发展到了 &#8230; <a href="http://www.bio-info-trainee.com/1616.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>也不知道是什么原因，对国产软件总是提不起兴趣，所以尽管SOAP系列都已经发展到了十几个软件了，我依然没有去试用一下。</p>
<div>
<div><span style="color: #ff0000;">软件下载：</span></div>
<div>官网直接找到：<a href="http://soap.genomics.org.cn/">http://soap.genomics.org.cn/</a></div>
<div><strong>SOAPaligner/soap2</strong> is a member of the <strong>SOAP (Short Oligonucleotide Analysis Package)</strong>.</div>
<div>很久以前，大家说soap其实指的是类似于bwa这样的比对工具，但是后来这个工具箱丰富了，所以我们现在如果只看比对工具，要看的是<strong>SOAPaligner</strong></div>
<div>我是linux系统，用wget下载：wget <a href="http://soap.genomics.org.cn/down/soap2.21release.tar.gz">http://soap.genomics.org.cn/down/soap2.21release.tar.gz</a></div>
<div>解压，由于下载是可执行程序，就不需要安装啦！</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/05/15.png"><img class="alignnone size-full wp-image-1617" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/05/15.png" alt="1" width="296" height="114" /></a></div>
<div>安装之后把该软件添加到环境变量！</div>
<div>输入数据：</div>
<div>这里选择两个网络上的测试数据:</div>
<div>如果是真想用这个软件的话，需要参考基因组和测序数据，这个链接貌似已经年久失修啦~！</div>
<blockquote>
<div><code>wget <a href="http://biocluster.ucr.edu/~tbackman/genome.fasta">http://biocluster.ucr.edu/~tbackman/genome.fasta</a> </code></div>
<div><code># download a test reference genome (TAIR9 Chromosome 1)<br />
wget </code><code><a href="http://biocluster.ucr.edu/~tbackman/query.fastq">http://biocluster.ucr.edu/~tbackman/query.fastq</a></code><code> </code></div>
<div><code># download some test Illumina reads from Arabidopsis</code></div>
</blockquote>
<div>
<div></div>
</div>
<p><span style="color: #ff0000;">运行命令：</span></p>
<blockquote>
<div><code></code><code>2bwt-builder genome.fasta</code><br />
<code>   # create binary of reference genome</code><br />
<code>soap -a query.fastq -D genome.fasta.index -o output.soap</code><br />
<code>   # align query to genome and store output</code><code></code></div>
</blockquote>
<p><span style="color: #ff0000;">结果解读：</span></p>
<div>由于测试数据没有下载下来，我安装了软件就懒得玩了，其实正经的来讲，应该写一个详细的测评，包括软件运行速度，比对准确率，等等，不过那样做就是发paper的节奏了，我随便玩玩，就算啦。</div>
<div>不过soap是一直在更新的，所以我相信他比对的结果，肯定是sam格式的。</div>
<div>所以结果就不用解读啦！</div>
<div></div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1616.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>融合基因检测软件-soapfusion</title>
		<link>http://www.bio-info-trainee.com/1463.html</link>
		<comments>http://www.bio-info-trainee.com/1463.html#comments</comments>
		<pubDate>Tue, 15 Mar 2016 11:30:21 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[转录组软件]]></category>
		<category><![CDATA[soap]]></category>
		<category><![CDATA[soapfuse]]></category>
		<category><![CDATA[融合基因]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1463</guid>
		<description><![CDATA[开发单位：华大，SOAP系列软件套装！ 功能：检测合基因 优点：在现有的各种软件 &#8230; <a href="http://www.bio-info-trainee.com/1463.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>开发单位：华大，SOAP系列软件套装！</p>
<div>
<div>功能：检测合基因</div>
<div>优点：在现有的各种软件里面表现算是最好的</div>
<div>算法：是hash index，跟其它bwt算法不太一样</div>
<div>官网：<a href="http://soap.genomics.org.cn/soapfuse.html">http://soap.genomics.org.cn/soapfuse.html</a></div>
<div>paper：<a href="https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-2-r12">https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-2-r12</a></div>
<div></div>
<div>其它软件有： FusionSeq [<span class=""><a href="https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-2-r12#CR21">21</a></span>], deFuse [<span class=""><a href="https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-2-r12#CR22">22</a></span>], TopHat-Fusion [<span class=""><a href="https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-2-r12#CR23">23</a></span>], FusionHunter [<span class=""><a href="https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-2-r12#CR24">24</a></span>], SnowShoes-FTD [<span class=""><a href="https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-2-r12#CR25">25</a></span>], chimerascan [<span class=""><a href="https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-2-r12#CR26">26</a></span>] and FusionMap [<span class=""><a href="https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-2-r12#CR27">27</a></span>]</div>
<div></div>
<div>具体的算法我没看，因为只是有需求，正好有一些RNA-seq数据又想看看样本融合基因情况。所以就测试这个软件，通俗点说，融合基因原理其实很简单，如果有足够多的reads一部分比对到一个基因，另一部分比对到另一个基因，就可以说明它们两个基因发生了融合现象！如果是PE测序，那么更方便，左右两端reads比对情况也可以考虑。我就不多说废话了，直接上教程吧！</div>
<div></div>
<div>
<div><span style="color: #ff0000;">一，软件安装</span></div>
<div>
<div>软件下载地址：<a href="https://sourceforge.net/projects/soapfuse/files/SOAPfuse_Package/SOAPfuse-v1.27.tar.gz">https://sourceforge.net/projects/soapfuse/files/SOAPfuse_Package/SOAPfuse-v1.27.tar.gz</a></div>
</div>
<div>下载压缩包，解压后即可使用！！！</div>
<div>推荐用最新版，然后看作者说明书的时候也要看清楚！</div>
<div>我反正好几次都搞糊涂了，最后联系了作者才搞明白，作者说他想更新到2.0版本，直接用HISAT的比对sam文件来做，但是还在筹备中，我觉得有点悬！</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/03/12.png"><img class="alignnone size-full wp-image-1465" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/03/12.png" alt="1" width="655" height="177" /></a></div>
<div></div>
<div>解压后是一堆perl程序，都在source目录下，source目录下面还有bin下面附带了几个第三方软件，包括bwa，blast和soap，最后都用得着！</div>
<div>有个很重要的问题，一定要软件自带的perl模块添加到perl的环境变量。不然那些perl程序运行会报错！</div>
<div>配置文件需要修改，就把几个目录放进去即可</div>
<div></div>
<div></div>
<p><span style="color: #ff0000;">二，输入数据准备</span></p>
<div>这里最重要的就是制作数据库！！！</div>
<div>作者给了非常详细的制作过程，我觉得还是不够清楚，所以再讲一遍！</div>
<div>
<div><a href="https://sourceforge.net/p/soapfuse/blog/2013/07/strategy-for-recurrent-transcriptname-and-genename-in-ensembl-gtf-file">https://sourceforge.net/p/soapfuse/blog/2013/07/strategy-for-recurrent-transcriptname-and-genename-in-ensembl-gtf-file</a></div>
<div>首先下载5个文件：</div>
<div>
<blockquote>
<div>6.5K Jun 15  2009 cytoBand.txt.gz</div>
<div>3.0G Oct 12  2012 hg19.fa</div>
<div>2.5M Mar 15 10:30 HGNC_Gene_Family_dataset</div>
<div>38M Feb  8  2014 Homo_sapiens.GRCh37.75.gtf.gz</div>
<div>202 Jan 19 16:07 HumanRef_refseg_symbols_relationship.list</div>
</blockquote>
<p>文件下载地址，作者已经给出了！</p>
</div>
<div>我把这些文件都放在的当前文件夹下面的raw这个子文件夹，因为我要当前文件夹作为该软件的database文件夹！！！</div>
<div>然后运行命令！</div>
<div>
<div>我在SOAPfuse-v1.27文件下面运行：</div>
<div>perl ../SOAPfuse-v1.27/source/SOAPfuse-S00-Generate_SOAPfuse_database.pl  \</div>
<div>-wg raw/hg19.fa  -gtf raw/Homo_sapiens.GRCh37.75.gtf.gz  -cbd raw/cytoBand.txt.gz   -gf raw/HGNC_Gene_Family_dataset \</div>
<div>-rft raw/HumanRef_refseg_symbols_relationship.list \</div>
<div> -sd ../SOAPfuse-v1.27 -dd ./</div>
<p>这一步耗时很长，4~6小时，创造了transcript.fa和gene.fa，然后还对他们建立bwa和soap的index，所以有点慢！</p>
</div>
<div>构建成功会有提示：</div>
</div>
</div>
</div>
<blockquote>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">Congratulations!</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">You have constructed SOAPfuse database files successfully.</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">These database files are all stored in directory you supplied:</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">/home/jmzeng/biosoft/SOAPfuse/db_v1.27/</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">They are all generated based on public data files you supplied:</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">whole_genome_fasta_file:   /home/jmzeng/biosoft/SOAPfuse/db_v1.27/raw/hg19.fa</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">gtf_annotation_file:       /home/jmzeng/biosoft/SOAPfuse/db_v1.27/raw/Homo_sapiens.GRCh37.75.gtf.gz</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">Chr_Bandregion_file:       /home/jmzeng/biosoft/SOAPfuse/db_v1.27/raw/cytoBand.txt.gz</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">HGNC_gene_family_file:     /home/jmzeng/biosoft/SOAPfuse/db_v1.27/raw/HGNC_Gene_Family_dataset</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">gtf_segname2refseg_list:   /home/jmzeng/biosoft/SOAPfuse/db_v1.27/raw/HumanRef_refseg_symbols_relationship.list</span></div>
</blockquote>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">这些目录很重要，接下来制作配置文件会用得着！</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">To use these database files, just set the 'DB_db_dir' in config file as belowed:</span></div>
<div><span style="font-family: Monaco,Consolas,Courier,Lucida Console,monospace;">DB_db_dir  =   /home/jmzeng/biosoft/SOAPfuse/db_v1.27</span></div>
<div>
<div>
<div>
<div>配置文件需要修改下面5个</div>
</div>
</div>
</div>
<blockquote>
<pre>DB_db_dir = /DATABASE_DIR/</pre>
<pre>PG_pg_dir = /TOOL_DIR/source/bin</pre>
<pre>PS_ps_dir = /TOOL_DIR/source</pre>
<pre>PD_all_out = /out_directory/</pre>
<pre>PA_all_fq_postfix = PostFix</pre>
</blockquote>
<div>
<div>
<div>
<div></div>
<div>其实你仔细阅读了说明书，你就知道该修改成什么样子了！</div>
<div>最后制作sample list文件</div>
<div>我这里只有一个sample,所以文件就一句话即可</div>
<div>test test test 100</div>
<div>所以我的有下面两个文件，都是为了顺应作者的需求我才搞了test/test/test这么无聊的东西！！！</div>
<div>/home/jmzeng/test_for_soapfuse/test/test/test_1.fq.gz</div>
<div>/home/jmzeng/test_for_soapfuse/test/test/test_2.fq.gz</div>
<div>如果你有多个sample需要一起运行，你就要仔细读作者的readme了，它把这个配置文件搞得特别复杂！！！</div>
</div>
<p><span style="color: #ff0000;">三，运行命令</span></p>
<div>如果文件都准备好了，运行命令非常简单！！</div>
<div>
<div>
<pre>perl<span style="color: #ff00ff;"> SOAPfuse-RUN.pl</span> -c &lt;<strong>config_file</strong>&gt; -fd &lt;<strong>WHOLE_SEQ-DATA_DIR</strong>&gt; -l &lt;<strong>sample_list</strong>&gt; -o &lt;<strong>out_directory</strong>&gt; [Options]</pre>
<p>运行的非常慢！！！</p>
</div>
<div>因为需要重新比对，知道</div>
</div>
<p><span style="color: #ff0000;">四，数据结果解读</span></p>
<div>结果，作者已经说的很清楚了，我就不多说了！</div>
<div>
<div><a href="http://soap.genomics.org.cn/soapfuse.html">http://soap.genomics.org.cn/soapfuse.html</a></div>
</div>
<div></div>
<div></div>
</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1463.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>人为创造几个测序数据然后用soap组装成基因组</title>
		<link>http://www.bio-info-trainee.com/486.html</link>
		<comments>http://www.bio-info-trainee.com/486.html#comments</comments>
		<pubDate>Wed, 25 Mar 2015 12:29:09 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基因组学]]></category>
		<category><![CDATA[基础软件]]></category>
		<category><![CDATA[perl]]></category>
		<category><![CDATA[soap]]></category>
		<category><![CDATA[模拟]]></category>
		<category><![CDATA[组装]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=486</guid>
		<description><![CDATA[这里我选取酵母基因组来组装，以为它只有一条染色体，而且本身也不大！ 这个文件就4 &#8230; <a href="http://www.bio-info-trainee.com/486.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>这里我选取酵母基因组来组装，以为它只有一条染色体，而且本身也不大！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组130.png"><img class="alignnone size-full wp-image-488" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组130.png" alt="人为创造几个测序数据然后用soap组装成基因组130" width="470" height="302" /></a></p>
<p>这个文件就4.5M，然后第一行就是序列名，第二列就是序列的碱基组成。共4641652个碱基。</p>
<p>我写一个perl程序来人为的创造一个测序文件</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组58.png"><img class="alignnone size-full wp-image-487" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组58.png" alt="人为创造几个测序数据然后用soap组装成基因组58" width="554" height="171" /></a></p>
<p>这样我们的4.5M基因组就模拟出来了486M的单端100bp的测序数据，而且是无缝连接，按照道理应该很容易就拼接的。</p>
<p>/home/jmzeng/bio-soft/SOAPdenovo2-bin-LINUX-generic-r240/SOAPdenovo-127mer</p>
<p>all -s config_file -K 63 -R -o graph_prefix 1&gt;ass.log 2&gt;ass.err</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组331.png"><img class="alignnone size-full wp-image-489" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组331.png" alt="人为创造几个测序数据然后用soap组装成基因组331" width="507" height="506" /></a></p>
<p>可以看到组装效果还不错哦，然后我模拟了一个测试数据，再进行组装一次，这次更好！</p>
<p>其实还可以模拟双端测序，应该就能达到百分百组装了。</p>
<p>但是由于我代码里面选取的是80在随机错开，所以我把kmer的长度设置成了81来试试看，希望这样可以把它完全组装成一条e-coli基因组。</p>
<p>/home/jmzeng/bio-soft/SOAPdenovo2-bin-LINUX-generic-r240/SOAPdenovo-127mer</p>
<p>all -s config_file -K 81 -R -o graph_prefix 1&gt;ass.log 2&gt;ass.err</p>
<p>但是也没有什么实质性的提高，虽然理论上是肯定可以组装到一起！</p>
<p>那我再模拟一个双端测序吧，中间间隔200bp的。</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/486.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基因组组装软件SOAPdenovo安装使用</title>
		<link>http://www.bio-info-trainee.com/476.html</link>
		<comments>http://www.bio-info-trainee.com/476.html#comments</comments>
		<pubDate>Wed, 25 Mar 2015 10:05:28 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基因组学]]></category>
		<category><![CDATA[基础软件]]></category>
		<category><![CDATA[soap]]></category>
		<category><![CDATA[组装]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=476</guid>
		<description><![CDATA[一．下载并安装这个软件 下载地址进下面，但是下载源码安装总是很困难，我直接下载b &#8230; <a href="http://www.bio-info-trainee.com/476.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>一．下载并安装这个软件</p>
<p>下载地址进下面，但是下载源码安装总是很困难，我直接下载bin文件可执行程序。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用104.png"><img class="alignnone size-full wp-image-477" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用104.png" alt="基因组组装软件SOAPdenovo安装使用104" width="554" height="145" /></a></p>
<p>解压进入目录</p>
<p>首先make</p>
<p>然后make install即可</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用731.png"><img class="alignnone size-full wp-image-478" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用731.png" alt="基因组组装软件SOAPdenovo安装使用731" width="490" height="257" /></a></p>
<p>安装总是失败，我也不知道怎么回事，懒得解决了。</p>
<p>直接去我老师那里把这个程序拷贝进来了。</p>
<p><a href="https://github.com/aquaskyline/SOAPdenovo2/archive/master.zip">https://github.com/aquaskyline/SOAPdenovo2/archive/master.zip</a></p>
<p><a href="http://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz/download">http://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz/download</a></p>
<p><a href="http://sourceforge.net/projects/soapdenovo2/files/latest/download?source=files">http://sourceforge.net/projects/soapdenovo2/files/latest/download?source=files</a></p>
<p>也可以直接下载bin程序</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1035.png"><img class="alignnone size-full wp-image-481" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1035.png" alt="基因组组装软件SOAPdenovo安装使用1035" width="554" height="171" /></a></p>
<p>二．准备测试数据</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用742.png"><img class="alignnone size-full wp-image-479" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用742.png" alt="基因组组装软件SOAPdenovo安装使用742" width="382" height="259" /></a></p>
<p>类似于这样的几个文库的左右两端测序数据。</p>
<p>我这里用一个小样本的单端数据做测试</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用783.png"><img class="alignnone size-full wp-image-480" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用783.png" alt="基因组组装软件SOAPdenovo安装使用783" width="349" height="156" /></a></p>
<p>三，参考命令</p>
<p>You may run it like this:</p>
<p>参考：<a href="http://www.plob.org/2012/07/06/2537.html">http://www.plob.org/2012/07/06/2537.html</a></p>
<p><a href="https://github.com/aquaskyline/SOAPdenovo2">https://github.com/aquaskyline/SOAPdenovo2</a></p>
<p>总共就四个步骤，介绍如下。</p>
<p>&nbsp;</p>
<table>
<tbody>
<tr>
<td width="569">./pregraph_sparse [parameters]</td>
</tr>
<tr>
<td width="569">./SOAPdenovo-63mer contig [parameters]</td>
</tr>
<tr>
<td width="569">./SOAPdenovo-63mer map [parameters]</td>
</tr>
<tr>
<td width="569">./SOAPdenovo-63mer scaff [parameters]</td>
</tr>
</tbody>
</table>
<p>&nbsp;</p>
<table>
<tbody>
<tr>
<td width="570">i) preparing the pregraph. This step is similar to velveth for velvet.</td>
</tr>
<tr>
<td width="570">ii) Determining contigs. This step is similar to velvetg for velvet.</td>
</tr>
<tr>
<td width="570">iii) Mapping back reads on to contigs.</td>
</tr>
<tr>
<td width="570">iv) Assembling contigs into scaffolds.</td>
</tr>
</tbody>
</table>
<p>&nbsp;</p>
<table>
<tbody>
<tr>
<td width="568"> SOAPdenovo-63mer  sparse_pregraph  <b>-s config_file -K 45 -p 28 -z 1100000000 -o outPG</b></td>
</tr>
<tr>
<td width="568"> SOAPdenovo-63mer contig  <b>-g outPG</b></td>
</tr>
<tr>
<td width="568"> SOAPdenovo-63mer map <b> -s config_file -g outPG -p 28</b></td>
</tr>
<tr>
<td width="568"> SOAPdenovo-63mer  scaff <b>  -g outPG -p 28</b></td>
</tr>
</tbody>
</table>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1629.png"><img class="alignnone size-full wp-image-482" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1629.png" alt="基因组组装软件SOAPdenovo安装使用1629" width="554" height="161" /></a></p>
<p>官网给出的步骤如下</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1641.png"><img class="alignnone size-full wp-image-483" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1641.png" alt="基因组组装软件SOAPdenovo安装使用1641" width="554" height="238" /></a></p>
<p>这个命令还需要一个配置文件</p>
<p>max_rd_len=99 设置最大reads长度，具体情况具体定义</p>
<p>[LIB] 第一个文库数据</p>
<p>avg_ins=225</p>
<p>reverse_seq=0</p>
<p>asm_flags=3</p>
<p>rank=1</p>
<p>q1=runPE_1.fq</p>
<p>q2=runPE_2.fq</p>
<p>[LIB] 第二个文库数据</p>
<p>avg_ins=2000</p>
<p>reverse_seq=1</p>
<p>asm_flags=2</p>
<p>rank=2</p>
<p>q1=runMP_1.fq</p>
<p>q2=runMP_2.fq</p>
<p>也可以全部一次性的搞一个命令</p>
<p>all -s config_file -K 63 -R -o graph_prefix 1&gt;ass.log 2&gt;ass.err</p>
<p>我简单修改了一下参考博客的代码跟官网的代码，然后运行了我自己的代码</p>
<p>/home/jmzeng/bio-soft/SOAPdenovo2-bin-LINUX-generic-r240/SOAPdenovo-127mer</p>
<p><b>all -s config_file -K 63 -R -o </b>graph_prefix 1&gt;ass.log 2&gt;ass.err</p>
<p>反正我也不懂，就先跑跑看咯</p>
<p>我选取的是7个单端数据，所以我的配置文件是</p>
<p>max_rd_len=500</p>
<p>[LIB]</p>
<p>avg_ins=225</p>
<p>reverse_seq=0</p>
<p>asm_flags=3</p>
<p>rank=1</p>
<p>p=SRR072005.fa</p>
<p>p=SRR072010.fa</p>
<p>p=SRR072011.fa</p>
<p>p=SRR072012.fa</p>
<p>p=SRR072013.fa</p>
<p>p=SRR072014.fa</p>
<p>p=SRR072029.fa</p>
<p>四．输出数据解读</p>
<p>好像我的数据都比较小，就7个三百多兆的fasta序列，几个小时就跑完啦</p>
<p>四个步骤都有输出数据</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用2446.png"><img class="alignnone size-full wp-image-484" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用2446.png" alt="基因组组装软件SOAPdenovo安装使用2446" width="554" height="475" /></a></p>
<p>好像组装效果惨不忍睹呀！共86万的contig，50多万的scaffold</p>
<p>scaffolds&gt;100  505473 99.60%</p>
<p>scaffolds&gt;500  113523 22.37%</p>
<p>scaffolds&gt;1K   48283 9.51%</p>
<p>scaffolds&gt;10K  0 0.00%</p>
<p>scaffolds&gt;100K 0 0.00%</p>
<p>scaffolds&gt;1M   0 0.00%</p>
<p>这其实都相当于没有组装了，因为我的测序判断本来就很多是大于500的！</p>
<p>可能是我的kmer值选取的不对</p>
<p>Kmer为63跑出来的效果不怎么好，86万的contig，50万的scaffold的</p>
<p>Kmer为35跑出来的效果更惨，203万的contig，近60万的scaffold。</p>
<p>我觉得问题可能不是这里了，可能是没有用到那个20k和3k的双端测序库，唉，其实我习惯了illumina的测序数据，不太喜欢这个454的</p>
<p>感觉组装好难呀，业余时间搞不定呀，希望有高手能一起交流，哈哈，我自己再慢慢来试试。</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/476.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
