<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; 组装</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/%e7%bb%84%e8%a3%85/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>人为创造几个测序数据然后用soap组装成基因组</title>
		<link>http://www.bio-info-trainee.com/486.html</link>
		<comments>http://www.bio-info-trainee.com/486.html#comments</comments>
		<pubDate>Wed, 25 Mar 2015 12:29:09 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基因组学]]></category>
		<category><![CDATA[基础软件]]></category>
		<category><![CDATA[perl]]></category>
		<category><![CDATA[soap]]></category>
		<category><![CDATA[模拟]]></category>
		<category><![CDATA[组装]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=486</guid>
		<description><![CDATA[这里我选取酵母基因组来组装，以为它只有一条染色体，而且本身也不大！ 这个文件就4 &#8230; <a href="http://www.bio-info-trainee.com/486.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>这里我选取酵母基因组来组装，以为它只有一条染色体，而且本身也不大！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组130.png"><img class="alignnone size-full wp-image-488" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组130.png" alt="人为创造几个测序数据然后用soap组装成基因组130" width="470" height="302" /></a></p>
<p>这个文件就4.5M，然后第一行就是序列名，第二列就是序列的碱基组成。共4641652个碱基。</p>
<p>我写一个perl程序来人为的创造一个测序文件</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组58.png"><img class="alignnone size-full wp-image-487" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组58.png" alt="人为创造几个测序数据然后用soap组装成基因组58" width="554" height="171" /></a></p>
<p>这样我们的4.5M基因组就模拟出来了486M的单端100bp的测序数据，而且是无缝连接，按照道理应该很容易就拼接的。</p>
<p>/home/jmzeng/bio-soft/SOAPdenovo2-bin-LINUX-generic-r240/SOAPdenovo-127mer</p>
<p>all -s config_file -K 63 -R -o graph_prefix 1&gt;ass.log 2&gt;ass.err</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组331.png"><img class="alignnone size-full wp-image-489" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/人为创造几个测序数据然后用soap组装成基因组331.png" alt="人为创造几个测序数据然后用soap组装成基因组331" width="507" height="506" /></a></p>
<p>可以看到组装效果还不错哦，然后我模拟了一个测试数据，再进行组装一次，这次更好！</p>
<p>其实还可以模拟双端测序，应该就能达到百分百组装了。</p>
<p>但是由于我代码里面选取的是80在随机错开，所以我把kmer的长度设置成了81来试试看，希望这样可以把它完全组装成一条e-coli基因组。</p>
<p>/home/jmzeng/bio-soft/SOAPdenovo2-bin-LINUX-generic-r240/SOAPdenovo-127mer</p>
<p>all -s config_file -K 81 -R -o graph_prefix 1&gt;ass.log 2&gt;ass.err</p>
<p>但是也没有什么实质性的提高，虽然理论上是肯定可以组装到一起！</p>
<p>那我再模拟一个双端测序吧，中间间隔200bp的。</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/486.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基因组组装软件SOAPdenovo安装使用</title>
		<link>http://www.bio-info-trainee.com/476.html</link>
		<comments>http://www.bio-info-trainee.com/476.html#comments</comments>
		<pubDate>Wed, 25 Mar 2015 10:05:28 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基因组学]]></category>
		<category><![CDATA[基础软件]]></category>
		<category><![CDATA[soap]]></category>
		<category><![CDATA[组装]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=476</guid>
		<description><![CDATA[一．下载并安装这个软件 下载地址进下面，但是下载源码安装总是很困难，我直接下载b &#8230; <a href="http://www.bio-info-trainee.com/476.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>一．下载并安装这个软件</p>
<p>下载地址进下面，但是下载源码安装总是很困难，我直接下载bin文件可执行程序。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用104.png"><img class="alignnone size-full wp-image-477" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用104.png" alt="基因组组装软件SOAPdenovo安装使用104" width="554" height="145" /></a></p>
<p>解压进入目录</p>
<p>首先make</p>
<p>然后make install即可</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用731.png"><img class="alignnone size-full wp-image-478" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用731.png" alt="基因组组装软件SOAPdenovo安装使用731" width="490" height="257" /></a></p>
<p>安装总是失败，我也不知道怎么回事，懒得解决了。</p>
<p>直接去我老师那里把这个程序拷贝进来了。</p>
<p><a href="https://github.com/aquaskyline/SOAPdenovo2/archive/master.zip">https://github.com/aquaskyline/SOAPdenovo2/archive/master.zip</a></p>
<p><a href="http://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz/download">http://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz/download</a></p>
<p><a href="http://sourceforge.net/projects/soapdenovo2/files/latest/download?source=files">http://sourceforge.net/projects/soapdenovo2/files/latest/download?source=files</a></p>
<p>也可以直接下载bin程序</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1035.png"><img class="alignnone size-full wp-image-481" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1035.png" alt="基因组组装软件SOAPdenovo安装使用1035" width="554" height="171" /></a></p>
<p>二．准备测试数据</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用742.png"><img class="alignnone size-full wp-image-479" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用742.png" alt="基因组组装软件SOAPdenovo安装使用742" width="382" height="259" /></a></p>
<p>类似于这样的几个文库的左右两端测序数据。</p>
<p>我这里用一个小样本的单端数据做测试</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用783.png"><img class="alignnone size-full wp-image-480" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用783.png" alt="基因组组装软件SOAPdenovo安装使用783" width="349" height="156" /></a></p>
<p>三，参考命令</p>
<p>You may run it like this:</p>
<p>参考：<a href="http://www.plob.org/2012/07/06/2537.html">http://www.plob.org/2012/07/06/2537.html</a></p>
<p><a href="https://github.com/aquaskyline/SOAPdenovo2">https://github.com/aquaskyline/SOAPdenovo2</a></p>
<p>总共就四个步骤，介绍如下。</p>
<p>&nbsp;</p>
<table>
<tbody>
<tr>
<td width="569">./pregraph_sparse [parameters]</td>
</tr>
<tr>
<td width="569">./SOAPdenovo-63mer contig [parameters]</td>
</tr>
<tr>
<td width="569">./SOAPdenovo-63mer map [parameters]</td>
</tr>
<tr>
<td width="569">./SOAPdenovo-63mer scaff [parameters]</td>
</tr>
</tbody>
</table>
<p>&nbsp;</p>
<table>
<tbody>
<tr>
<td width="570">i) preparing the pregraph. This step is similar to velveth for velvet.</td>
</tr>
<tr>
<td width="570">ii) Determining contigs. This step is similar to velvetg for velvet.</td>
</tr>
<tr>
<td width="570">iii) Mapping back reads on to contigs.</td>
</tr>
<tr>
<td width="570">iv) Assembling contigs into scaffolds.</td>
</tr>
</tbody>
</table>
<p>&nbsp;</p>
<table>
<tbody>
<tr>
<td width="568"> SOAPdenovo-63mer  sparse_pregraph  <b>-s config_file -K 45 -p 28 -z 1100000000 -o outPG</b></td>
</tr>
<tr>
<td width="568"> SOAPdenovo-63mer contig  <b>-g outPG</b></td>
</tr>
<tr>
<td width="568"> SOAPdenovo-63mer map <b> -s config_file -g outPG -p 28</b></td>
</tr>
<tr>
<td width="568"> SOAPdenovo-63mer  scaff <b>  -g outPG -p 28</b></td>
</tr>
</tbody>
</table>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1629.png"><img class="alignnone size-full wp-image-482" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1629.png" alt="基因组组装软件SOAPdenovo安装使用1629" width="554" height="161" /></a></p>
<p>官网给出的步骤如下</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1641.png"><img class="alignnone size-full wp-image-483" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用1641.png" alt="基因组组装软件SOAPdenovo安装使用1641" width="554" height="238" /></a></p>
<p>这个命令还需要一个配置文件</p>
<p>max_rd_len=99 设置最大reads长度，具体情况具体定义</p>
<p>[LIB] 第一个文库数据</p>
<p>avg_ins=225</p>
<p>reverse_seq=0</p>
<p>asm_flags=3</p>
<p>rank=1</p>
<p>q1=runPE_1.fq</p>
<p>q2=runPE_2.fq</p>
<p>[LIB] 第二个文库数据</p>
<p>avg_ins=2000</p>
<p>reverse_seq=1</p>
<p>asm_flags=2</p>
<p>rank=2</p>
<p>q1=runMP_1.fq</p>
<p>q2=runMP_2.fq</p>
<p>也可以全部一次性的搞一个命令</p>
<p>all -s config_file -K 63 -R -o graph_prefix 1&gt;ass.log 2&gt;ass.err</p>
<p>我简单修改了一下参考博客的代码跟官网的代码，然后运行了我自己的代码</p>
<p>/home/jmzeng/bio-soft/SOAPdenovo2-bin-LINUX-generic-r240/SOAPdenovo-127mer</p>
<p><b>all -s config_file -K 63 -R -o </b>graph_prefix 1&gt;ass.log 2&gt;ass.err</p>
<p>反正我也不懂，就先跑跑看咯</p>
<p>我选取的是7个单端数据，所以我的配置文件是</p>
<p>max_rd_len=500</p>
<p>[LIB]</p>
<p>avg_ins=225</p>
<p>reverse_seq=0</p>
<p>asm_flags=3</p>
<p>rank=1</p>
<p>p=SRR072005.fa</p>
<p>p=SRR072010.fa</p>
<p>p=SRR072011.fa</p>
<p>p=SRR072012.fa</p>
<p>p=SRR072013.fa</p>
<p>p=SRR072014.fa</p>
<p>p=SRR072029.fa</p>
<p>四．输出数据解读</p>
<p>好像我的数据都比较小，就7个三百多兆的fasta序列，几个小时就跑完啦</p>
<p>四个步骤都有输出数据</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用2446.png"><img class="alignnone size-full wp-image-484" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/基因组组装软件SOAPdenovo安装使用2446.png" alt="基因组组装软件SOAPdenovo安装使用2446" width="554" height="475" /></a></p>
<p>好像组装效果惨不忍睹呀！共86万的contig，50多万的scaffold</p>
<p>scaffolds&gt;100  505473 99.60%</p>
<p>scaffolds&gt;500  113523 22.37%</p>
<p>scaffolds&gt;1K   48283 9.51%</p>
<p>scaffolds&gt;10K  0 0.00%</p>
<p>scaffolds&gt;100K 0 0.00%</p>
<p>scaffolds&gt;1M   0 0.00%</p>
<p>这其实都相当于没有组装了，因为我的测序判断本来就很多是大于500的！</p>
<p>可能是我的kmer值选取的不对</p>
<p>Kmer为63跑出来的效果不怎么好，86万的contig，50万的scaffold的</p>
<p>Kmer为35跑出来的效果更惨，203万的contig，近60万的scaffold。</p>
<p>我觉得问题可能不是这里了，可能是没有用到那个20k和3k的双端测序库，唉，其实我习惯了illumina的测序数据，不太喜欢这个454的</p>
<p>感觉组装好难呀，业余时间搞不定呀，希望有高手能一起交流，哈哈，我自己再慢慢来试试。</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/476.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
