<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; color space</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/color-space/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>用 SHRiMP 来比对color space的数据</title>
		<link>http://www.bio-info-trainee.com/1858.html</link>
		<comments>http://www.bio-info-trainee.com/1858.html#comments</comments>
		<pubDate>Thu, 04 Aug 2016 02:08:43 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[color space]]></category>
		<category><![CDATA[SHRiMP]]></category>
		<category><![CDATA[solid]]></category>
		<category><![CDATA[比对]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1858</guid>
		<description><![CDATA[无意中接触了AB 5500xl Genetic Analyzer这个测序仪的数据 &#8230; <a href="http://www.bio-info-trainee.com/1858.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>无意中接触了AB 5500xl Genetic Analyzer这个测序仪的数据，就是传说中的solid格式，也就是color space的测序数据 ，虽然拿到的测序数据也是fastq格式的， 4行代表一条read，但是第二行已经不是在是碱基序列啦，而是color的编码。Colors may be encoded either as numbers (<code>0</code>=blue, <code>1</code>=green, <code>2</code>=orange, <code>3</code>=red) or as characters <code>A/C/G/T</code> (<code>A</code>=blue, <code>C</code>=green, <code>G</code>=orange, <code>T</code>=red).我们通常称为csfastq格式。</div>
<div>对于这种数据的处理，一般的比对软件是hold 不住的，我查了一下，SHRiMP，sequel和BFAST ，bowtie，是可以处理这种csfastq格式数据的比对的， 我这里简单使用了最出名的SHRiMP 。</div>
<p><span id="more-1858"></span></p>
<div>安装过程如下：</div>
<div>
<blockquote>
<div>## <a href="http://compbio.cs.toronto.edu/shrimp/">http://compbio.cs.toronto.edu/shrimp/</a></div>
<div>cd ~/biosoft</div>
<div>mkdir SHRiMP &amp;&amp;  cd SHRiMP</div>
<div>wget <a href="http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz">http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz</a></div>
<div>tar zxvf SHRiMP_2_2_3.lx26.x86_64.tar.gz</div>
<div>cd SHRiMP_2_2_3</div>
<div>export SHRIMP_FOLDER=$PWD</div>
</blockquote>
</div>
<div>## 如果需要永久使用就添加到.bashrc，如果只是用一次，就export即可。</div>
<div>软件说明书详细介绍了该软件的用法：<a href="http://compbio.cs.toronto.edu/shrimp/README">http://compbio.cs.toronto.edu/shrimp/README</a></div>
<div><span style="color: #ff0000;"><b>如果你的参考基因组很小，那么直接使用就好了。</b></span></div>
<div>
<div>如果是普通的小基因组和小的color space测序序列</div>
<div>
<blockquote>
<pre>$SHRIMP_FOLDER/bin/gmapper-cs <b><span style="color: #ff0000;">test.csfasta</span></b> \
  <span style="color: #ff0000;">reference.fa </span>\
  -N 4 -o 5 -h 80% &gt;map.test.out 2&gt;map.test.log</pre>
</blockquote>
</div>
<div>具体参数意义，大家看软件说明书吧。</div>
<div></div>
<div>或者对于miRNA来说</div>
<blockquote>
<div>##　　We project the database with:</div>
<div>$SHRIMP_FOLDER/utils/project-db.py --seed 00111111001111111100,00111111110011111100,00111111111100111100,00111111111111001100,00111111111111110000 \</div>
<div> --h-flag --shrimp-mode ls miRBase/hairpin.human.fa</div>
<div>##</div>
<div>$SHRIMP_FOLDER/bin/gmapper-ls -L  hairpin.human-ls SRR1542716.fastq <b><span style="color: #ff0000;"> --qv-offset 33</span></b>   \</div>
<div>-o 1 -H -E -a -1 -q -30 -g -30 --qv-offset 33 --strata -N 8  &gt;map.out 2&gt;map.log</div>
</blockquote>
</div>
<p><b><span style="color: #ff0000;">如果你的参加基因太大，超过了你的内存限制，那么就需要技巧了。</span></b></p>
<div>代码也不难，如下：</div>
<div>
<blockquote>
<pre>$SHRIMP_FOLDER/utils/split-db.py --ram-size 14 --prefix hg18 hg18.fa</pre>
<pre>$SHRIMP_FOLDER/utils/project-db.py --shrimp-mode ls hg18-14gb-*.fa</pre>
<pre> for i in 1 2 3 4; do \
      $SHRIMP_FOLDER/bin/gmapper-ls -L hg18-14gb-12_12_12_12seeds-${i}of4-ls \
      reads.500kx2.36bp.ls.fa \
      -N 8 -p opp-in -I 50,500 -m 20 -i -25 -g -40 -e -10 -E \
      &gt;map.db${i}of4.sam 2&gt;map.db${i}of4.log
    done
  [...]
 ls map.db*.sam</pre>
<pre>$SHRIMP_FOLDER/bin/mergesam reads.500kx2.36bp.ls.fa map.db?of4.sam &gt; map.sam</pre>
</blockquote>
<p>最后的map.sam文件就是我们 比对结果啦！</p>
</div>
<div>sam文件我就不解释啦！</div>
<div> 因为把参考基因组分开，还是很麻烦，而且耗时的，我并没有那样做，我的机器1T的内存，我不觉得有什么基因组会超出我的内存限制</div>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1858.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
