<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; 草莓</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/%e8%8d%89%e8%8e%93/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>草莓基因组数据预处理</title>
		<link>http://www.bio-info-trainee.com/467.html</link>
		<comments>http://www.bio-info-trainee.com/467.html#comments</comments>
		<pubDate>Tue, 24 Mar 2015 10:03:34 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基因组学]]></category>
		<category><![CDATA[fastqc]]></category>
		<category><![CDATA[基因组]]></category>
		<category><![CDATA[草莓]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=467</guid>
		<description><![CDATA[今天先 对7个单端数据做处理，是454数据，平均长度300bp左右，明天再处理3 &#8230; <a href="http://www.bio-info-trainee.com/467.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>今天先 对7个单端数据做处理，是454数据，平均长度300bp左右，明天再处理3KB和20KB的配对reads。</p>
<p>首先跑fastqc</p>
<p>打开一个个看结果</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理28.png"><img class="alignnone size-full wp-image-468" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理28.png" alt="草莓基因组数据预处理28" width="458" height="322" /></a></p>
<p>可以看到前面一些碱基的质量还是不错的， 因为这是454平台测序数据，序列片段长度差异很大，一般前四百个bp的碱基质量还是不错的，太长了的测序片段也不可靠</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理39.png"><img class="alignnone size-full wp-image-469" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理39.png" alt="草莓基因组数据预处理39" width="465" height="342" /></a></p>
<p>重点在下面这个图片，可以看到，前面的4个碱基是adaptor，肯定是要去除的，不是我们的测序数据。是TCAG，需要去除掉。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理118.png"><img class="alignnone size-full wp-image-470" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理118.png" alt="草莓基因组数据预处理118" width="453" height="336" /></a></p>
<p>所以我们用了 solexaQA 这个套装软件对原始测序数据进行过滤</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理214.png"><img class="alignnone size-full wp-image-471" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理214.png" alt="草莓基因组数据预处理214" width="553" height="232" /></a></p>
<p>可以看到过滤的非常明显！！！甚至有个样本基本全军覆没了！然后我查看了我的批处理脚本，发现可能是perl DynamicTrim.pl -454 $id这个参数有问题</p>
<p>for id in *fastq</p>
<p>do</p>
<p>echo $id</p>
<p>perl DynamicTrim.pl -454 $id</p>
<p>done</p>
<p>for id in *trimmed</p>
<p>do</p>
<p>echo $id</p>
<p>perl LengthSort.pl $id</p>
<p>done</p>
<p>&nbsp;</p>
<p>可以看到末尾的质量差的碱基都被去掉了，但是头部的TCAG还是没有去掉。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理425.png"><img class="alignnone size-full wp-image-472" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理425.png" alt="草莓基因组数据预处理425" width="553" height="259" /></a></p>
<p>处理完毕后的数据如下：</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理475.png"><img class="alignnone size-full wp-image-473" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/草莓基因组数据预处理475.png" alt="草莓基因组数据预处理475" width="351" height="155" /></a></p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/467.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
