<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; fastq</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/fastq/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>自学CHIP-seq分析第三讲~公共测序数据下载</title>
		<link>http://www.bio-info-trainee.com/1738.html</link>
		<comments>http://www.bio-info-trainee.com/1738.html#comments</comments>
		<pubDate>Tue, 05 Jul 2016 00:26:27 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[tutorial]]></category>
		<category><![CDATA[CHIP-seq]]></category>
		<category><![CDATA[fastq]]></category>
		<category><![CDATA[SRA]]></category>
		<category><![CDATA[sratoolkit]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1738</guid>
		<description><![CDATA[这一步跟自学其它高通量测序数据处理一样，就是仔细研读paper，在里面找到作者把 &#8230; <a href="http://www.bio-info-trainee.com/1738.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>这一步跟自学其它高通量测序数据处理一样，就是仔细研读paper，在里面找到作者把原始测序数据放在了哪个公共数据库里面，一般是NCBI的GEO，SRA，本文也不例外，然后解析样本数，找到下载链接规律</div>
<blockquote>
<div>## step1 : download raw data</div>
<div>cd ~</div>
<div>mkdir CHIPseq_test &amp;&amp; cd CHIPseq_test</div>
<div>mkdir rawData &amp;&amp; cd rawData</div>
<div>## batch download the raw data by shell script :</div>
<div>for ((i=593;i&lt;601;i++)) ;do wget <a href="ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492/SRR1042">ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492/SRR1042</a>$i/SRR1042$i.sra;done</div>
<div></div>
</blockquote>
<div>很容易就下载了8个测序文件，每个样本的数据大小，测序量如下</div>
<div>
<blockquote>
<div>621M Jun 27 14:03 SRR1042593.sra (16.9M reads)</div>
<div>2.2G Jun 27 15:58 SRR1042594.sra (60.6M reads)</div>
<div>541M Jun 27 16:26 SRR1042595.sra (14.6M reads)</div>
<div>2.4G Jun 27 18:24 SRR1042596.sra (65.9M reads)</div>
<div>814M Jun 27 18:59 SRR1042597.sra (22.2M reads)</div>
<div>2.1G Jun 27 20:30 SRR1042598.sra (58.1M reads)</div>
<div>883M Jun 27 21:08 SRR1042599.sra (24.0M reads)</div>
<div>2.8G Jun 28 11:53 SRR1042600.sra (76.4M reads)</div>
</blockquote>
<div> 虽然下载的SRA格式数据也是一个很流行的标准，但它只是数据压缩的标准，几乎没有软件能直接跟SRA的格式的测序数据来进行分析，我们需要转成fastq格式，代码如下：</div>
<div></div>
</div>
<blockquote>
<div>## step2 :  change sra data to fastq files.</div>
<div>## cell line: MCF7 //  Illumina HiSeq 2000 //  50bp // Single ends // phred+33</div>
<div>## <a href="http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52964">http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52964</a></div>
<div>## <a href="ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492">ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492</a></div>
<div>ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump $id;done</div>
<div>rm *sra</div>
</blockquote>
<div>解压的详情如下，可以看到SRA格式有6~9倍的压缩了，比zip格式压缩的2~3倍高多了</div>
<div>##  621M --&gt; 3.9G</div>
<div>##  2.2G --&gt; 14G</div>
<div>##  541M --&gt; 3.3G</div>
<div>##  2.4G --&gt; 15G</div>
<div></div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1738.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
