<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; SRA</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/sra/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>RNAseq数据完整生物信息分析流程第一讲之文献数据下载</title>
		<link>http://www.bio-info-trainee.com/1876.html</link>
		<comments>http://www.bio-info-trainee.com/1876.html#comments</comments>
		<pubDate>Tue, 09 Aug 2016 12:34:14 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[tutorial]]></category>
		<category><![CDATA[转录组软件]]></category>
		<category><![CDATA[--split-3]]></category>
		<category><![CDATA[airway]]></category>
		<category><![CDATA[fastq-dump]]></category>
		<category><![CDATA[SRA]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1876</guid>
		<description><![CDATA[我这里拿的是bioconductor里面最常用的airway数据，因为差异表达分 &#8230; <a href="http://www.bio-info-trainee.com/1876.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>我这里拿的是bioconductor里面最常用的airway数据，因为差异表达分析在bioconductor里面是重点，它们这些包在介绍自己的算法以及做示范的时候都用的这个数据。可以在GEO数据库里面看到信息描述：<a href="http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778">http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778</a>  可以看到是Illumina HiSeq 2000 (Homo sapiens) ，75bp paired-end 这个信息很重要，决定了下载sra数据之后如何解压以及如何比对。也可以看到作者把所有的测序原始数据都上传到了SRA中心：<a href="http://www.ncbi.nlm.nih.gov/sra?term=SRP033351 ">http://www.ncbi.nlm.nih.gov/sra?term=SRP033351 </a> ，这里可以在linux服务器上面写一个简单的脚本批量下载所有的测序数据，然后根据GEO里面描述的metadata把原始数据改名。</p>
<blockquote><p>for ((i=508;i&lt;=523;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033351/<span style="color: #ff0000;"><strong>SRR1039$i/SRR1039$i.sra;done</strong></span><br />
ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;done</p></blockquote>
<p>需要自己看SRA里面的数据记录，上面的脚本不难写出，然后因为是Illumina的双端测序，所以我们用fastq-dump --split-3命令来把sra格式数据转换为fastq，但是因为这里有16个测序数据，所以最好是同步改名，我这里用脚本批量生成改名脚本如下：</p>
<p>为了节省空间，我用了--gzip压缩，该文件名，用-A参数。</p>
<blockquote><p>nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/<strong><span style="color: #ff0000;">fastq-dump --split-3 --gzip -A N61311_untreated</span></strong> SRR1039508.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_Dex SRR1039509.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_Alb SRR1039510.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_Alb_Dex SRR1039511.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_untreated SRR1039512.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_Dex SRR1039513.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_Alb SRR1039514.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_Alb_Dex SRR1039515.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_untreated SRR1039516.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_Dex SRR1039517.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_Alb SRR1039518.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_Alb_Dex SRR1039519.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_untreated SRR1039520.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_Dex SRR1039521.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_Alb SRR1039522.sra &amp;<br />
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_Alb_Dex SRR1039523.sra &amp;</p></blockquote>
<p>可以看到这里的16个样本来源于同样的4个人，是HASM细胞系，处理详情如下：</p>
<div>测序基础：</div>
<div>HASM细胞系-human airway smooth muscle，</div>
<div>The Illumina TruSeq assay was used to prepare 75bp paired-end libraries for HASM cells from <b><span style="color: #ff0000;">four white male donors</span></b> under four treatment conditions:</div>
<blockquote>
<div>1) no treatment;</div>
<div>2) treatment with a β2-agonist (i.e. Albuterol, 1μM for 18h);</div>
<div>3) treatment with a glucocorticosteroid (i.e. Dexamethasone (Dex), 1μM for 18h);</div>
<div>4) simultaneous treatment with a β2-agonist and glucocorticoid</div>
</blockquote>
<div>and the libraries were sequenced with an Illumina Hi-Seq 2000 instrument.</div>
<div>我们这里只是先根据fastq数据比对到参考基因组，然后计算每个样本的表达量即可，后续的分组计算差异表达，就需要个性化了。</div>
<p>下载的sra大小如下：</p>
<blockquote><p>-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 04:21 SRR1039508.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 05:20 SRR1039509.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 06:14 SRR1039510.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 07:05 SRR1039511.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 08:07 SRR1039512.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.3G Aug 9 09:17 SRR1039513.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 3.1G Aug 9 10:56 SRR1039514.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 11:56 SRR1039515.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 13:02 SRR1039516.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.6G Aug 9 14:16 SRR1039517.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.3G Aug 9 15:17 SRR1039518.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.0G Aug 9 16:05 SRR1039519.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 16:56 SRR1039520.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.4G Aug 9 17:57 SRR1039521.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.0G Aug 9 18:46 SRR1039522.sra<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.4G Aug 9 19:28 SRR1039523.sra</p></blockquote>
<p>解压后成双端测序的fastq数据如下：</p>
<blockquote><p> -rw-rw-r-- 1 jmzeng jmzeng 2.5G Aug 9 20:12 N052611_Alb_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.5G Aug 9 20:12 N052611_Alb_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 20:44 N052611_Alb_Dex_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 20:44 N052611_Alb_Dex_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 289M Aug 9 20:44 N052611_Alb_Dex.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 951M Aug 9 20:59 N052611_Dex_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 954M Aug 9 20:59 N052611_Dex_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.7G Aug 9 20:53 N052611_untreated_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.7G Aug 9 20:53 N052611_untreated_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 20:45 N061011_Alb_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 20:45 N061011_Alb_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:59 N061011_Alb_Dex_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:59 N061011_Alb_Dex_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 16M Aug 9 20:45 N061011_Alb.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.4G Aug 9 20:48 N061011_Dex_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.4G Aug 9 20:48 N061011_Dex_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 20:00 N061011_untreated_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 20:00 N061011_untreated_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 759M Aug 9 20:00 N061011_untreated.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:03 N080611_Alb_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:03 N080611_Alb_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 19:59 N080611_Alb_Dex_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 19:59 N080611_Alb_Dex_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 535M Aug 9 19:59 N080611_Alb_Dex.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 20:06 N080611_Dex_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 20:06 N080611_Dex_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 20:01 N080611_untreated_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 20:01 N080611_untreated_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_Alb_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_Alb_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:08 N61311_Alb_Dex_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:08 N61311_Alb_Dex_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 08:07 N61311_Dex_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 08:07 N61311_Dex_2.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_untreated_1.fastq.gz<br />
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_untreated_2.fastq.gz</p></blockquote>
<p>接下来所有的分析就基于此数据啦</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1876.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>自学CHIP-seq分析第三讲~公共测序数据下载</title>
		<link>http://www.bio-info-trainee.com/1738.html</link>
		<comments>http://www.bio-info-trainee.com/1738.html#comments</comments>
		<pubDate>Tue, 05 Jul 2016 00:26:27 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[tutorial]]></category>
		<category><![CDATA[CHIP-seq]]></category>
		<category><![CDATA[fastq]]></category>
		<category><![CDATA[SRA]]></category>
		<category><![CDATA[sratoolkit]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1738</guid>
		<description><![CDATA[这一步跟自学其它高通量测序数据处理一样，就是仔细研读paper，在里面找到作者把 &#8230; <a href="http://www.bio-info-trainee.com/1738.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>这一步跟自学其它高通量测序数据处理一样，就是仔细研读paper，在里面找到作者把原始测序数据放在了哪个公共数据库里面，一般是NCBI的GEO，SRA，本文也不例外，然后解析样本数，找到下载链接规律</div>
<blockquote>
<div>## step1 : download raw data</div>
<div>cd ~</div>
<div>mkdir CHIPseq_test &amp;&amp; cd CHIPseq_test</div>
<div>mkdir rawData &amp;&amp; cd rawData</div>
<div>## batch download the raw data by shell script :</div>
<div>for ((i=593;i&lt;601;i++)) ;do wget <a href="ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492/SRR1042">ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492/SRR1042</a>$i/SRR1042$i.sra;done</div>
<div></div>
</blockquote>
<div>很容易就下载了8个测序文件，每个样本的数据大小，测序量如下</div>
<div>
<blockquote>
<div>621M Jun 27 14:03 SRR1042593.sra (16.9M reads)</div>
<div>2.2G Jun 27 15:58 SRR1042594.sra (60.6M reads)</div>
<div>541M Jun 27 16:26 SRR1042595.sra (14.6M reads)</div>
<div>2.4G Jun 27 18:24 SRR1042596.sra (65.9M reads)</div>
<div>814M Jun 27 18:59 SRR1042597.sra (22.2M reads)</div>
<div>2.1G Jun 27 20:30 SRR1042598.sra (58.1M reads)</div>
<div>883M Jun 27 21:08 SRR1042599.sra (24.0M reads)</div>
<div>2.8G Jun 28 11:53 SRR1042600.sra (76.4M reads)</div>
</blockquote>
<div> 虽然下载的SRA格式数据也是一个很流行的标准，但它只是数据压缩的标准，几乎没有软件能直接跟SRA的格式的测序数据来进行分析，我们需要转成fastq格式，代码如下：</div>
<div></div>
</div>
<blockquote>
<div>## step2 :  change sra data to fastq files.</div>
<div>## cell line: MCF7 //  Illumina HiSeq 2000 //  50bp // Single ends // phred+33</div>
<div>## <a href="http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52964">http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52964</a></div>
<div>## <a href="ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492">ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492</a></div>
<div>ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump $id;done</div>
<div>rm *sra</div>
</blockquote>
<div>解压的详情如下，可以看到SRA格式有6~9倍的压缩了，比zip格式压缩的2~3倍高多了</div>
<div>##  621M --&gt; 3.9G</div>
<div>##  2.2G --&gt; 14G</div>
<div>##  541M --&gt; 3.3G</div>
<div>##  2.4G --&gt; 15G</div>
<div></div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1738.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>阅读捕获测序文章并下载数据</title>
		<link>http://www.bio-info-trainee.com/496.html</link>
		<comments>http://www.bio-info-trainee.com/496.html#comments</comments>
		<pubDate>Thu, 26 Mar 2015 03:10:04 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[SRA]]></category>
		<category><![CDATA[捕获测序]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=496</guid>
		<description><![CDATA[一．阅读文献找到SRP 该文献讲了单分子测序在医疗领域的一个应用，我感觉挺重要的 &#8230; <a href="http://www.bio-info-trainee.com/496.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>一．阅读文献找到SRP</p>
<p>该文献讲了单分子测序在医疗领域的一个应用，我感觉挺重要的，就分析了一下，然后下载了数据，准备处理一下。</p>
<p>Single-step capture and sequencing of natural DNA for detection of BRCA1 mutations</p>
<p>&nbsp;</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/捕获测序文章解析并下载数据162.png"><img class="alignnone size-full wp-image-499" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/捕获测序文章解析并下载数据162.png" alt="捕获测序文章解析并下载数据162" width="554" height="200" /></a></p>
<p>&nbsp;</p>
<p>在NCBI查到该数据地址，并且用脚本下载即可</p>
<p><a href="http://www.ncbi.nlm.nih.gov/sra/?term=SRP007097">http://www.ncbi.nlm.nih.gov/sra/?term=SRP007097</a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/捕获测序文章解析并下载数据348.png"><img class="alignnone size-full wp-image-501" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/捕获测序文章解析并下载数据348.png" alt="捕获测序文章解析并下载数据348" width="554" height="614" /></a></p>
<p>下载之后的数据如下，共19个测序文件，都是200K左右大小，那两个一百多M的可能是下载错了</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>for i in {32..52}</p>
<p>do</p>
<p>wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR258/SRR2588$i/SRR2588$i.sra</p>
<p>Done</p>
<p>&nbsp;</p>
<p>下载的19个数据，都是只有1万多条序列。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/捕获测序文章解析并下载数据346.png"><img class="alignnone size-full wp-image-500" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/捕获测序文章解析并下载数据346.png" alt="捕获测序文章解析并下载数据346" width="367" height="444" /></a></p>
<p>因为这些判断都是对BRCA1这个基因进行目标性测序，所以接下来需要对它们进行特殊的处理。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/496.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>草莓基因组文章解读-并下载原始测序数据</title>
		<link>http://www.bio-info-trainee.com/318.html</link>
		<comments>http://www.bio-info-trainee.com/318.html#comments</comments>
		<pubDate>Tue, 17 Mar 2015 15:05:49 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基因组学]]></category>
		<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[SRA]]></category>
		<category><![CDATA[原始reads]]></category>
		<category><![CDATA[基因组]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=318</guid>
		<description><![CDATA[找橡胶测序数据无果 所以我只好找了他们所参考的草莓（strawberry, Fr &#8230; <a href="http://www.bio-info-trainee.com/318.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>找橡胶测序数据无果</p>
<p>所以我只好找了他们所参考的草莓（strawberry, Fragaria vesca (2n = 2x = 14)，a small genome (240 Mb),）的文章，是发表是nature genetics上面的</p>
<p><a href="http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3326587/">http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3326587/</a></p>
<p>可以看到它的SRA索取号。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章1087.png"><img class="alignnone size-full wp-image-312" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章1087.png" alt="研读橡胶的基因组文章1087" width="554" height="225" /></a></p>
<p>草莓组装结果：Over 3,200 scaffolds were assembled with an N50 of 1.3 Mb .</p>
<p>Over 95% (209.8 Mb) of the total sequence is represented in 272 scaffolds.</p>
<p>草莓基因息：Gene prediction modeling identified 34,809 genes, with most being supported by transcriptome mapping.</p>
<p>草莓染色体信息：Paradoxically, the small basic (x = 7) genome size of the strawberry genus, ~240 Mb,</p>
<p>offers substantial advantages for genomic research.</p>
<p>草莓来源：diploid strawberry F. vesca ssp. vesca accession Hawaii 4</p>
<p>(National Clonal Germplasm Repository accession # PI551572).</p>
<p>然后我去NCBI上面下载这三个数据</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章1664.png"><img class="alignnone size-full wp-image-313" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章1664.png" alt="研读橡胶的基因组文章1664" width="554" height="494" /></a></p>
<p>&nbsp;</p>
<p>SRA020125 共有四个数据：</p>
<p>&nbsp;</p>
<table>
<tbody>
<tr>
<td width="284"><a href="http://www.ncbi.nlm.nih.gov/sra/SRX030575[accn]">http://www.ncbi.nlm.nih.gov/sra/SRX030575[accn]</a></td>
<td width="284"><b>Total: </b>4 runs, 4.7M spots, 2.6G bases, <a href="ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX030/SRX030575">5.5Gb</a></td>
</tr>
<tr>
<td width="284"><a href="http://www.ncbi.nlm.nih.gov/sra/SRX030576[accn]">http://www.ncbi.nlm.nih.gov/sra/SRX030576[accn]</a>  （3 KB PE）</td>
<td width="284"><b>Total: </b>2 runs, 2.2M spots, 908.5M bases, <a href="ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX030/SRX030576">2.1Gb</a></td>
</tr>
<tr>
<td width="284"><a href="http://www.ncbi.nlm.nih.gov/sra/SRX030577[accn]">http://www.ncbi.nlm.nih.gov/sra/SRX030577[accn]</a> （20KB片段）</td>
<td width="284"><b>Total: </b>2 runs, 1.9M spots, 800M bases, <a href="ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX030/SRX030577">1.8Gb</a></td>
</tr>
<tr>
<td width="284"><a href="http://www.ncbi.nlm.nih.gov/sra/SRX030578[accn]">http://www.ncbi.nlm.nih.gov/sra/SRX030578[accn]</a></td>
<td width="284"><b>Total: </b>3 runs, 4M spots, 2.2G bases, <a href="ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByExp/sra/SRX/SRX030/SRX030578">4.6Gb</a></td>
</tr>
</tbody>
</table>
<p>挂在后台自动下载</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章2877.png"><img class="alignnone size-full wp-image-314" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章2877.png" alt="研读橡胶的基因组文章2877" width="554" height="39" /></a></p>
<p>好了，有了这些数据我们就要进行基因组的一系列分析啦！！！</p>
<p>不过我们可以先看看他们这个研究小组的成果</p>
<p>首先他们建造了一个关于草莓的基因组信息网站</p>
<p><a href="https://strawberry.plantandfood.co.nz/">https://strawberry.plantandfood.co.nz/</a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章3091.png"><img class="alignnone size-full wp-image-315" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章3091.png" alt="研读橡胶的基因组文章3091" width="554" height="446" /></a></p>
<p>跟我之前在水科院做鲫鱼鲤鱼的差不多</p>
<p>直接在里面就可以下载他们做好的所有数据，也可以可视化。</p>
<p>&nbsp;</p>
<p>它的染色体如下，非常简单，就七条染色体</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章3106.png"><img class="alignnone size-full wp-image-316" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章3106.png" alt="研读橡胶的基因组文章3106" width="554" height="146" /></a></p>
<p>&nbsp;</p>
<p><a href="http://www.rosaceae.org/species/fragaria/fragaria_vesca/genome_v1.1">http://www.rosaceae.org/species/fragaria/fragaria_vesca/genome_v1.1</a></p>
<p>我找到了它组装好的草莓基因组地址，用批处理全部下载了</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章3287.png"><img class="alignnone size-full wp-image-308" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章3287.png" alt="研读橡胶的基因组文章3287" width="553" height="240" /></a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/318.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>研读橡胶的基因组文章-结果没有原始测序数据</title>
		<link>http://www.bio-info-trainee.com/307.html</link>
		<comments>http://www.bio-info-trainee.com/307.html#comments</comments>
		<pubDate>Tue, 17 Mar 2015 15:02:56 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[生信基础]]></category>
		<category><![CDATA[SRA]]></category>
		<category><![CDATA[文献]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=307</guid>
		<description><![CDATA[研读橡胶的基因组文章 我本科的前两年在海南儋州读书，那时候旁边就是橡胶所，很多同 &#8230; <a href="http://www.bio-info-trainee.com/307.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p style="text-align: center;"><b>研读橡胶的基因组文章</b></p>
<p>我本科的前两年在海南儋州读书，那时候旁边就是橡胶所，很多同学也在那边做毕业论文什么的，我一直以为那里是全世界的橡胶中心，所有的先进技术都在那里产生，结果，前些天跟一个橡胶所的老师聊天才发现，居然橡胶(Hevea brasiliensis)的基因组已经发表了，可是，跟橡胶所没有半毛钱关系，更搞笑的事情是，堂堂一个基因组文章居然发表在BMC这样的杂志，真不知道是基因组的年代已经过去了还是他们做的实在是太差了，反正我看不过去了，所以研读他们的文章，并且下载数据测试一下。</p>
<p>文章地址如下:<a href="http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3575267/">http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3575267/</a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章409.png"><img class="alignnone size-full wp-image-309" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章409.png" alt="研读橡胶的基因组文章409" width="554" height="224" /></a></p>
<p>可以看到它过于数据的描述都在补充材料1里面，所以我下载了补充材料。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章550.png"><img class="alignnone size-full wp-image-310" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章550.png" alt="研读橡胶的基因组文章550" width="553" height="273" /></a></p>
<p>可以看到所有的测序数据的描述，45个G的i  llumina的200bp的双端测序，27个G的illumina的200bp的双端测序，约10G左右的长片段（8kb，20kb）罗氏454数据，最后还有一点点solid数据，它这样的测序策略好像是模仿的2011年发布的草莓基因组数据。</p>
<p>&nbsp;</p>
<p>但是补充材料里面没有列出下载地址，我有点困惑！</p>
<p>按照道理我研读文献的步骤应该没有错，有可能是因为这个文章发表的杂志水平太低，所以不要求他们把测序原始数据上传到NCBI的SRA里面。或者是他们本身觉得文章发的不够档次，不想公布数据，所以先留着自己做精细分析，等发了大文章再公布原始数据。</p>
<p>然后我在NCBI的SRA里面查找了关于橡胶的原始数据，果真没有</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章727.png"><img class="alignnone size-full wp-image-311" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/研读橡胶的基因组文章727.png" alt="研读橡胶的基因组文章727" width="554" height="234" /></a></p>
<p>&nbsp;</p>
<p>仅有的10个数据，都是别的小组做的RNA-seq的内容。</p>
<p>De novo transcriptome analysis of abiotic stress responsive transcripts of Hevea brasiliensis.</p>
<p>&nbsp;</p>
<p>所以我只好找了他们所参考的草莓（strawberry, Fragaria vesca (2n = 2x = 14)，a small genome (240 Mb),）的文章，是发表是nature genetics上面的</p>
<p><a href="http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3326587/">http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3326587/</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/307.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
