<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; url</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/url/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>没有必要用R包GEOquery</title>
		<link>http://www.bio-info-trainee.com/1571.html</link>
		<comments>http://www.bio-info-trainee.com/1571.html#comments</comments>
		<pubDate>Thu, 14 Apr 2016 11:40:13 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[R]]></category>
		<category><![CDATA[生信基础]]></category>
		<category><![CDATA[GEO]]></category>
		<category><![CDATA[get]]></category>
		<category><![CDATA[url]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1571</guid>
		<description><![CDATA[以前我写过如何使用GEOquery和GEOmetadb, 它们的确很强大，也很好 &#8230; <a href="http://www.bio-info-trainee.com/1571.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>以前我写过如何使用GEOquery和GEOmetadb, 它们的确很强大，也很好用，做芯片数据pipeline的时候可以省很多力，但最近很多朋友都反应它联网有问题，经常无法下载数据！</p>
<ul>
<li><a title="详细阅读 使用GEOmetadb包来获取对应GEO数据的实验信息" href="http://www.bio-info-trainee.com/1085.html" rel="bookmark">使用GEOmetadb包来获取对应GEO数据的实验信息</a></li>
<li><a title="详细阅读 从GEO数据库下载矩阵数据-可以直接进行下游分析" href="http://www.bio-info-trainee.com/941.html" rel="bookmark">从GEO数据库下载矩阵数据-可以直接进行下游分析<br />
</a></li>
<li></li>
</ul>
<p>为了解决这个问题，我仔细又研究了一下GEO数据库，其实官网本身就提供了WEB API接口，直接根据需求定制化下载数据！</p>
<p>我们使用GEO数据，无非就是想根据study ID号(比如：GSE1009)得到它的raw CEL文件，或者表达矩阵，或者样本分组信息！！！</p>
<p>如果用R包GEOquery来完成这个目的，请参考我的<a href="https://github.com/bioconductor-china/software/blob/master/GEO_jmzeng.md">说明书</a>：</p>
<p>其实raw CEL文件，直接自己拼接url即可</p>
<blockquote><p>ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/matrix/GSE1009_series_matrix.txt.gz</p>
<p>##表达矩阵，需要用在R里面read，skip掉注释信息，tab键分割</p>
<p>ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/suppl/GSE1009_RAW.tar</p>
<p>##芯片原始数据，用affy包来读取</p>
<p>http://www.ncbi.nlm.nih.gov/geo/browse/?view=samples&amp;series=1009&amp;<span style="color: #ff0000;">mode=csv   </span></p>
<p><span style="color: #ff0000;">###样本分组信息</span></p></blockquote>
<p>根据任意study ID号，非常容易就可以拼接出这些url，完全hold住GEOquery这个包的所有功能！</p>
<p>如果该研究涉及到的样本较多，你还可以根据下面的文件列表来有选择性的抓取样本！</p>
<p>ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/suppl/filelist.txt</p>
<p>你要明白的就是浏览器的get请求而已，把下面的字符串组合成一个完整的URL即可</p>
<blockquote>
<div><a href="http://www.ncbi.nlm.nih.gov/geo/browse/">http://www.ncbi.nlm.nih.gov/geo/browse/</a>?</div>
<div>view=series&amp;   ## 四种，</div>
<div>zsort=date&amp;</div>
<div>mode=csv&amp;    ##很重要，可以直接下载csv文件</div>
<div>page=$i&amp;</div>
<div>display=5000    ##很重要</div>
<div></div>
<div>查看总数：curl --silent "<a href="http://www.ncbi.nlm.nih.gov/geo/browse/" target="_blank">http://www.ncbi.nlm.nih.gov/geo/browse/</a>" | grep "total_count"</div>
</blockquote>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1571.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
