生信菜鸟团 » GEO

生信人必学ftp站点之NCBI-GEO

ulwvfje — Tue, 02 Aug 2016 11:48:19 +0000

NCBI的重要性我就不多说了，Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据！所有的数据均可以在ftp站点下载：ftp://ftp-trace.ncbi.nih.gov/geo/

首先，我们在GEO的主页可以看到：

截止到2016年8月2日，统计信息如上，可以看到数据量很恐怖了。

GEO数据库基础知识

GEO Platform (GPL) 芯片平台
GEO Sample (GSM) 样本ID号
GEO Series (GSE) study的ID号
GEO Dataset (GDS) 数据集的ID号

这些数据都可以在ftp里面直接下载：

FTP directory /geo/ at ftp-trace.ncbi.nih.gov

08/02/2016 05:39AM      Directory datasets
08/02/2016 05:39AM      Directory platforms
08/02/2016 05:39AM      Directory samples
08/02/2016 05:39AM      Directory series

网址都是很有规律的！（请务必注意规律）

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311

我们一般是拿到了GSE的study ID号，然后直接把什么的url修改一下，就可以看到关于该study的所以描述信息，是用的什么测序平台(芯片数据，或者高通量测序)，测了多少个样本，来自于哪篇文章！

所有需要的数据均可以下载，而且都是在上面的ftp里面可以根据规律去找到的，甚至可以自己拼接下载的url链接，来做批量化处理！

如果是芯片数据，那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息，才能利用好别人的数据。

如果是高通量测序数据，一般要同步进入该GSE对应的SRA里面去下载sra数据，然后转为fastq格式数据，自己做处理！

6种方式下载ENCODE计划的所有数据

ulwvfje — Thu, 28 Jul 2016 14:50:00 +0000

DNA元件百科全书(Encyclopedia of DNA Elements, ENCODE)ENCODE计划的重要性我就不多说了，如果大家还不是很了解，可以直接跳到本文末尾去下载一下ENCODE教程，好好学习。该计划采用以下几种高通量测序技术来刻画了超过100种不同的细胞系或者组织内的全基因组范围内的基因调控元件信息。本来只是针对人类的，后来对mouse以及fly等模式生物也开始测这些数据并进行分析了，叫做 modENCODE

chromatin structure (5C)

open chromatin (DNase-seq and FAIRE-seq)

histone modifications and DNA-binding of over 100 transcription factors (ChIP-seq)

RNA transcription (RNAseq and CAGE)

目前所有数据均全部公开(http://genome.ucsc.edu/ENCODE/ )，ENCODE results from 2007 and later are available from the ENCODE Project Portal, encodeproject.org. 并以30篇论文在Nature、Science、Cell、JBC、Genome Biol、Genome Research同时发表(http://www.nature.com/encode )。

所有数据从raw data形式的原始测序数据到比对后的信号文件以及分析好的有意的peaks文件都可以下载。

我这里根据自己的学习情况，简单介绍一些ENCODE计划数据下载方式，包括ENCODE官网下载,UCSC下载，ENSEMBL下载，broad研究所数据，IHEC存放的数据，还有GEO下载这6种形式！！！

首先在UCSC里面：

网址是：http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/ 因为是直接浏览文件，根据文件夹分类及文件名就可以任意方式下载自己感兴趣的数据啦，所以最对我胃口。

大家可能会比较习惯用UCSC提供的Genome Browser工具来可视化CHIP-seq的结果，而且Genome Browser里面非常多的选项可以控制各种在线资料是否跟你的数据一起显示来做对比，所以它必然有ftp服务器存放这些数据，其中比较出名的就是ENCODE计划的相关数据啦！如下图所示：

我比较关注ENCODE计划的组蛋白数据，点击进入！

一般都是

每个细胞系对应的各个组蛋白标记物的数据，从测序序列到比对bam文件，以及call到的peaks都可以下载！！！

然后是ENCODE计划的官网下载：

在ENCODE计划的官网上面还有各种数据处理的流程介绍：https://www.encodeproject.org/pipelines/

RNA-seq pipelines

RAMPAGE pipeline

Chromatin pipelines(Histone ChIP-seq Pipeline/Transcription Factor ChIP-seq Pipeline)

Methylation pipeline(WGBS Pipeline Overview)

官网的数据下载，做得像是一个购物网站，大家可以根据自己的需求把数据添加到购物篮，然后统一下载。

This document describes what data are available at the ENCODE Portal, ways to get started searching and downloading data, and an overview to how the metadata describing the assays and reagents are organized. ENCODE data can be visualized and accessed from other resources, including the UCSC Genome Browser and ENSEMBL.

进入 https://www.encodeproject.org/matrix/?type=Experiment 可以看到里面列出了173种细胞系，148种组织，还有一堆癌症样本的，包括CHIP-seq，DNase-seq等在内的十几种高通量测序数据。

接下来是GEO数据库里面：

里面直接把所有跟ENCODE相关的GSE study列出来了：http://www.ncbi.nlm.nih.gov/geo/info/ENCODE.html

GEO数据就没什么好说的了，直接进入study页面，然后下载数据即可，这也是我比较喜欢的数据下载方式，因为GEO里面对一个实验的描述很详细。

然后是broad 研究所托管的ENCODE计划的数据:

大名鼎鼎的broad研究所貌似是生物信息最全面的资源站点了，它不仅host了ENCODE计划的所有数据，还有它分析ENCODE计划的数据时使用的软件，工具。

http://www.broadinstitute.org/~anshul/projects/encode

原始数据在：http://www.broadinstitute.org/~anshul/projects/encode/rawdata/

接着是 iHEC存放的数据：

http://epigenomesportal.ca/ihec/download.html

我还是第一次看到这个数据接口，也是以文件夹文件的形式直接浏览，根据自己的需求下载即可：

除了ENCODE计划的数据，还有Blueprint计划和roadmap计划的数据都可以下载。


CEEHRC	2014-09-18	Click here for policies
Blueprint	2014-08-11	Click here for policies
ENCODE	2011-01	Click here for policies
NIH Roadmap	2014-05-29	Click here for policies
DEEP	2014-08-15	Click here for policies
CREST JST	2014-09-12	Click here for policies
KNIH	2015-07-15	Click here for policies

最后就是ENSEMBL数据库里面的：

我没有找到直接下载地址；http://asia.ensembl.org/info/website/tutorials/encode.html

The full ENCODE datasets that were used in the Ensembl regulatory build can also be viewed in the Ensembl GrCh37 archive, by attaching a track hub to Region in Detail - the link below will do this automatically:

Link to add ENCODE integrative analysis hub

This creates a menu in the Control Panel on Region in Detail, from which you can add individual tracks or groups of tracks using matrix selectors. Cell type and experimental factor are the two principal axes; other dimensions can be selected by clicking on a box to open an additional submenu (see below).

如果你对ENCODE计划不是很了解，可以先看看一些教程：

NIH提供的ENCODE计划相关教程： https://www.genome.gov/27553900/encode-tutorials/

https://www.genome.gov/27562350/encode-workshop-april-2015-keystone-symposia/

https://www.genome.gov/27561253/encode-workshop-tutorial-october-2014-ashg/

https://www.genome.gov/27553901/encode-tutorial-may-2013-biology-of-genomes-cshl/

https://www.genome.gov/27563006/encoderoadmap-epigenomics-tutorial-october-2015-ashg/

https://www.genome.gov/27555330/encoderoadmap-epigenomics-tutorial-october-2013-ashg/

https://www.genome.gov/27551933/encoderoadmap-epigenomics-tutorial-nov-2012-ashg/

http://useast.ensembl.org/info/website/tutorials/encode.html

https://www.encodeproject.org/tutorials/

https://www.encodeproject.org/tutorials/encode-meeting-2016/

https://www.encodeproject.org/tutorials/encode-users-meeting-2015/

DNA元件百科全书(Encyclopedia of DNA Elements, ENCODE)项目旨在描述人类基因组中所编码的全部功能性序列元件。ENCODE计划于2003年9月正式启动，吸引了来自美国、英国、西班牙、日本和新加坡五国32个研究机构的440多名研究人员的参与，经过了9年的努力，研究了147个组织类型，进行了1478次实验，获得并分析了超过15万亿字节的原始数据，确定了400万个基因开关，明确了哪些DNA片段能打开或关闭特定的基因，以及不同类型细胞之间的“开关”存在的差异。证明所谓“垃圾DNA”都是十分有用的基因成分，担任着基因调控重任。证明人体内没有一个DNA片段是无用的。

没有必要用R包GEOquery

ulwvfje — Thu, 14 Apr 2016 11:40:13 +0000

以前我写过如何使用GEOquery和GEOmetadb, 它们的确很强大，也很好用，做芯片数据pipeline的时候可以省很多力，但最近很多朋友都反应它联网有问题，经常无法下载数据！

为了解决这个问题，我仔细又研究了一下GEO数据库，其实官网本身就提供了WEB API接口，直接根据需求定制化下载数据！

我们使用GEO数据，无非就是想根据study ID号(比如：GSE1009)得到它的raw CEL文件，或者表达矩阵，或者样本分组信息！！！

如果用R包GEOquery来完成这个目的，请参考我的说明书：

其实raw CEL文件，直接自己拼接url即可

ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/matrix/GSE1009_series_matrix.txt.gz

##表达矩阵，需要用在R里面read，skip掉注释信息，tab键分割

ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/suppl/GSE1009_RAW.tar

##芯片原始数据，用affy包来读取

http://www.ncbi.nlm.nih.gov/geo/browse/?view=samples&series=1009&mode=csv

###样本分组信息

根据任意study ID号，非常容易就可以拼接出这些url，完全hold住GEOquery这个包的所有功能！

如果该研究涉及到的样本较多，你还可以根据下面的文件列表来有选择性的抓取样本！

ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/suppl/filelist.txt

你要明白的就是浏览器的get请求而已，把下面的字符串组合成一个完整的URL即可

http://www.ncbi.nlm.nih.gov/geo/browse/?

view=series& ## 四种，

zsort=date&

mode=csv& ##很重要，可以直接下载csv文件

page=$i&

display=5000 ##很重要

查看总数：curl --silent "http://www.ncbi.nlm.nih.gov/geo/browse/" | grep "total_count"

用R语言包从EBI的arrayexpress数据库里面下载芯片数据

ulwvfje — Thu, 03 Mar 2016 14:13:26 +0000

这个包跟GEOquery区别不是很大，只不过一个是正对NCBI的GEO数据库，一个是针对EBI的arrayexpress数据库，只有对写自动化脚本的人来说才有需求，一般个人分析者都是自己去数据库主页里面查找，然后拿到下载链接，一个个下载。

从EBI的arrayexpress数据库里面下载芯片数据：

主页：https://www.ebi.ac.uk/arrayexpress/

update to 2016-3-1 11:41:27

63890 experiments

1912744 assays

40.53 TB of archived data 数据量还是蛮大的

所有的data，都可以在ftp服务器里面下载：ftp://ftp.ebi.ac.uk/pub/databases/arrayexpress/data/experiment/BUGS/

根据ID号很整齐的储存着。

也可以用一个R语言包：ArrayExpress R package

说明书；https://bioconductor.org/packages/release/bioc/vignettes/ArrayExpress/inst/doc/ArrayExpress.pdf

这个包来自于文献：http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2723004/

2009年，那个时候R语言用的人很少，这个简单的包都可以发文章，现在看来简直不可思议！

其实大部分数据都是跟GEO数据库对应的：比如https://www.ebi.ac.uk/arrayexpress/experiments/E-GEOD-55645/ 对应于：GEO - GSE55645

比如对NASH表达数据查找：https://www.ebi.ac.uk/arrayexpress/search.html?query=NASH++expression 30条结果里面只有4条是arrayexpress数据库独有的！

source("https://bioconductor.org/biocLite.R")

biocLite("ArrayExpress")

library(ArrayExpress)

网页搜索功能：https://www.ebi.ac.uk/arrayexpress/search.html?query=NASH++expression+Homo+sapiens

如果用R语言，搜索如下：

可以用sets = queryAE(keywords = "NASH+expression", species = "homo+sapiens")

效果是一样的！

下载数据用：

back = getAE("E-MEXP-3291")

下载其实也就是里面存储了链接，直接调用R语言的下载函数即可！

一般没必要下载原始测序文件，直接用下面这个函数就可以得到一个数据对象，可以直接得到表达矩阵和实验的metadata

rawset = ArrayExpress("E-MEXP-3291")

使用GEOmetadb包来获取对应GEO数据的实验信息

ulwvfje — Thu, 29 Oct 2015 02:30:27 +0000

理论上我前面提到的GEOquery包就可以根据一个GSE索引号来获取NCBI提供的所有关于这个GSE索引号的数据了，包括metadata，表达矩阵，soft文件，还有raw data

但是很多时候，那个metadata并不是很整齐，而且一个个下载太麻烦了，所以就需要用R的bioconductor的另一个神奇的包了GEOmetadb

它的示例：http://bioconductor.org/packages/devel/bioc/vignettes/GEOmetadb/inst/doc/GEOmetadb.R

它的主页：http://bioconductor.org/packages/devel/bioc/html/GEOmetadb.html

里面还是很多数据库基础知识的

代码托管在github，它的示例代码是这样连接数据库的：

library(GEOmetadb)
if(!file.exists('GEOmetadb.sqlite')) getSQLiteFile()
file.info('GEOmetadb.sqlite')
con <- dbConnect(SQLite(),'GEOmetadb.sqlite')
dbDisconnect(con)
但是一般不会成功，因为这个包把它的GEOmetadb.sqlite文件放在了国外网盘共享，在国内很难访问，推荐大家想办法下载到本地

用这个代码就会成功了，需要自己下载GEOmetadb.sqlite文件然后放在指定目录：/path/GEOmetadb.sqlite 需要自己修改
我们的diabetes.GEO.list文件内容如下：
GSE1009
GSE10785
GSE1133
GSE11975
GSE121
GSE12409
那么会产生的表格文件如下：共有32列数据信息，算是蛮全面的了