生信人必学ftp站点之NCBI-GEO

NCBI的重要性我就不多说了,Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据!所有的数据均可以在ftp站点下载:ftp://ftp-trace.ncbi.nih.gov/geo/

首先,我们在GEO的主页可以看到:

GEO_stat

截止到2016年8月2日,统计信息如上,可以看到数据量很恐怖了。

GEO数据库基础知识

  • GEO Platform (GPL) 芯片平台
  • GEO Sample (GSM) 样本ID号
  • GEO Series (GSE) study的ID号
  • GEO Dataset (GDS) 数据集的ID号

这些数据都可以在ftp里面直接下载:

FTP directory /geo/ at ftp-trace.ncbi.nih.gov

08/02/2016 05:39AM      Directory datasets
08/02/2016 05:39AM      Directory platforms
08/02/2016 05:39AM      Directory samples
08/02/2016 05:39AM      Directory series

网址都是很有规律的!(请务必注意规律)

我们一般是拿到了GSE的study ID号,然后直接把什么的url修改一下,就可以看到关于该study的所以描述信息,是用的什么测序平台(芯片数据,或者高通量测序),测了多少个样本,来自于哪篇文章!
所有需要的数据均可以下载,而且都是在上面的ftp里面可以根据规律去找到的,甚至可以自己拼接下载的url链接,来做批量化处理!
1
如果是芯片数据,那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息,才能利用好别人的数据。
如果是高通量测序数据,一般要同步进入该GSE对应的SRA里面去下载sra数据,然后转为fastq格式数据,自己做处理!

Comments are closed.