生信菜鸟团 » ftp

生信人必学ftp站点之 dbsnp

ulwvfje — Thu, 04 Aug 2016 14:56:50 +0000

这个数据库我也不想多解释了，也是host在NCBI上，不仅有常见的模式生物已经被研究过的所有variation位点信息，还有很多其它物种的数据，主站点是：ftp://ftp-trace.ncbi.nih.gov/snp/organisms/

人类是物种ID是9606，可以看到variation位点信息有基于hg19和hg38的两种下载方式，如果还有其它需求，可以自己用基因组坐标转换工具。在NCBI的snp页面也有对各种物种的variation位点信息记录文件的统计：http://www.ncbi.nlm.nih.gov/snp/ http://www.ncbi.nlm.nih.gov/SNP/同时也是NCBI做好的一个网页版查询工具，因为下载一个 variation位点信息记录文件动辄就是十几个G，一般人也不会处理那个文件，不知道从里面应该如何提取需要的信息，这时候学习它的网页版查询工具也挺好的。

但是对真正搞生物信息学分析的人来说，就必须呀完全掌握这个站点以及里面的全部文件了。我比较感兴趣的是关于人类的研究，所有数据都在下面：

Nov 24 2015 00:00    Directory human_9606_b146_GRCh37p13
Apr 20 2016 19:39    Directory human_9606_b146_GRCh38p2
Apr 20 2016 19:23    Directory human_9606_b147_GRCh37p13
Apr 23 2016 03:59    Directory human_9606_b147_GRCh38p2

在UCSC里面也有对dbsnp数据库的介绍，主要是从数据库设计的角度来理解，里面详细介绍了每一列具体的意义，值得大家仔细学习。

http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=snp146&hgta_table=snp146&hgta_doSchema=describe+table+schema

http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=snp141&hgta_table=snp141&hgta_doSchema=describe+table+schema

但是如果真想从数据库语言的角度来理解，需要看它的schema了：很复杂：ftp://ftp.ncbi.nih.gov/snp/database/erd_dbSNP.pdf

sql的代码也可以下载：ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/database/organism_schema/

还根据gene来分genotype：ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/genotype_by_gene/

最后值得一提的是，除了dbsnp对variation规定了ID号，还有几个其它偏门的ID号也可以来描述变异位点的。

NCBI的dbsnp，以rs和ss开头

illumina的kgp开头

还有ESP的以esp开头

kgp是illumina中华八芯片的

kgp identifiers were not created by the 1000 Genomes Project. We also do not maintain them. They were created by Illumina for their genotyping platform before some variants identified during the pilot phase of the project had been assigned rs numbers.

We do not possess a mapping of these identifiers to current rs numbers. As far as we are aware no such list exists.

用DBsnp的数据，根据Illumina提供的注释文件，可以找到相应的RSID号。

Updating kgp IDs to rs IDs for SNPs on Illumina HumanOmni2.5M array

生信人必学ftp站点之1000genomes

ulwvfje — Tue, 02 Aug 2016 12:10:07 +0000

千人基因组计划的重要性我也不想多说了，由于时间跨度比较长，最终的数据不只是一千人，最新版共有NA编号开头的1182个人，HG开头的1768个人！它的官方网站是：有一个ppt讲得很清楚如何通过官网做的data portal来下载数据：https://www.genome.gov/pages/research/der/ichg-1000genomestutorial/how_to_access_the_data.pdf 我不喜欢可视化的界面，我比较喜欢直接进入ftp自己翻需要的数据，千人基因组计划不仅仅有自己的ftp站点，而且在NCBI，EBI和sanger研究所里面也有数据源可以下载，是非常丰富的生信入门资源！

ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/

ftp://ftp.sanger.ac.uk/pub/1000genomes/

ftp://ftp.ebi.ac.uk/pub/databases/1000genomes/

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp

千人基因组计划测了5个大的人种，25个亚人种，具体介绍如下：

09/08/2014 12:00AM          1,663 20131219.populations.tsv
09/09/2014 12:00AM             97 20131219.superpopulations.tsv

其实对大部分人来说，除非你想下载千人基因组计划的原始数据来学习生物信息学分析流程，不然用不着这个ftp站点的，它自己在EBI里面的有一个非常好用的可视化界面来浏览千人基因组计划的variation结果

千人基因组计划 -- 基因组浏览器： http://www.ncbi.nlm.nih.gov/variation/tools/1000genomes/

http://www.ncbi.nlm.nih.gov/projects/SNP/snp_ref.cgi?rs=rs35761398 chr1:24201919:24201920

http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=2501432 chr1:24201920

http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=2502992 chr1:24201919

在千人基因组计划里面看一个rs就能看到各种人群信息：

http://browser.1000genomes.org/Homo_sapiens/Variation/Population?r=1:24201420-24202420;v=rs2501432;vdb=variation;vf=1849472

这些人群信息，可以画一个网路图！只需要变化rs ID号即可，当然并不是所有的rs ID号都在千人基因组计划里面有显示的。

还有一个java软件-可视化检测千人基因组数据

http://bioinformatics.oxfordjournals.org/content/early/2016/03/17/bioinformatics.btw147.short?rss=1

http://limousophie35.github.io/Ferret/

但是好像不是很好用！

在千人基因组计划的ftp主站点里面可以下载所有数据。

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/

ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/

直接看最新版的数据，共有NA编号开头的1182个人，HG开头的1768个人！

ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/phase3/data/

也可以按照人种来查看这些数据：ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/data/

每个人的目录下面都有四个数据文件夹

Oct 01 2014 00:00 Directory alignment

Oct 01 2014 00:00 Directory exome_alignment

Oct 01 2014 00:00 Directory high_coverage_alignment

Oct 01 2014 00:00 Directory sequence_read

这些数据实在是太丰富了！

也可以直接看最新版的vcf文件，记录了这两千多人的所有变异位点信息！

可以直接看到所有的位点，具体到每个人在该位点是否变异！

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/

不过它的基因型信息是通过MVNcall+SHAPEIT这个程序call出来的，具体原理见：http://www.ncbi.nlm.nih.gov/pubmed/23093610

而且网站还提供一些教程：ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000_genomes_project/working/

我们肯定可以在千人基因计划的官网下载测序数据，主要是vcf格式的突变！

Coriell Catalog website: 1000 Genomes Project
1000 Genomes website: browser.1000genomes.org/index.html (by SNP ID)
1000 Genomes website: www.1000genomes.org/data (bulk data)

但是关于它的表达数据，就不是那么简单了！

The most important available existing expression datasets involving 1000g individuals are probably the following:

RNAseq (mRNA & miRNA) on 465 individuals (CEU, TSI, GBR, FIN, YRI)

Pre-publication RNA-sequencing data from the Geuvadis project is available through http://www.geuvadis.org

http://www.ebi.ac.uk/arrayexpress/experiments/E-GEUV-1/samples.html
http://www.ebi.ac.uk/arrayexpress/experiments/E-GEUV-2/samples.html

RNAseq on 60 CEU individual ^[1]

http://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-197

Expression arrays on about 800 HapMap 3 individuals with a lot of overlap with 1000g data ^[1,2]

http://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-198
http://www.ebi.ac.uk/arrayexpress/experiments/E-MTAB-264

RNAseq for 69 YRI individuals ^[3]

http://www.ebi.ac.uk/arrayexpress/experiments/E-GEOD-19480

生信人必学ftp站点之NCBI-GEO

ulwvfje — Tue, 02 Aug 2016 11:48:19 +0000

NCBI的重要性我就不多说了，Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据！所有的数据均可以在ftp站点下载：ftp://ftp-trace.ncbi.nih.gov/geo/

首先，我们在GEO的主页可以看到：

截止到2016年8月2日，统计信息如上，可以看到数据量很恐怖了。

GEO数据库基础知识

GEO Platform (GPL) 芯片平台
GEO Sample (GSM) 样本ID号
GEO Series (GSE) study的ID号
GEO Dataset (GDS) 数据集的ID号

这些数据都可以在ftp里面直接下载：

FTP directory /geo/ at ftp-trace.ncbi.nih.gov

08/02/2016 05:39AM      Directory datasets
08/02/2016 05:39AM      Directory platforms
08/02/2016 05:39AM      Directory samples
08/02/2016 05:39AM      Directory series

网址都是很有规律的！（请务必注意规律）

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311

我们一般是拿到了GSE的study ID号，然后直接把什么的url修改一下，就可以看到关于该study的所以描述信息，是用的什么测序平台(芯片数据，或者高通量测序)，测了多少个样本，来自于哪篇文章！

所有需要的数据均可以下载，而且都是在上面的ftp里面可以根据规律去找到的，甚至可以自己拼接下载的url链接，来做批量化处理！

如果是芯片数据，那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息，才能利用好别人的数据。

如果是高通量测序数据，一般要同步进入该GSE对应的SRA里面去下载sra数据，然后转为fastq格式数据，自己做处理！

Linux服务器基础知识

ulwvfje — Sat, 21 Mar 2015 11:00:19 +0000

想了想，既然是菜鸟教程，那就索性再介绍点更基础的东西，基本上只要是大学毕业的都能看懂，不需要懂计算机了。首先讲讲linux服务器吧，因为生物信息也算是半个大数据分析，所以我们平常的办公电脑一般都是不能满足需求的，大部分实验室及公司都会自己配置好服务器给菜鸟们用，菜鸟们首先要拿到服务器的IP和高手给你的用户名和密码。

一般我们讲服务器，大多是linux系统，而我这里所讲的linux系统呢，特指ubuntu，其余的我懒得管了，大家也不要耗费无谓的时间纠结那些名词的不同！

登录到服务器有两种方法，一种是ssh，传输你的命令给服务器执行，另一种是ftp，和服务器交换文件。而ssh我们通常用putty，xshell等等。ftp呢，我们可以用winscp，xshell，所以我一直都用xshell，因为它两者都能搞定！

Xshell软件自行搜索下载，打开之后新建一个连接，然后登陆即可。

然后输入以下命令，可以查看服务器配置，包括cpu。内存，还有硬盘

cat /proc/cpuinfo |grep pro|wc -l

free -g

df -h

这个服务器配置好一点，有80个cpu，内存256G，硬盘有2个11T的，是比较成熟的配置。

这个是一个小型服务器。也就24个核，64G的内存，但是存储量有点小呀，其实可以随便花几百块钱买个1T的硬盘挂载上去的。

然后linux的其它命令大家就得自己去搜索一个个使用，然后熟悉，记牢，然后创新啦！

我随便敲几个我常用的吧： ls cd mkdir rm cp cat head tail more less diff grep awk sed grep perl 等等！

呀，突然间发现我才介绍了ssh的方法登陆服务器并且发送命令在服务器上面运行，下面贴图如何传输文件。一般xshell的菜单里面有绿的文件夹形式的标签就是打开ftp文件传输，这种可视化的软件，大家慢慢摸索吧！