NCBI的基因entrez ID相关文件介绍

NCBI的基因entrez ID相关文件介绍

地址:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

里面主要有以下几个文件

NCBI的基因entrez相关文件介绍124

我这里主要介绍gene2ensembl,gene2accession, gene2pubmed,gene2go,gene_info信息文件,它们的核心连接是gene的entrez ID号,了解了以下文件之后,可以把gene的entrez ID随意转换为ensembl的ID号,也可以随意转为基因名字,或者基因的通路信息。解压之后的大小如下:

NCBI的基因entrez相关文件介绍492

一:第一个文件是gene2ensembl

NCBI的基因entrez相关文件介绍859

NCBI的基因entrez相关文件介绍1094

第一列:物种ID号

第二列:gene的entrez ID号

第三列:Ensembl_gene ID号

第四列:RNA的NCBI索取号

第五列:RNA的Ensembl_ ID号

第六列:protein的NCBI索取号

第七列:protein的Ensembl_ ID号

一般,一个gene有多个蛋白

7227是果蝇的物种ID号,30970这个gene ID号对应两个转录本

 

第二个文件是gene2accession

NCBI的基因entrez相关文件介绍1553

第一列:物种ID号

第二列:gene的entrez ID号

第三列:status

第四列:RNA_nucleotide_accession.version,RNA_nucleotide_gi

第五列:protein_accession.version ,protein_gi

第六列:genomic_nucleotide_accession.version,genomic_nucleotide_gi

第七列:然后是start和end的pos坐标,还有正负链的标记

第八列:

第三个文件是 gene2pubmed

NCBI的基因entrez相关文件介绍1912

总共只有三列,分别是物种ID号,gene的entrez ID号,和对应的pubmed ID号

#Format: tax_id GeneID PubMed_ID (tab is used as a separator, pound sign - start of a comment)

其中一个物种里面有多个基因,一个基因会在多篇文献里面都有报道。

第四个文件是gene2go

NCBI的基因entrez相关文件介绍2303

主要看第三列的GO_ID与第四列的gene_name对应着

#Format: tax_id     GeneID     GO_ID     Evidence         Qualifier         GO_term         PubMed         Category

其中一个物种里面有多个基因,一个基因会有多个GO通路

第五个文件是gene_info      

主要是连接了gene的entrez ID与基因的俗名及其描述。

其中比较重要的是Homo_sapiens.gene_info 这个文件。

 

8 thoughts on “NCBI的基因entrez ID相关文件介绍

  1. 楼主,你可好啊,看到你的帖子很兴奋,也很受用。我有一个问题想请教你,通过Trinity软件拼接的最终的文件Trinity.fasta如何知道基因的名字呢?我想做下游的功能聚类分析。