<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; gencode</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/gencode/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>基因组标准注释文件-Gencode数据库</title>
		<link>http://www.bio-info-trainee.com/1781.html</link>
		<comments>http://www.bio-info-trainee.com/1781.html#comments</comments>
		<pubDate>Fri, 08 Jul 2016 12:28:49 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[gencode]]></category>
		<category><![CDATA[lncRNA]]></category>
		<category><![CDATA[假基因]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1781</guid>
		<description><![CDATA[Gencode数据库是ENCODE计划的衍生品，也是由大名鼎鼎的sanger研究 &#8230; <a href="http://www.bio-info-trainee.com/1781.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>Gencode数据库是ENCODE计划的衍生品，也是由大名鼎鼎的sanger研究所负责整理和维护，主要记录了基因组的功能注释，比如基因组每条染色体上面有哪些编码蛋白的基因，哪些假基因，哪些lncRNA的基因，它们坐标是什么，基因上面的外显子内含子坐标是什么，UTR区域坐标是什么？我以前通常是在EBI的ENSEMBL的FTP服务器下载，后来才发现了这个Gencode数据库，现在以这个为金标准啦！</div>
<p><span id="more-1781"></span></p>
<div></div>
<div>数据库文章:The GENCODE v7 catalog of human long noncoding RNAs, 链接是 <a href="http://genome.cshlp.org/content/22/9/1775.full">http://genome.cshlp.org/content/22/9/1775.full</a></div>
<div>FTP地址：<a href="ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/">ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/</a>  可以下载该数据库的所有资料，而且整理的非常好，自己写脚本很容易处理得到自己想要的信息。</div>
<div></div>
<div>GENCODE最新版是v24，在linux系统里面用 wget -c -r -np -k -L -A "*metadata*" <a href="ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/">ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/</a>  可以把所有metadata数据下载</div>
<div>检查里面的记录数： ls *gz |while read id;do (echo -n $id;echo -n "    " ;zcat $id |wc -l ) ;done</div>
<div>可以与官网的统计信息相对应： <a href="http://www.gencodegenes.org/stats.html">http://www.gencodegenes.org/stats.html</a></div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/07/gencode_statistics.png"><img class="alignnone size-full wp-image-1782" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/07/gencode_statistics.png" alt="gencode_statistics" width="618" height="360" /></a></div>
<div>可以看到编码蛋白的基因的个数并不比lncRNA的基因多，甚至跟假基因也差不太多</div>
<div><img src="file:///C:/Users/Jimmy/AppData/Local/YNote/data/jmzeng1314@163.com/44937a9364c24fedb03d8b47028250c0/clipboard.png" alt="" data-media-type="image" data-inited="true" /></div>
<div>首先，我们看看meta data信息，主要是该数据库与其它主流数据库的关系</div>
<div>gencode.v24.metadata.Annotation_remark.gz    40879</div>
<div>gencode.v24.metadata.EntrezGene.gz    170466</div>
<div>gencode.v24.metadata.Exon_supporting_feature.gz    19193542</div>
<div>gencode.v24.metadata.Gene_source.gz    66206</div>
<div>gencode.v24.metadata.HGNC.gz    182831</div>
<div>gencode.v24.metadata.PDB.gz    94547</div>
<div>gencode.v24.metadata.PolyA_feature.gz    84652</div>
<div>gencode.v24.metadata.Pubmed_id.gz    209094</div>
<div>gencode.v24.metadata.RefSeq.gz    75365</div>
<div>gencode.v24.metadata.Selenocysteine.gz    119</div>
<div>gencode.v24.metadata.SwissProt.gz    45067</div>
<div>gencode.v24.metadata.Transcript_source.gz    217202</div>
<div>gencode.v24.metadata.Transcript_supporting_feature.gz    87375</div>
<div>gencode.v24.metadata.TrEMBL.gz    61924</div>
<div></div>
<div>还可以下载所有的gtf文件：</div>
<div>wget -c -r -np -nd -k -L -A "*gtf.gz" <a href="ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/">ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/</a></div>
<div>gtf文件特别重要，大家一定要抽两个小时时间好好理解，写一写脚本好好玩一玩这个文件，彻底吃透它！！！</div>
<div></div>
<div>还可以下载参考转录组及参考蛋白组，我这里还是拿hg19举例：</div>
<div>## <a href="ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/GRCh37_mapping/gencode.v24lift37.transcripts.fa.gz">ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/GRCh37_mapping/gencode.v24lift37.transcripts.fa.gz</a></div>
<div>## <a href="ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/GRCh37_mapping/gencode.v24lift37.lncRNA_transcripts.fa.gz">ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/GRCh37_mapping/gencode.v24lift37.lncRNA_transcripts.fa.gz</a></div>
<div>## <a href="ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/GRCh37_mapping/gencode.v24lift37.pc_transcripts.fa.gz">ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_24/GRCh37_mapping/gencode.v24lift37.pc_transcripts.fa.gz</a></div>
<div></div>
<div>其实你有gtf文件，也可以直接从参考基因组序列里面提取这个参考转录组及参考蛋白组，就是通常是gtf2fasta，随便搜索一下，一大堆方法。</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1781.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
