<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; ENSEMBL</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/ensembl/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>一个基因在同一套基因组上面竟然有两个定位！</title>
		<link>http://www.bio-info-trainee.com/1991.html</link>
		<comments>http://www.bio-info-trainee.com/1991.html#comments</comments>
		<pubDate>Thu, 10 Nov 2016 13:18:13 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[杂谈-随笔]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[HAVANA]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1991</guid>
		<description><![CDATA[查了好久的bug，终于搞清楚问题所在了！因为要对基因进行reads计数，所以要拿 &#8230; <a href="http://www.bio-info-trainee.com/1991.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>查了好久的bug，终于搞清楚问题所在了！因为要对基因进行reads计数，所以要拿到基因在基因组上面的染色体起始终止坐标，结果发现了个十分诡异的现象，很多基因有多个坐标，比如下面这个PTPRS 在hg38这个基因组版本，居然有两个定位，因为我是写程序格式化得到的坐标，所以我check了我的程序，<a href="http://www.biotrainee.com/thread-472-1-1.html " target="_blank">http://www.biotrainee.com/thread-472-1-1.html </a> 感兴趣的同学可以点开看看我的代码！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/11/tmp1.png"><img class=" size-full wp-image-1992 aligncenter" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/11/tmp1.png" alt="tmp" width="442" height="111" /></a><br />
<span id="more-1991"></span></p>
<p>代码基本没有问题，我也去 genecard里面确认了PTPRS 的确只有一个坐标：<a href="http://www.genecards.org/cgi-bin/carddisp.pl?gene=PTPRS" target="_blank">http://www.genecards.org/cgi-bin/carddisp.pl?gene=PTPRS</a>  那么为什么我的程序会得到两个不同的坐标呢？</p>
<p>我去搜索了该基因的记录，发现竟然有HAVANA和ENSEMBL的区别~~~</p>
<p><strong><span style="color: #ff0000;">chr19 HAVANA gene 5158495 5340803</span></strong> . - . gene_id "ENSG00000105426.15"; gene_type "protein_coding"; gene_status "KNOWN"; gene_name "PTPRS"; level 2; havana_gene "OTTHUMG00000180325.4";<br />
<strong><span style="color: #ff0000;">chr19 ENSEMBL gene 5206774 5286140</span> </strong>. - . gene_id "ENSG00000283229.1"; gene_type "protein_coding"; gene_status "KNOWN"; gene_name "PTPRS"; level 3;</p>
<p>虽然我不知道什么意思，但是应该选择HAVANA才对！！！</p>
<p>For human, mouse, zebrafish, rat and pig, Ensembl not only shows transcripts that are annotated automatically using the Ensembl genebuild pipeline, but also transcripts that are manually annotated by the <a href="http://www.sanger.ac.uk/HGP/havana/" rel="external">HAVANA</a> team. If the Ensembl and Havana annotation agree with each other the transcripts are combined into an Ensembl/Havana merged transcript. When a transcript is only annotated by Ensembl or Havana it is named an Ensembl or Havana transcript, respectively. Transcripts that do match a species-specific entry in the <a href="http://www.uniprot.org/" rel="external">UniProtKB/Swiss-Prot</a> or <a href="http://www.ncbi.nlm.nih.gov/RefSeq/" rel="external">RefSeq</a> databases are categorised as known, those that do not as categorised as novel. For more detailed information, please have a look at our <a href="http://asia.ensembl.org/info/genome/genebuild/genome_annotation.html" target="_blank">genebuild</a> documentation.</p>
<p>而且根据这个可以看出，<a href="http://www.sanger.ac.uk/HGP/havana/" rel="external">HAVANA</a> 是一个验证团队，我们要相信他！！</p>
<p>还是太年轻呀，我以为选择了HAVANA就可以保证每个基因只有一个位置了，但是！</p>
<p><strong><span style="color: #ff0000;">chr11 HAVANA gene 71505409 71529284</span></strong> . - . gene_id "ENSG00000248671.7_2"; gene_type "processed_transcript"; gene_status "KNOWN"; gene_name "ALG1L9P"; level 2; tag "overlapping_locus"; havana_gene "OTTHUMG00000167480.2_2"; remap_status "full_contig"; remap_num_mappings 1; remap_target_status "overlap";<br />
<strong><span style="color: #ff0000;">chr11 HAVANA gene 71511587 71515686</span></strong> . - . gene_id "ENSG00000254978.2_1"; gene_type "transcribed_unprocessed_pseudogene"; gene_status "KNOWN"; gene_name "ALG1L9P"; level 2; tag "overlapping_locus"; havana_gene "OTTHUMG00000167481.1_1"; remap_status "full_contig"; remap_num_mappings 1; remap_target_status "overlap";</p>
<p>其实最主要的原因就是有多个ensembl数据库定义的基因都关联到同一个symbol，这个很麻烦，这个是Asparagine-Linked Glycosylation 1-Like 9, Pseudogene ，既然是Pseudogene，一般情况下的分析就应该过滤掉了算了！</p>
<p>但是也有protein coding的基因是有两个坐标的，我最后也是没有办法了，只好选择最长的基因咯<br />
chr17 HAVANA gene 40177594 40250497 . - . gene_id "ENSG00000187595.15_2"; gene_type "protein_coding"; gene_status "KNOWN"; gene_name "ZNF385C"; level 1; tag "overlapping_locus"; havana_gene "OTTHUMG00000132073.6_2"; remap_status "full_contig"; remap_num_mappings 1; remap_target_status "overlap";<br />
chr17 HAVANA gene 40190250 40202632 . - . gene_id "ENSG00000267221.2_2"; gene_type "protein_coding"; gene_status "KNOWN"; gene_name "ZNF385C"; level 2; tag "overlapping_locus"; havana_gene "OTTHUMG00000180103.2_2"; remap_status "full_contig"; remap_num_mappings 1; remap_target_status "overlap";</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1991.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基因组各种版本对应关系</title>
		<link>http://www.bio-info-trainee.com/1469.html</link>
		<comments>http://www.bio-info-trainee.com/1469.html#comments</comments>
		<pubDate>Tue, 15 Mar 2016 11:50:00 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[基础数据格式]]></category>
		<category><![CDATA[未分类]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[UCSC]]></category>
		<category><![CDATA[基因组版本]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1469</guid>
		<description><![CDATA[我是受到了SOAPfuse的启发才想到整理各种基因组版本的对应关系，完整版！！！ &#8230; <a href="http://www.bio-info-trainee.com/1469.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<pre>我是受到了SOAPfuse的启发才想到整理各种基因组版本的对应关系，完整版！！！</pre>
<pre>以后再也不用担心各种基因组版本混乱了，我还特意把所有的下载链接都找到了，可以下载任意版本基因组的基因fasta文件，gtf注释文件等等！！！</pre>
<div>首先是NCBI对应UCSC，对应ENSEMBL数据库：</div>
<div></div>
<div>
<blockquote>
<div>GRCh36 (hg18): ENSEMBL release_52.</div>
<div>GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.</div>
<div>GRCh38 (hg38): ENSEMBL  release_76/77/78/80/81/82.</div>
</blockquote>
<div></div>
<div>可以看到ENSEMBL的版本特别复杂！！！很容易搞混！</div>
<div>但是UCSC的版本就简单了，就hg18,19,38, 常用的是hg19，但是我推荐大家都转为hg38</div>
<div>看起来NCBI也是很简单，就GRCh36,37,38，但是里面水也很深！</div>
<div>
<blockquote>
<pre>Feb 13 2014 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/April_14_2003/">April_14_2003</a>
Apr 06 2006 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.33/">BUILD.33</a>
Apr 06 2006 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.34.1/">BUILD.34.1</a>
Apr 06 2006 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.34.2/">BUILD.34.2</a>
Apr 06 2006 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.34.3/">BUILD.34.3</a>
Apr 06 2006 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.35.1/">BUILD.35.1</a>
Aug 03 2009 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.36.1/">BUILD.36.1</a>
Aug 03 2009 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.36.2/">BUILD.36.2</a>
Sep 04 2012 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.36.3/">BUILD.36.3</a>
Jun 30 2011 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.1/">BUILD.37.1</a>
Sep 07 2011 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.2/">BUILD.37.2</a>
Dec 12 2012 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/">BUILD.37.3</a></pre>
</blockquote>
</div>
<div>可以看到，有37.1,   37.2，  37.3 等等，不过这种版本一般指的是注释在更新，基因组序列一般不会更新！！！</div>
<div>反正你记住hg19基因组大小是3G，压缩后八九百兆即可！！！</div>
<div></div>
<div>如果要下载GTF注释文件，基因组版本尤为重要！！！</div>
<div></div>
<div>对NCBI：<span style="font-family: Arial,Helvetica,sans-serif;"><a href="ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/">ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/          ##最新版（hg38）</a></span></div>
<div><span style="font-family: Arial,Helvetica,sans-serif;"><a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/">ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/    ## 其它版本</a></span></div>
<div></div>
<div>对于ensembl：</div>
<div><a href="ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz" rel="nofollow">ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz</a></div>
<div>变幻中间的release就可以拿到所有版本信息：<a href="ftp://ftp.ensembl.org/pub/">ftp://ftp.ensembl.org/pub/</a></div>
<div>对于UCSC，那就有点麻烦了：</div>
<div>
<div>需要选择一系列参数：</div>
<div><a href="http://genome.ucsc.edu/cgi-bin/hgTables">http://genome.ucsc.edu/cgi-bin/hgTables</a></div>
<div></div>
<blockquote>
<div>1. Navigate to <a href="http://genome.ucsc.edu/cgi-bin/hgTables" target="_blank" rel="nofollow">http://genome.ucsc.edu/cgi-bin/hgTables</a></div>
<div></div>
<div>2. Select the following options:<br />
clade: Mammal<br />
genome: Human<br />
assembly: Feb. 2009 (GRCh37/hg19)<br />
group: Genes and Gene Predictions<br />
track: UCSC Genes<br />
table: knownGene<br />
region: Select "genome" for the entire genome.<br />
output format: GTF - gene transfer format<br />
output file: enter a file name to save your results to a file, or leave blank to display results in the browser</div>
<div></div>
<div>3. Click 'get output'.</div>
</blockquote>
</div>
<div> 现在重点来了，搞清楚版本关系了，就要下载呀！</div>
<div>UCSC里面下载非常方便，只需要根据基因组简称来拼接url即可：</div>
<div>
<blockquote>
<div><a href="http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz">http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz</a></div>
<div><a href="http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz">http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz</a></div>
<div><a href="http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz">http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz</a></div>
<div><a href="http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz">http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz</a></div>
</blockquote>
<div>或者用shell脚本指定下载的染色体号：</div>
<blockquote>
<div>for i in $(seq 1 22) X Y M;<br />
do echo $i;<br />
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;</div>
<div>## 这里也可以用NCBI的：ftp://ftp.ncbi.nih.gov/genomes/M_musculus/ARCHIVE/MGSCv3_Release3/Assembled_Chromosomes/chr前缀<br />
done<br />
gunzip *.gz<br />
for i in $(seq 1 22) X Y M;<br />
do cat chr${i}.fa &gt;&gt; hg19.fasta;<br />
done<br />
rm -fr chr*.fasta</div>
</blockquote>
</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1469.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>对snp进行注释并格式化输出</title>
		<link>http://www.bio-info-trainee.com/614.html</link>
		<comments>http://www.bio-info-trainee.com/614.html#comments</comments>
		<pubDate>Fri, 10 Apr 2015 01:25:01 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[基础数据格式]]></category>
		<category><![CDATA[annovar]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[refseq]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=614</guid>
		<description><![CDATA[前面我已经讲了如何用annovar来把vcf格式的snp进行注释，注释之后大概是 &#8230; <a href="http://www.bio-info-trainee.com/614.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p><b></b>前面我已经讲了如何用annovar来把vcf格式的snp进行注释，注释之后大概是这样的，每个snp位点的坐标，已经在哪个基因上面，都标的很清楚啦，。而且该突变是在哪个基因的哪个转录本的哪个外显子都一清二楚，更强大的是，还能显示是第几个碱基突变成第几个，同样氨基酸的突变情况也很清楚。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/对snp进行注释并格式化输出157.png"><img class="alignnone size-full wp-image-615" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/对snp进行注释并格式化输出157.png" alt="对snp进行注释并格式化输出157" width="554" height="246" /></a></p>
<p>但是这样不是很方便浏览具体突变情况，所以我写了一个脚本格式化该突变情况。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/对snp进行注释并格式化输出196.png"><img class="alignnone size-full wp-image-616" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/对snp进行注释并格式化输出196.png" alt="对snp进行注释并格式化输出196" width="546" height="113" /></a></p>
<p>理论上是应该要做出上面这个样子，突变氨基酸前后各12个氨基酸都显示出来，突变的那个还要标红色突出显示！但是颜色控制很麻烦，我就没有做。效果如下</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/对snp进行注释并格式化输出270.png"><img class="alignnone size-full wp-image-617" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/对snp进行注释并格式化输出270.png" alt="对snp进行注释并格式化输出270" width="554" height="362" /></a></p>
<p>实现这样的格式化输出有三个重点，首先是NM开头的refseq的ID号要转换为ensembl数据库的转录本ID号，还有找到该转录本的CDS序列，这个都需要在biomart里面转换，或者自己写脚本，然后就用脚本爬取即可！</p>
<p>代码如下</p>
<p>[perl]</p>
<p>open FH1,&quot;NM2ensembl.txt&quot;;</p>
<p>while(&lt;FH1&gt;){</p>
<p>chomp;</p>
<p>@F=split;</p>
<p>$hash_nm_enst{$F[4]}=$F[1] if $F[4];</p>
<p>}</p>
<p>open FH2,&quot;ENST.CDS.fa&quot;;</p>
<p>while($line=&lt;FH2&gt;){</p>
<p>chomp $line;</p>
<p>if ($line=~/&gt;/) {$key = (split /\|/,$line)[1];}</p>
<p>else {$hash_nucl{$key}.=$line;}</p>
<p>}</p>
<p>open FH3,&quot;ENST.protein&quot;;</p>
<p>while($line=&lt;FH3&gt;){</p>
<p>chomp $line;</p>
<p>if ($line=~/&gt;/) {$key = (split /\|/,$line)[1];}</p>
<p>else {$hash_prot{$key}.=$line;}</p>
<p>}</p>
<p>open FH4,&quot;raw.mutiple.txt&quot;;</p>
<p>$i=1;</p>
<p>while(&lt;FH4&gt;){</p>
<p>chomp;</p>
<p>@F=split;</p>
<p>@tmp=split/:/,$F[1];</p>
<p>/:exon(\d+):/;$exon=$1;</p>
<p>/(NM_\d+)/; $nm=$1;</p>
<p>$enst=$hash_nm_enst{$nm};</p>
<p>print &quot;$i.  $tmp[0] $F[0] the $exon -th exon(s) of $enst \n&quot;;</p>
<p>$i++;</p>
<p>$tmp[3]=~/(\d+)/;$num_nucl=$1;</p>
<p>$tmp[3]=~/&gt;([ATCG])/;$mutation_nucl=$1;</p>
<p>$tmp[4]=~/(\d+)/;$num_prot=$1;</p>
<p>$sequence=$hash_nucl{$enst};</p>
<p>$num_up=3*$num_prot-39;</p>
<p>$out_nucl=substr($sequence,$num_up,75);</p>
<p>print &quot;WT:$out_nucl\n  &quot;;</p>
<p>for(my $j=0; $j &lt; (length($out_nucl) - 2) ; $j += 3)</p>
<p>{print ' ';print $codon{substr($out_nucl,$j,3)} ;print ' ';}   </p>
<p>print &quot;\n&quot;;</p>
<p>$mutation_pos=$num_nucl-$num_up-1;</p>
<p>substr($out_nucl,$mutation_pos,1,$mutation_nucl) if ((length $out_nucl) == 75 );</p>
<p>print &quot;MU:$out_nucl\n  &quot;;</p>
<p>for(my $j=0; $j &lt; (length($out_nucl) - 2) ; $j += 3)</p>
<p>{print ' ';print $codon{substr($out_nucl,$j,3)} ;print ' ';}   </p>
<p>print &quot;\n&quot;;</p>
<p>print &quot;\n&quot;;</p>
<p>print &quot;\n&quot;;</p>
<p>}</p>
<p>[/perl]</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/614.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Ensembl数据库在线网页工具biomart简单教程</title>
		<link>http://www.bio-info-trainee.com/545.html</link>
		<comments>http://www.bio-info-trainee.com/545.html#comments</comments>
		<pubDate>Tue, 31 Mar 2015 07:28:29 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[biomart]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[ID]]></category>
		<category><![CDATA[数据转换]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=545</guid>
		<description><![CDATA[这个工具主要是针对不会bioperl不会API调取数据的生信纯菜鸟准备的，主要是 &#8230; <a href="http://www.bio-info-trainee.com/545.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>这个工具主要是针对不会bioperl不会API调取数据的生信纯菜鸟准备的，主要是方便大家批量研究某些感兴趣的基因，需要准备的数据就是基因名或者基因的ID号，能从该网站获取的资料非常多，可以是关于你的输入的基因名的各种数据库有的信息。</p>
<p><a href="http://www.ensembl.org/biomart/">http://www.ensembl.org/biomart/</a></p>
<p>第一步：选取数据库，我一般选取人的</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程243.png"><img class="alignnone size-full wp-image-546" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程243.png" alt="Ensembl数据库在线网页工具biomart简单教程243" width="554" height="240" /></a></p>
<p>第二步，选择上传数据的格式</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程259.png"><img class="alignnone size-full wp-image-547" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程259.png" alt="Ensembl数据库在线网页工具biomart简单教程259" width="554" height="206" /></a></p>
<p>这个下拉框里面可以选取很多种格式，你随便张贴进去哪一种格式的基因ID都可以，也可以把做好的ID文件上传进去，批量获取基因信息。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程325.png"><img class="alignnone size-full wp-image-548" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程325.png" alt="Ensembl数据库在线网页工具biomart简单教程325" width="454" height="162" /></a></p>
<p>我这里输入的是几个免疫基因。</p>
<p>第三步，选择下载数据的格式</p>
<p>首先可以选择你上传的gene的可以转换的各种ID</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程356.png"><img class="alignnone size-full wp-image-549" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程356.png" alt="Ensembl数据库在线网页工具biomart简单教程356" width="553" height="173" /></a></p>
<p>然后可以选择你上传的gene的各种序列</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程358.png"><img class="alignnone size-full wp-image-550" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程358.png" alt="Ensembl数据库在线网页工具biomart简单教程358" width="553" height="183" /></a></p>
<p>可以选择的信息非常多，基本上可以想到的转换在这里都能做！！！</p>
<p>但是，始终没有脚本方便，只适合不太懂编程的菜鸟使用！</p>
<p>然后点击result即可，看到结果还可以导出成txt文档，点击右上角的GO即可</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程458.png"><img class="alignnone size-full wp-image-551" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/Ensembl数据库在线网页工具biomart简单教程458.png" alt="Ensembl数据库在线网页工具biomart简单教程458" width="553" height="261" /></a></p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/545.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>一个基因的生信之旅</title>
		<link>http://www.bio-info-trainee.com/491.html</link>
		<comments>http://www.bio-info-trainee.com/491.html#comments</comments>
		<pubDate>Thu, 26 Mar 2015 02:47:25 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[基因]]></category>
		<category><![CDATA[数据库]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=491</guid>
		<description><![CDATA[感觉大家对很多生物信息学的术语都不甚了解，我这里简单的从一个基因开始，扩展开来讲 &#8230; <a href="http://www.bio-info-trainee.com/491.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>感觉大家对很多生物信息学的术语都不甚了解，我这里简单的从一个基因开始，扩展开来讲一讲生信数据库，及它相关的一些术语！</p>
<p>我要讲的基因是BRCA1，这是一个与乳腺癌以及卵巢癌都息息相关的基因。而BRCA1是它的英文缩写简称，也是通常学者们进行交流十它的名字。它的全称是breast cancer 1,每个基因都会有一个简称，比如下面这些，在human里面这些简称多大47732个，正常人都不会认识它们所有，只需要碰到了去数据库搜索即可，但是搞医疗健康的，必须熟悉癌症50基因。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅247.png"><img class="alignnone size-full wp-image-492" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅247.png" alt="一个基因的生信之旅247" width="489" height="314" /></a></p>
<p>这样的缩写简称其实弊端很多，单词毕竟是有限的，而且缩写也没有语义。所以NCBI给每个基因都定义了一个entrez ID号，是整数的排序，具体大家可以去看NCBI发的一篇文献，专门讲解了entrez ID号的好处。</p>
<p>1 A1BG</p>
<p>2 A2M</p>
<p>3 A2MP1</p>
<p>9 NAT1</p>
<p>10 NAT2</p>
<p>11 NATP</p>
<p>12 SERPINA3</p>
<p>13 AADAC</p>
<p>14 AAMP</p>
<p>这里我们来找一下我们的BRCA1这个基因在生物信息数据库里面的其它信息，在NCBI的ftp里面有一个文件是Homo_sapiens.gene_info里面包含着人类所以基因的全部信息</p>
<p>9606  首先这个基因在human上面的，而human被NCBI定义的taxid是9606</p>
<p>672  然后这个基因的被NCBI定义的entrez ID号是672</p>
<p>BRCA1  这个当然就是这个基因的英文缩写名称啦</p>
<p>-      这个表明这个基因在负链什么</p>
<p>BRCAI|BRCC1|BROVCA1|FANCS|IRIS|PNCA4|PPP1R53|PSCP|RNF53</p>
<p>这个可能是基因以前的名称，或者是在其它研究领域的一些名称。MIM:113705|HGNC:HGNC:1100|Ensembl:ENSG00000012048|HPRD:00218|Vega:OTTHUMG00000157426</p>
<p>这里面包含在它在其它数据库的信息，我们的NCBI用entrez ID号672来标识它，相应的ensembl数据用ensembl ID号ENSG00000012048来标识它，还有什么MIM数据库，HGNC数据库，Vega数据库我就不详细讲啦</p>
<p>17 17q21 这个说明它在human的17号染色体的位置信息</p>
<p>下面一堆都是这个基因的描述，它的功能等等。</p>
<p>breast cancer 1, early onset protein-coding BRCA1 breast cancer 1, early onset</p>
<p>O BRCA1/BRCA2-containing complex, subunit 1|Fanconi anemia, complementation group S|RING finger protein 53|breast and ovarian cancer susceptibility protein 1|breast and ovarian cancer sususceptibility protein 1|breast cancer type 1 susceptibility protein|protein phosphatase 1, regulatory subunit 53</p>
<p>20150201</p>
<p>这样我们就把好几个数据库给串起来了，也大致了解了一个基因的各种信息，但是，这样肯定是不够的。</p>
<p>接下来我们就不用BRCA1来称呼这个基因了，我们统一用NCBI定义entrez ID号672来称呼这个基因，当然用ensembl ID号ENSG00000012048也可以，它们都是比较通用的。</p>
<p>ENSG00000012048 672 这个基因在GO数据库里面可以找到67个功能信息，分别是以下</p>
<p>GO:0000151 GO:0000724 GO:0000724 GO:0000794 GO:0003677 GO:0003684 GO:0003713 GO:0003723 GO:0004842 GO:0005515 GO:0005634 GO:0005654 GO:0005694 GO:0005737 GO:0005886 GO:0006260 GO:0006281 GO:0006301 GO:0006302 GO:0006302 GO:0006349 GO:0006357 GO:0006359 GO:0006633 GO:0006915 GO:0006974 GO:0006978 GO:0007059 GO:0007098 GO:0008270 GO:0008274 GO:0008630 GO:0009048 GO:0010212 GO:0010575 GO:0010628 GO:0015631 GO:0016567 GO:0016874 GO:0019899 GO:0030521 GO:0030529 GO:0031398 GO:0031436 GO:0031572 GO:0031625 GO:0035066 GO:0035067 GO:0042127 GO:0042981 GO:0043009 GO:0043234 GO:0043627 GO:0044030 GO:0044212 GO:0045717 GO:0045739 GO:0045766 GO:0045892 GO:0045893 GO:0045893 GO:0045944 GO:0045944 GO:0046600 GO:0050681 GO:0051571 GO:0051572 GO:0051573 GO:0051574 GO:0051865 GO:0070512 GO:0070531 GO:0071158 GO:0071356 GO:0071681 GO:0085020 GO:1902042 GO:2000378 GO:2000617 GO:2000620</p>
<p>由于GO太多了，我简单讲几个</p>
<p>ubiquitin ligase complex</p>
<p>double-strand break repair via homologous recombination</p>
<p>double-strand break repair via homologous recombination</p>
<p>condensed nuclear chromosome</p>
<p>DNA binding</p>
<p>damaged DNA binding</p>
<p>transcription coactivator activity</p>
<p>RNA binding</p>
<p>ubiquitin-protein transferase activity</p>
<p>protein binding</p>
<p>都是描述这个基因的功能的。</p>
<p>到这里我们大致了解了这个基因的功能，但是还不够。</p>
<p>然后可以查到它有一下6个转录本，都有二十多个外显子。</p>
<p>NR_027676</p>
<p>NM_007300</p>
<p>NM_007299</p>
<p>NM_007298</p>
<p>NM_007297</p>
<p>NM_007294</p>
<p>在hg19这个参考基因组的起始终止坐标，还有各个外显子的起始终止坐标都能找到。</p>
<p>41196311,41199659,41201137,41203079,41209068,41215349,41215890,41219624,41222944,41226347,41228504,41234420,41242960,41243451,41247862,41249260,41251791,41256138,41256884,41258494,41267742,41276033,41277198</p>
<p>&nbsp;</p>
<p>41197819,41199720,41201211,41203134,41209152,41215390,41215968,41219712,41223255,41226538,41228631,41234592,41243049,41246877,41247939,41249306,41251894,41256278,41256973,41258550,41267796,41276132,41277340</p>
<p><a href="http://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000012048;r=17:43044295-43125483">http://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000012048;r=17:43044295-43125483</a></p>
<p>在ensembl里面关于这个基因的描述如下。</p>
<p>breast cancer 1, early onset [Source:HGNC Symbol;Acc:HGNC:1100]</p>
<p>BRCC1, FANCS, PPP1R53, RNF53</p>
<p>Chromosome 17: 43,044,295-43,125,483 reverse strand.</p>
<p>chromosome:GRCh38:CM000679.2:43044295:43125483:1</p>
<p>This gene has 29 transcripts (splice variants), 63 orthologues, is a member of 4 Ensembl protein families and is associated with 11 phenotypes.</p>
<p>RefSeq Gene ID 672</p>
<p>Uniprot identifiers: P38398</p>
<p>而且ensembl里面可以可视化这个基因的所有信息。</p>
<p>然后简单检索一下关于这个BRCA1基因的文献发表状况，居然多达2111篇文献，看来这个基因很火呀！！！</p>
<p>awk '{if ($1==9606 &amp;&amp; $2==672) print }' gene2pubmed |wc</p>
<p>9606 672 1676470</p>
<p>9606 672 2001833</p>
<p>9606 672 2270482</p>
<p>9606 672 4506230</p>
<p>9606 672 7481765</p>
<p>9606 672 7545954</p>
<p>9606 672 7550349</p>
<p>9606 672 7795652</p>
<p>9606 672 7894491</p>
<p>9606 672 7894492</p>
<p>第三列1676470等编号是pubmed数据库的文献编号，可以直接找到关于这个基因的文献发表情况。</p>
<p>而直接在NCBI的pubmed数据库里面可以搜到多达11339篇文献。</p>
<p>esearch -db pubmed -query 'BRCA1'</p>
<p>Esearch这个程序是NCBI提供的，挺好用的，希望大家可以熟悉一下。</p>
<p>esearch -db pubmed -query 'BRCA1' | efetch -format docsum |   xtract -pattern DocumentSummary -present Author -and Title     -element Id -first "Author/Name" -element Title  &gt;BRCA1.pubmed</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅4634.png"><img class="alignnone size-full wp-image-493" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅4634.png" alt="一个基因的生信之旅4634" width="554" height="263" /></a></p>
<p>用这个代码，可以找到所有关于这个BRCA1基因的文献的作者及标题，这样可以统计在这个基因领域的研究者最出名的是谁。</p>
<p>至于这个基因的序列，及其转录本翻译的蛋白我就不列了，太长了，而且占位子</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/491.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>与hg19的突变相关的一些数据解释。</title>
		<link>http://www.bio-info-trainee.com/448.html</link>
		<comments>http://www.bio-info-trainee.com/448.html#comments</comments>
		<pubDate>Mon, 23 Mar 2015 13:29:13 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[基础数据格式]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[entrez]]></category>
		<category><![CDATA[snp]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=448</guid>
		<description><![CDATA[http://statgenpro.psychiatry.hku.hk/limx &#8230; <a href="http://www.bio-info-trainee.com/448.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p><a href="http://statgenpro.psychiatry.hku.hk/limx/kggseq/download/resources/">http://statgenpro.psychiatry.hku.hk/limx/kggseq/download/resources/</a></p>
<p>这个网站收集了大部分资料，我们就用它的，如果它倒闭了，大家再想办法去搜索吧。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/与hg19的突变相关的一些数据解释210.png"><img class="alignnone size-full wp-image-449" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/与hg19的突变相关的一些数据解释210.png" alt="与hg19的突变相关的一些数据解释210" width="394" height="112" /></a></p>
<p>其实这些文件都是基于NCBI以及UCSC和ensembl数据库的文件用一些脚本转换而来的，都是非常简单的脚本。</p>
<p>首先我们看看humandb/hg19_refGene.txt 这个文件，总共2.5万多个基因的共5万多个转录本。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/与hg19的突变相关的一些数据解释325.png"><img class="alignnone size-full wp-image-450" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/与hg19的突变相关的一些数据解释325.png" alt="与hg19的突变相关的一些数据解释325" width="554" height="105" /></a></p>
<p>19     可能是entrez ID，但是又不像。</p>
<p>NM_001291929    参考基因名</p>
<p>chr11   染色体</p>
<p>-</p>
<p>89057521</p>
<p>89223909</p>
<p>89059923</p>
<p>89223852</p>
<p>17      89057521,89069012,89070614,89073230,89075241,89088129,89106599,89133184,89133382,89135493,89155069,89165951,89173855,89177302,89182607,89184952,89223774,       89060044,89069113,89070683,89073339,89075361,89088211,89106660,89133247,89133547,89135710,89155150,89166024,89173883,89177400,89182692,89185063,89223909,</p>
<p>0</p>
<p>NOX4    基因的英文简称，通俗名</p>
<p>cmpl</p>
<p>cmpl</p>
<p>2,0,0,2,2,1,0,0,0,2,2,1,0,1,0,0,0,</p>
<p>然后我们看看hg19_snp141.txt这个文件</p>
<p>1       10229   A       -       .</p>
<p>1       10229   AACCCCTAACCCTAACCCTAAACCCTA     -       .</p>
<p>1       10231   C       A       .</p>
<p>1       10231   C       -       .</p>
<p>1       10234   C       T       .</p>
<p>1       10248   A       T       .</p>
<p>1       10250   A       C       .</p>
<p>1       10250   AC      -       .</p>
<p>1       10255   A       -       .</p>
<p>1       10257   A       C       .</p>
<p>1       10259   C       A       .</p>
<p>1       10291   C       T       .</p>
<p>1       10327   T       C       .</p>
<p>1       10329   ACCCCTAACCCTAACCCTAACCCT        -       .</p>
<p>1       10330   C       -       .</p>
<p>1       10390   C       -       .</p>
<p>1       10440   C       A       .</p>
<p>1       10440   C       -       .</p>
<p>1       10469   C       G       .</p>
<p>1       10492   C       T       .</p>
<p>1       10493   C       A       .</p>
<p>1       10519   G       C       .</p>
<p>1       10583   G       A       0.144169</p>
<p>1       10603   G       A       .</p>
<p>1       10611   C       G       0.0188246</p>
<p>1       10617   CGCCGTTGCAAAGGCGCGCCG   -</p>
<p>里面记录了以hg19为参考的所有的snp位点。</p>
<p>&nbsp;</p>
<p>585</p>
<p>ENST00000518655 基因的ensembl ID号</p>
<p>chr1 + 11873 14409 14409 14409</p>
<p>4 基因有四个外显子</p>
<p>11873,12594,13402,13660, 12227,12721,13655,14409, 在基因的四个外显子的坐标</p>
<p>0</p>
<p>DDX11L1 基因的通俗英文名</p>
<p>none none -1,-1,-1,-1,</p>
<p>CTTGCCGTCAGCCTTTTCTTT·····gene的核苷酸序列</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/448.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>NCBI的基因entrez ID相关文件介绍</title>
		<link>http://www.bio-info-trainee.com/75.html</link>
		<comments>http://www.bio-info-trainee.com/75.html#comments</comments>
		<pubDate>Tue, 10 Mar 2015 14:05:29 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[entez ID]]></category>
		<category><![CDATA[ncbi]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=75</guid>
		<description><![CDATA[NCBI的基因entrez ID相关文件介绍 地址：ftp://ftp.ncbi &#8230; <a href="http://www.bio-info-trainee.com/75.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p style="text-align: center;"><strong>NCBI的基因entrez ID相关文件介绍</strong></p>
<p>地址：<a href="ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/">ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/</a></p>
<p>里面主要有以下几个文件</p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍124.png"><img class="alignnone size-full wp-image-76" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍124.png" alt="NCBI的基因entrez相关文件介绍124" width="554" height="221" /></a></b></p>
<p><span id="more-75"></span></p>
<p>我这里主要介绍gene2ensembl，gene2accession， gene2pubmed，gene2go，gene_info信息文件，它们的核心连接是gene的entrez ID号，了解了以下文件之后，可以把gene的entrez ID随意转换为ensembl的ID号，也可以随意转为基因名字，或者基因的通路信息。解压之后的大小如下：</p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍492.png"><img class="alignnone size-full wp-image-77" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍492.png" alt="NCBI的基因entrez相关文件介绍492" width="241" height="60" /></a></b></p>
<p><b>一：</b><b>第一个文件是gene2ensembl</b></p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍859.png"><img class="alignnone size-full wp-image-78" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍859.png" alt="NCBI的基因entrez相关文件介绍859" width="643" height="118" /></a></b></p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1094.png"><img class="alignnone size-full wp-image-79" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1094.png" alt="NCBI的基因entrez相关文件介绍1094" width="615" height="121" /></a></b></p>
<p>第一列：物种ID号</p>
<p>第二列：gene的entrez ID号</p>
<p>第三列：Ensembl_gene ID号</p>
<p>第四列：RNA的NCBI索取号</p>
<p>第五列：RNA的Ensembl_ ID号</p>
<p>第六列：protein的NCBI索取号</p>
<p>第七列：protein的Ensembl_ ID号</p>
<p>一般，一个gene有多个蛋白</p>
<p>7227是果蝇的物种ID号，30970这个gene ID号对应两个转录本</p>
<p>&nbsp;</p>
<p><b>第二个文件是gene2accession</b></p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1553.png"><img class="alignnone size-full wp-image-80" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1553.png" alt="NCBI的基因entrez相关文件介绍1553" width="918" height="57" /></a></b></p>
<p>第一列：物种ID号</p>
<p>第二列：gene的entrez ID号</p>
<p>第三列：status</p>
<p>第四列：RNA_nucleotide_accession.version，RNA_nucleotide_gi</p>
<p>第五列：protein_accession.version ，protein_gi</p>
<p>第六列：genomic_nucleotide_accession.version，genomic_nucleotide_gi</p>
<p>第七列：然后是start和end的pos坐标，还有正负链的标记</p>
<p>第八列:</p>
<p><b>第三个文件是 gene2pubmed</b></p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1912.png"><img class="alignnone size-full wp-image-81" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1912.png" alt="NCBI的基因entrez相关文件介绍1912" width="182" height="130" /></a></b></p>
<p>总共只有三列，分别是物种ID号，gene的entrez ID号，和对应的pubmed ID号</p>
<p>#Format: tax_id GeneID PubMed_ID (tab is used as a separator, pound sign - start of a comment)</p>
<p>其中一个物种里面有多个基因，一个基因会在多篇文献里面都有报道。</p>
<p><b>第四个文件是gene2go</b></p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍2303.png"><img class="alignnone size-full wp-image-82" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍2303.png" alt="NCBI的基因entrez相关文件介绍2303" width="640" height="127" /></a></b></p>
<p>主要看第三列的GO_ID与第四列的gene_name对应着</p>
<p>#Format: tax_id     GeneID     GO_ID     Evidence         Qualifier         GO_term         PubMed         Category</p>
<p>其中一个物种里面有多个基因，一个基因会有多个GO通路</p>
<p><b>第五个文件是gene_info      </b></p>
<p><b>主要是连接了</b>gene的entrez ID与基因的俗名及其描述。</p>
<p>其中比较重要的是Homo_sapiens.gene_info 这个文件。</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/75.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
	</channel>
</rss>
