<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; ncbi</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/ncbi/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>生信人必学ftp站点之 dbsnp</title>
		<link>http://www.bio-info-trainee.com/1863.html</link>
		<comments>http://www.bio-info-trainee.com/1863.html#comments</comments>
		<pubDate>Thu, 04 Aug 2016 14:56:50 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[dbsnp]]></category>
		<category><![CDATA[ftp]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[schema]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1863</guid>
		<description><![CDATA[这个数据库我也不想多解释了，也是host在NCBI上，不仅有常见的模式生物已经被 &#8230; <a href="http://www.bio-info-trainee.com/1863.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>这个数据库我也不想多解释了，也是host在NCBI上，不仅有常见的模式生物已经被研究过的所有variation位点信息，还有很多其它物种的数据，主站点是：<a href="ftp://ftp-trace.ncbi.nih.gov/snp/organisms/">ftp://ftp-trace.ncbi.nih.gov/snp/organisms/</a></div>
<div>人类是物种ID是9606，可以看到variation位点信息有基于hg19和hg38的两种下载方式，如果还有其它需求，可以自己用基因组坐标转换工具。在NCBI的snp页面也有对各种物种的variation位点信息记录文件的统计：<a href="http://www.ncbi.nlm.nih.gov/snp/">http://www.ncbi.nlm.nih.gov/snp/</a>   <a href="http://www.ncbi.nlm.nih.gov/SNP/">http://www.ncbi.nlm.nih.gov/SNP/</a>同时也是NCBI做好的一个网页版查询工具，因为下载一个 variation位点信息记录文件 动辄就是十几个G，一般人也不会处理那个文件，不知道从里面应该如何提取需要的信息，<span style="color: #ff0000;"><strong>这时候学习它的网页版查询工具也挺好的。</strong></span></div>
<p><span id="more-1863"></span></p>
<div>但是对真正搞生物信息学分析的人来说，就必须呀完全掌握这个站点以及里面的全部文件了。我比较感兴趣的是关于人类的研究，所有数据都在下面：</p>
<div>
<pre>Nov 24 2015 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606_b146_GRCh37p13/">human_9606_b146_GRCh37p13</a>
Apr 20 2016 19:39    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606_b146_GRCh38p2/">human_9606_b146_GRCh38p2</a>
Apr 20 2016 19:23    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/">human_9606_b147_GRCh37p13</a>
Apr 23 2016 03:59    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606_b147_GRCh38p2/">human_9606_b147_GRCh38p2</a></pre>
</div>
</div>
<div>在UCSC里面也有对dbsnp数据库的介绍，主要是从数据库设计的角度来理解，里面详细介绍了每一列具体的意义，值得大家仔细学习。</div>
<div><a href="http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&amp;hgta_group=varRep&amp;hgta_track=snp146&amp;hgta_table=snp146&amp;hgta_doSchema=describe+table+schema">http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&amp;hgta_group=varRep&amp;hgta_track=snp146&amp;hgta_table=snp146&amp;hgta_doSchema=describe+table+schema</a></p>
<div><a href="http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&amp;hgta_group=varRep&amp;hgta_track=snp141&amp;hgta_table=snp141&amp;hgta_doSchema=describe+table+schema">http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&amp;hgta_group=varRep&amp;hgta_track=snp141&amp;hgta_table=snp141&amp;hgta_doSchema=describe+table+schema</a></div>
<p>但是如果真想从数据库语言的角度来理解，需要看它的schema了：很复杂：<a href="ftp://ftp.ncbi.nih.gov/snp/database/erd_dbSNP.pdf">ftp://ftp.ncbi.nih.gov/snp/database/erd_dbSNP.pdf</a></p>
</div>
<div> sql的代码也可以下载：<a href="ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/database/organism_schema/">ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/database/organism_schema/</a></div>
<div>还根据gene来分genotype：<a href="ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/genotype_by_gene/">ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/genotype_by_gene/</a></div>
<div>最后值得一提的是，除了dbsnp对variation规定了ID号，还有几个其它偏门的ID号也可以来描述变异位点的。</div>
<div>NCBI的dbsnp，以rs和ss开头</p>
<div>illumina的kgp开头</div>
<div>还有ESP的以esp开头</div>
<div></div>
<div>
<div>kgp是illumina中华八芯片的</div>
<div>kgp identifiers were not created by the 1000 Genomes Project. We also do not maintain them. They were created by Illumina for their genotyping platform before some variants identified during the pilot phase of the project had been assigned rs numbers.</div>
<div>We do not possess a mapping of these identifiers to current rs numbers. As far as we are aware no such list exists.</div>
<div>用DBsnp的数据，根据Illumina提供的注释文件，可以找到相应的RSID号。</div>
<div>Updating kgp IDs to rs IDs for SNPs on Illumina HumanOmni2.5M array</div>
</div>
</div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1863.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>生信人必学ftp站点之NCBI-GEO</title>
		<link>http://www.bio-info-trainee.com/1835.html</link>
		<comments>http://www.bio-info-trainee.com/1835.html#comments</comments>
		<pubDate>Tue, 02 Aug 2016 11:48:19 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[tutorial]]></category>
		<category><![CDATA[ftp]]></category>
		<category><![CDATA[GEO]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[生信人]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1835</guid>
		<description><![CDATA[NCBI的重要性我就不多说了，Gene Expression Omnibus d &#8230; <a href="http://www.bio-info-trainee.com/1835.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>NCBI的重要性我就不多说了，<a href="http://www.ncbi.nlm.nih.gov/geo/">Gene Expression Omnibus database (GEO)</a>是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据！所有的数据均可以在ftp站点下载：<a href="ftp://ftp-trace.ncbi.nih.gov/geo/">ftp://ftp-trace.ncbi.nih.gov/geo/</a><span id="more-1835"></span></p>
<p>首先，我们在<a href="http://www.ncbi.nlm.nih.gov/geo/">GEO的主页</a>可以看到：</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/08/GEO_stat.png"><img class="alignnone size-full wp-image-1836" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/08/GEO_stat.png" alt="GEO_stat" width="273" height="176" /></a></p>
<p>截止到2016年8月2日，统计信息如上，可以看到数据量很恐怖了。</p>
<h2><a href="http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/geo/">GEO数据库基础知识</a></h2>
<ul>
<li>GEO Platform (GPL) 芯片平台</li>
<li>GEO Sample (GSM) 样本ID号</li>
<li>GEO Series (GSE) study的ID号</li>
<li>GEO Dataset (GDS) 数据集的ID号</li>
</ul>
<p>这些数据都可以在ftp里面直接下载：</p>
<p>FTP directory /geo/ at ftp-trace.ncbi.nih.gov</p>
<pre>08/02/2016 05:39AM      Directory <a href="/geo/datasets/"><b>datasets</b></a>
08/02/2016 05:39AM      Directory <a href="/geo/platforms/"><b>platforms</b></a>
08/02/2016 05:39AM      Directory <a href="/geo/samples/"><b>samples</b></a>
08/02/2016 05:39AM      Directory <a href="/geo/series/"><b>series</b></a>
</pre>
<p>网址都是很有<strong><span style="color: #ff0000;">规律的！（请务必注意规律）</span></strong></p>
<div>
<div><a href="http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528">http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528</a></div>
</div>
<div>
<div><a href="http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311">http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311</a></div>
<div>我们一般是拿到了GSE的study ID号，然后直接把什么的url修改一下，就可以看到关于该study的所以描述信息，是用的什么测序平台(芯片数据，或者高通量测序)，测了多少个样本，来自于哪篇文章！</div>
<div>所有需要的数据均可以下载，而且都是在上面的ftp里面可以根据<strong><span style="color: #ff0000;">规律</span></strong>去找到的，甚至可以自己拼接下载的url链接，来做批量化处理！</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/08/1.png"><img class="alignnone size-full wp-image-1838" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/08/1.png" alt="1" width="603" height="318" /></a></div>
<div>如果是芯片数据，那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息，才能利用好别人的数据。</div>
<div>如果是高通量测序数据，一般要同步进入该GSE对应的SRA里面去下载sra数据，然后转为fastq格式数据，自己做处理！</div>
<div></div>
<div></div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1835.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>自学miRNA-seq分析第三讲~公共测序数据下载</title>
		<link>http://www.bio-info-trainee.com/1703.html</link>
		<comments>http://www.bio-info-trainee.com/1703.html#comments</comments>
		<pubDate>Sat, 25 Jun 2016 09:08:43 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[未分类]]></category>
		<category><![CDATA[miRNA-seq]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[SHRiMP]]></category>
		<category><![CDATA[sratoolkit]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1703</guid>
		<description><![CDATA[前面已经讲到了该文章的数据已经上传到NCBI的SRA数据中心，所以直接根据索引号 &#8230; <a href="http://www.bio-info-trainee.com/1703.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>前面已经讲到了该文章的数据已经上传到NCBI的SRA数据中心，所以直接根据索引号下载，然后用SRAtoolkit转出我们想要的fastq测序数据即可。下载的数据一般要进行质量控制，可视化展现一下质量如何，然后根据大题测序质量进行简单过滤。所以需要提前安装一些软件来完成这些任务，包括： sratoolkit /fastx_toolkit /fastqc/bowtie2/hg19/miRBase/SHRiMP</p>
<p>下面是我用新服务器下载安装软件的一些代码记录，因为fastx_toolkit /fastqc我已经安装过，就不列代码了，还有miRBase的下载，我在前面第二讲里面提到过，传送门：<a href="http://www.bio-info-trainee.com/1697.html">自学miRNA-seq分析第二讲~学习资料的搜集</a><span id="more-1703"></span></p>
<blockquote>
<div>## pre-step: download sratoolkit /fastx_toolkit_0.0.13/fastqc/bowtie2/hg19/miRBase/SHRiMP</div>
<div>## <a href="http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software">http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software</a></div>
<div>## <a href="http://www.ncbi.nlm.nih.gov/books/NBK158900/">http://www.ncbi.nlm.nih.gov/books/NBK158900/</a></div>
<div> ## 我这里特意挑选的二进制版本程序下载的，这样直接解压就可以用，但是需要挑选适合自己的操作系统的程序。</div>
<div>cd ~/biosoft</div>
<div>mkdir sratoolkit &amp;&amp;  cd sratoolkit</div>
<div>wget <a href="http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.6.3/sratoolkit.2.6.3-centos_linux64.tar.gz">http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.6.3/sratoolkit.2.6.3-centos_linux64.tar.gz</a></div>
<div>##</div>
<div>##  Length: 63453761 (61M) [application/x-gzip]</div>
<div>##  Saving to: "sratoolkit.2.6.3-centos_linux64.tar.gz"</div>
<div>tar zxvf <strong>sratoolkit.2.6.3-centos_linux64.tar.gz</strong></div>
<div></div>
<div>cd ~/biosoft</div>
<div>mkdir bowtie &amp;&amp;  cd bowtie</div>
<div>wget <a href="https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.9/bowtie2-2.2.9-linux-x86_64.zip/download">https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.9/bowtie2-2.2.9-linux-x86_64.zip/download</a></div>
<div>#Length: 27073243 (26M) [application/octet-stream]</div>
<div>#Saving to: "download"</div>
<div> mv download  bowtie2-2.2.9-linux-x86_64.zip</div>
<div> unzip <strong>bowtie2-2.2.9-linux-x86_64.zip</strong></div>
<div></div>
<div>## <a href="http://compbio.cs.toronto.edu/shrimp/">http://compbio.cs.toronto.edu/shrimp/</a></div>
<div>mkdir SHRiMP &amp;&amp;  cd SHRiMP</div>
<div>wget <a href="http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz">http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz</a></div>
<div>tar zxvf<strong> SHRiMP_2_2_3.lx26.x86_64.tar.gz </strong></div>
<div>cd SHRiMP_2_2_3</div>
<div>export SHRIMP_FOLDER=$PWD  ## 这个软件使用的时候比较奇葩，需要设置到环境变量，不能简单的调用全路径</div>
</blockquote>
<div>SHRiMP这个软件比较小众，我也是第一次听说过，本来我计划是能用bowtie搞定，就不麻烦了，但是第一次比对出了一个bug，就是下载的miRNA序列里面的U没有转换成T，所以导致比对率非常之低，所以我不得不根据文章里面记录的软件SHRiMP 来做比对，最后发现比对率完全没有改善，搞得我都在怀疑是不是作者乱来了。</div>
<div>下面是下载数据，质量控制的代码，希望大家可以照着运行一下：</div>
<div>
<blockquote>
<div>## step1 : download raw data</div>
<div>mkdir miRNA_test &amp;&amp; cd miRNA_test</div>
<div>echo {14..19} |sed 's/ /\n/g' |while read id; \</div>
<div>do  wget "<a href="ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP045/SRP045420/SRR15427$id/SRR15427$id.sra">ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP045/SRP045420/SRR15427$id/SRR15427$id.sra</a>"  ;\</div>
<div>done</div>
<div></div>
<div>## step2 :  change sra data to fastq files.</div>
<div>## 主要是用shell脚本来批量下载</div>
<div>ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump $id;done</div>
<div>rm *sra</div>
<div></div>
<div>##  33M --&gt; 247M</div>
<div>#Read 1866654 spots for SRR1542714.sra</div>
<div>#Written 1866654 spots for SRR1542714.sra</div>
<div></div>
<div></div>
<div>## step3 : download the results from paper</div>
<div>## <a href="http://www.bio-info-trainee.com/1571.html">http://www.bio-info-trainee.com/1571.html</a></div>
<div>## <a href="ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/suppl/GSE1009_RAW.tar">ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/suppl/GSE1009_RAW.tar</a></div>
<div></div>
<div>mkdir paper_results &amp;&amp; cd paper_results</div>
<div>wget <a href="ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE60nnn/GSE60292/suppl/GSE60292_RAW.tar">ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE60nnn/GSE60292/suppl/GSE60292_RAW.tar</a></div>
<div>## tar xvf GSE60292_RAW.tar</div>
<div>ls *gz |while read id ; do (echo $id;zcat $id | cut -f 2 |perl -alne '{$t+=$_;}END{print $t}');done</div>
<div>ls *gz |xargs gunzip</div>
<div></div>
<div></div>
<div></div>
<div>## step4 : quality assessment</div>
<div></div>
<div>ls *fastq | while read id ; do ~/biosoft/fastqc/FastQC/fastqc $id;done</div>
<div>## Sequence length 8-109</div>
<div>## %GC 52</div>
<div>## Adapter Content passed</div>
<div></div>
<div>## write a script : :: cat &gt;filter.sh</div>
<div></div>
<div>ls *fastq |while read id</div>
<div>do</div>
<div>echo $id</div>
<div>~/biosoft/fastx_toolkit_0.0.13/bin/fastq_quality_filter<strong> -v -q 20 -p 80 -Q33</strong>  -i $id -o tmp ;</div>
<div>~/biosoft/fastx_toolkit_0.0.13/bin/fastx_trimmer <strong>-v -f 1 -l 27</strong> <strong>-i tmp  -Q33 -z</strong> -o ${id%%.*}_clean.fq.gz ;</div>
<div>done</div>
<div>rm tmp</div>
<div></div>
<div>##<strong> discarded 12%~~49%%</strong></div>
<div>ls *_clean.fq.gz | while read id ; do ~/biosoft/fastqc/FastQC/fastqc $id;done</div>
<div></div>
<div>mkdir QC_results</div>
<div>mv *zip *html QC_results</div>
</blockquote>
</div>
<div>这个代码是我自己根据文章的理解写出的，因为我本身不擅长miRNA数据分析，所以在进行QC的时候参数选择可能并不是那么友好，如果有高手能指正就最好了，可以直接打我电话告诉我，或者发邮箱给我，邮箱用户名是jmzeng1314，是163邮箱。</div>
<div>
<div>~/biosoft/fastx_toolkit_0.0.13/bin/fastq_quality_filter<strong> -v -q 20 -p 80 -Q33</strong>  -i $id -o tmp ;</div>
<div>~/biosoft/fastx_toolkit_0.0.13/bin/fastx_trimmer <strong>-v -f 1 -l 27</strong> <strong>-i tmp  -Q33 -z</strong> -o ${id%%.*}_clean.fq.gz ;</div>
<div>最后得到的clean.fq.gz系列文件，就是我需要进行比对的序列啦。</div>
<div></div>
<div></div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1703.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>基因组各种版本对应关系</title>
		<link>http://www.bio-info-trainee.com/1469.html</link>
		<comments>http://www.bio-info-trainee.com/1469.html#comments</comments>
		<pubDate>Tue, 15 Mar 2016 11:50:00 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[基础数据格式]]></category>
		<category><![CDATA[未分类]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[UCSC]]></category>
		<category><![CDATA[基因组版本]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1469</guid>
		<description><![CDATA[我是受到了SOAPfuse的启发才想到整理各种基因组版本的对应关系，完整版！！！ &#8230; <a href="http://www.bio-info-trainee.com/1469.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<pre>我是受到了SOAPfuse的启发才想到整理各种基因组版本的对应关系，完整版！！！</pre>
<pre>以后再也不用担心各种基因组版本混乱了，我还特意把所有的下载链接都找到了，可以下载任意版本基因组的基因fasta文件，gtf注释文件等等！！！</pre>
<div>首先是NCBI对应UCSC，对应ENSEMBL数据库：</div>
<div></div>
<div>
<blockquote>
<div>GRCh36 (hg18): ENSEMBL release_52.</div>
<div>GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.</div>
<div>GRCh38 (hg38): ENSEMBL  release_76/77/78/80/81/82.</div>
</blockquote>
<div></div>
<div>可以看到ENSEMBL的版本特别复杂！！！很容易搞混！</div>
<div>但是UCSC的版本就简单了，就hg18,19,38, 常用的是hg19，但是我推荐大家都转为hg38</div>
<div>看起来NCBI也是很简单，就GRCh36,37,38，但是里面水也很深！</div>
<div>
<blockquote>
<pre>Feb 13 2014 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/April_14_2003/">April_14_2003</a>
Apr 06 2006 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.33/">BUILD.33</a>
Apr 06 2006 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.34.1/">BUILD.34.1</a>
Apr 06 2006 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.34.2/">BUILD.34.2</a>
Apr 06 2006 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.34.3/">BUILD.34.3</a>
Apr 06 2006 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.35.1/">BUILD.35.1</a>
Aug 03 2009 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.36.1/">BUILD.36.1</a>
Aug 03 2009 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.36.2/">BUILD.36.2</a>
Sep 04 2012 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.36.3/">BUILD.36.3</a>
Jun 30 2011 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.1/">BUILD.37.1</a>
Sep 07 2011 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.2/">BUILD.37.2</a>
Dec 12 2012 00:00    Directory <a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/BUILD.37.3/">BUILD.37.3</a></pre>
</blockquote>
</div>
<div>可以看到，有37.1,   37.2，  37.3 等等，不过这种版本一般指的是注释在更新，基因组序列一般不会更新！！！</div>
<div>反正你记住hg19基因组大小是3G，压缩后八九百兆即可！！！</div>
<div></div>
<div>如果要下载GTF注释文件，基因组版本尤为重要！！！</div>
<div></div>
<div>对NCBI：<span style="font-family: Arial,Helvetica,sans-serif;"><a href="ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/">ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/          ##最新版（hg38）</a></span></div>
<div><span style="font-family: Arial,Helvetica,sans-serif;"><a href="ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/">ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/    ## 其它版本</a></span></div>
<div></div>
<div>对于ensembl：</div>
<div><a href="ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz" rel="nofollow">ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz</a></div>
<div>变幻中间的release就可以拿到所有版本信息：<a href="ftp://ftp.ensembl.org/pub/">ftp://ftp.ensembl.org/pub/</a></div>
<div>对于UCSC，那就有点麻烦了：</div>
<div>
<div>需要选择一系列参数：</div>
<div><a href="http://genome.ucsc.edu/cgi-bin/hgTables">http://genome.ucsc.edu/cgi-bin/hgTables</a></div>
<div></div>
<blockquote>
<div>1. Navigate to <a href="http://genome.ucsc.edu/cgi-bin/hgTables" target="_blank" rel="nofollow">http://genome.ucsc.edu/cgi-bin/hgTables</a></div>
<div></div>
<div>2. Select the following options:<br />
clade: Mammal<br />
genome: Human<br />
assembly: Feb. 2009 (GRCh37/hg19)<br />
group: Genes and Gene Predictions<br />
track: UCSC Genes<br />
table: knownGene<br />
region: Select "genome" for the entire genome.<br />
output format: GTF - gene transfer format<br />
output file: enter a file name to save your results to a file, or leave blank to display results in the browser</div>
<div></div>
<div>3. Click 'get output'.</div>
</blockquote>
</div>
<div> 现在重点来了，搞清楚版本关系了，就要下载呀！</div>
<div>UCSC里面下载非常方便，只需要根据基因组简称来拼接url即可：</div>
<div>
<blockquote>
<div><a href="http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz">http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz</a></div>
<div><a href="http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz">http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz</a></div>
<div><a href="http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz">http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz</a></div>
<div><a href="http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz">http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz</a></div>
</blockquote>
<div>或者用shell脚本指定下载的染色体号：</div>
<blockquote>
<div>for i in $(seq 1 22) X Y M;<br />
do echo $i;<br />
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;</div>
<div>## 这里也可以用NCBI的：ftp://ftp.ncbi.nih.gov/genomes/M_musculus/ARCHIVE/MGSCv3_Release3/Assembled_Chromosomes/chr前缀<br />
done<br />
gunzip *.gz<br />
for i in $(seq 1 22) X Y M;<br />
do cat chr${i}.fa &gt;&gt; hg19.fasta;<br />
done<br />
rm -fr chr*.fasta</div>
</blockquote>
</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1469.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>脚本作业-解读NCBI的ftp里面关于人的一些基因信息</title>
		<link>http://www.bio-info-trainee.com/686.html</link>
		<comments>http://www.bio-info-trainee.com/686.html#comments</comments>
		<pubDate>Fri, 01 May 2015 03:04:56 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[生信基础]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[基因]]></category>
		<category><![CDATA[脚本]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=686</guid>
		<description><![CDATA[为了感谢大家对我博客的关注，我在这里发布一个作业，适合菜鸟做的。里面有十几个类似 &#8230; <a href="http://www.bio-info-trainee.com/686.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>为了感谢大家对我博客的关注，我在这里发布一个作业，适合菜鸟做的。里面有十几个类似的问题，大家可以下载数据自行处理，如果是问这些问题，我优先回答！</p>
<p style="text-align: center;"><b>NCBI的ftp里面关于人的一些基因信息</b></p>
<p>我在NCBI的ftp服务器里面下载了这些数据，时间是2015年，大多是hg19系列的，文件名如下：</p>
<p>CDS.fa 这个是ensembl中人的CDS碱基序列文件，hg38</p>
<p>entrez2go.gene 这个是有go注释的基因情况，有一万八的基因都有go注释</p>
<p>entrez2name.gene 这个是NCBI的entrez ID号对应着基因名的文件</p>
<p>entrez2pubmed.gene 这个是NCBI的entrez ID号对应着该基因发表过的文章的ID号</p>
<p>entrez2refseq2ensembl.gene 这个是NCBI的entrez ID号对应着基因名的refseq的ID号和ensembl数据库的ID号</p>
<p>human_gene_info这个是基因的详细信息，包括基因的起始终止点坐标等等</p>
<p>Protein.fa 这个是ensembl中人的蛋白的氨基酸序列文件，有十万多个蛋白hg38</p>
<p>ref2ensembl.txt  这个是基因名的refseq的ID号和ensembl数据库的ID号</p>
<p>自行去NCBI的ftp服务器里面下载这些数据。</p>
<p>然后好好熟悉这些数据信息，回答一下几个问题：</p>
<p>人总的基因有多少个，它们分别分布在哪些染色体上面，基因的转录本分布情况如何，基因的长度分布如何，基因的外显子个数如何。</p>
<p>CD分子的基因有多少个，它们分别分布在哪些染色体上面，基因的转录本分布情况如何，基因的长度分布如何，基因的外显子个数如何。它们有没有氨基酸偏好性？？</p>
<p>MHC系列基因信息？CCL系列基因信息如何？CXCL系列信息如何？或者你感兴趣的基因家族信息？</p>
<p>现在研究最热门的基因是什么？发表文章最多的前十个基因是什么？</p>
<p>基因长度情况如何？最长的基因多长？最短的基因多少bp，可靠吗？</p>
<p>蛋白质长度情况如何？</p>
<p>每条染色体的基因分别情况？基因在染色体那个地方分别最多？</p>
<p>请用图形展示你的结论！！！</p>
<p>&nbsp;</p>
<p>如果你能回答以上问题，证明你的脚本水平不错了。</p>
<p>如果找不到我，看旁边的公告，加入生信菜鸟群，我就在里面！！！</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/686.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>一个基因的生信之旅</title>
		<link>http://www.bio-info-trainee.com/491.html</link>
		<comments>http://www.bio-info-trainee.com/491.html#comments</comments>
		<pubDate>Thu, 26 Mar 2015 02:47:25 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[基因]]></category>
		<category><![CDATA[数据库]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=491</guid>
		<description><![CDATA[感觉大家对很多生物信息学的术语都不甚了解，我这里简单的从一个基因开始，扩展开来讲 &#8230; <a href="http://www.bio-info-trainee.com/491.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>感觉大家对很多生物信息学的术语都不甚了解，我这里简单的从一个基因开始，扩展开来讲一讲生信数据库，及它相关的一些术语！</p>
<p>我要讲的基因是BRCA1，这是一个与乳腺癌以及卵巢癌都息息相关的基因。而BRCA1是它的英文缩写简称，也是通常学者们进行交流十它的名字。它的全称是breast cancer 1,每个基因都会有一个简称，比如下面这些，在human里面这些简称多大47732个，正常人都不会认识它们所有，只需要碰到了去数据库搜索即可，但是搞医疗健康的，必须熟悉癌症50基因。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅247.png"><img class="alignnone size-full wp-image-492" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅247.png" alt="一个基因的生信之旅247" width="489" height="314" /></a></p>
<p>这样的缩写简称其实弊端很多，单词毕竟是有限的，而且缩写也没有语义。所以NCBI给每个基因都定义了一个entrez ID号，是整数的排序，具体大家可以去看NCBI发的一篇文献，专门讲解了entrez ID号的好处。</p>
<p>1 A1BG</p>
<p>2 A2M</p>
<p>3 A2MP1</p>
<p>9 NAT1</p>
<p>10 NAT2</p>
<p>11 NATP</p>
<p>12 SERPINA3</p>
<p>13 AADAC</p>
<p>14 AAMP</p>
<p>这里我们来找一下我们的BRCA1这个基因在生物信息数据库里面的其它信息，在NCBI的ftp里面有一个文件是Homo_sapiens.gene_info里面包含着人类所以基因的全部信息</p>
<p>9606  首先这个基因在human上面的，而human被NCBI定义的taxid是9606</p>
<p>672  然后这个基因的被NCBI定义的entrez ID号是672</p>
<p>BRCA1  这个当然就是这个基因的英文缩写名称啦</p>
<p>-      这个表明这个基因在负链什么</p>
<p>BRCAI|BRCC1|BROVCA1|FANCS|IRIS|PNCA4|PPP1R53|PSCP|RNF53</p>
<p>这个可能是基因以前的名称，或者是在其它研究领域的一些名称。MIM:113705|HGNC:HGNC:1100|Ensembl:ENSG00000012048|HPRD:00218|Vega:OTTHUMG00000157426</p>
<p>这里面包含在它在其它数据库的信息，我们的NCBI用entrez ID号672来标识它，相应的ensembl数据用ensembl ID号ENSG00000012048来标识它，还有什么MIM数据库，HGNC数据库，Vega数据库我就不详细讲啦</p>
<p>17 17q21 这个说明它在human的17号染色体的位置信息</p>
<p>下面一堆都是这个基因的描述，它的功能等等。</p>
<p>breast cancer 1, early onset protein-coding BRCA1 breast cancer 1, early onset</p>
<p>O BRCA1/BRCA2-containing complex, subunit 1|Fanconi anemia, complementation group S|RING finger protein 53|breast and ovarian cancer susceptibility protein 1|breast and ovarian cancer sususceptibility protein 1|breast cancer type 1 susceptibility protein|protein phosphatase 1, regulatory subunit 53</p>
<p>20150201</p>
<p>这样我们就把好几个数据库给串起来了，也大致了解了一个基因的各种信息，但是，这样肯定是不够的。</p>
<p>接下来我们就不用BRCA1来称呼这个基因了，我们统一用NCBI定义entrez ID号672来称呼这个基因，当然用ensembl ID号ENSG00000012048也可以，它们都是比较通用的。</p>
<p>ENSG00000012048 672 这个基因在GO数据库里面可以找到67个功能信息，分别是以下</p>
<p>GO:0000151 GO:0000724 GO:0000724 GO:0000794 GO:0003677 GO:0003684 GO:0003713 GO:0003723 GO:0004842 GO:0005515 GO:0005634 GO:0005654 GO:0005694 GO:0005737 GO:0005886 GO:0006260 GO:0006281 GO:0006301 GO:0006302 GO:0006302 GO:0006349 GO:0006357 GO:0006359 GO:0006633 GO:0006915 GO:0006974 GO:0006978 GO:0007059 GO:0007098 GO:0008270 GO:0008274 GO:0008630 GO:0009048 GO:0010212 GO:0010575 GO:0010628 GO:0015631 GO:0016567 GO:0016874 GO:0019899 GO:0030521 GO:0030529 GO:0031398 GO:0031436 GO:0031572 GO:0031625 GO:0035066 GO:0035067 GO:0042127 GO:0042981 GO:0043009 GO:0043234 GO:0043627 GO:0044030 GO:0044212 GO:0045717 GO:0045739 GO:0045766 GO:0045892 GO:0045893 GO:0045893 GO:0045944 GO:0045944 GO:0046600 GO:0050681 GO:0051571 GO:0051572 GO:0051573 GO:0051574 GO:0051865 GO:0070512 GO:0070531 GO:0071158 GO:0071356 GO:0071681 GO:0085020 GO:1902042 GO:2000378 GO:2000617 GO:2000620</p>
<p>由于GO太多了，我简单讲几个</p>
<p>ubiquitin ligase complex</p>
<p>double-strand break repair via homologous recombination</p>
<p>double-strand break repair via homologous recombination</p>
<p>condensed nuclear chromosome</p>
<p>DNA binding</p>
<p>damaged DNA binding</p>
<p>transcription coactivator activity</p>
<p>RNA binding</p>
<p>ubiquitin-protein transferase activity</p>
<p>protein binding</p>
<p>都是描述这个基因的功能的。</p>
<p>到这里我们大致了解了这个基因的功能，但是还不够。</p>
<p>然后可以查到它有一下6个转录本，都有二十多个外显子。</p>
<p>NR_027676</p>
<p>NM_007300</p>
<p>NM_007299</p>
<p>NM_007298</p>
<p>NM_007297</p>
<p>NM_007294</p>
<p>在hg19这个参考基因组的起始终止坐标，还有各个外显子的起始终止坐标都能找到。</p>
<p>41196311,41199659,41201137,41203079,41209068,41215349,41215890,41219624,41222944,41226347,41228504,41234420,41242960,41243451,41247862,41249260,41251791,41256138,41256884,41258494,41267742,41276033,41277198</p>
<p>&nbsp;</p>
<p>41197819,41199720,41201211,41203134,41209152,41215390,41215968,41219712,41223255,41226538,41228631,41234592,41243049,41246877,41247939,41249306,41251894,41256278,41256973,41258550,41267796,41276132,41277340</p>
<p><a href="http://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000012048;r=17:43044295-43125483">http://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000012048;r=17:43044295-43125483</a></p>
<p>在ensembl里面关于这个基因的描述如下。</p>
<p>breast cancer 1, early onset [Source:HGNC Symbol;Acc:HGNC:1100]</p>
<p>BRCC1, FANCS, PPP1R53, RNF53</p>
<p>Chromosome 17: 43,044,295-43,125,483 reverse strand.</p>
<p>chromosome:GRCh38:CM000679.2:43044295:43125483:1</p>
<p>This gene has 29 transcripts (splice variants), 63 orthologues, is a member of 4 Ensembl protein families and is associated with 11 phenotypes.</p>
<p>RefSeq Gene ID 672</p>
<p>Uniprot identifiers: P38398</p>
<p>而且ensembl里面可以可视化这个基因的所有信息。</p>
<p>然后简单检索一下关于这个BRCA1基因的文献发表状况，居然多达2111篇文献，看来这个基因很火呀！！！</p>
<p>awk '{if ($1==9606 &amp;&amp; $2==672) print }' gene2pubmed |wc</p>
<p>9606 672 1676470</p>
<p>9606 672 2001833</p>
<p>9606 672 2270482</p>
<p>9606 672 4506230</p>
<p>9606 672 7481765</p>
<p>9606 672 7545954</p>
<p>9606 672 7550349</p>
<p>9606 672 7795652</p>
<p>9606 672 7894491</p>
<p>9606 672 7894492</p>
<p>第三列1676470等编号是pubmed数据库的文献编号，可以直接找到关于这个基因的文献发表情况。</p>
<p>而直接在NCBI的pubmed数据库里面可以搜到多达11339篇文献。</p>
<p>esearch -db pubmed -query 'BRCA1'</p>
<p>Esearch这个程序是NCBI提供的，挺好用的，希望大家可以熟悉一下。</p>
<p>esearch -db pubmed -query 'BRCA1' | efetch -format docsum |   xtract -pattern DocumentSummary -present Author -and Title     -element Id -first "Author/Name" -element Title  &gt;BRCA1.pubmed</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅4634.png"><img class="alignnone size-full wp-image-493" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅4634.png" alt="一个基因的生信之旅4634" width="554" height="263" /></a></p>
<p>用这个代码，可以找到所有关于这个BRCA1基因的文献的作者及标题，这样可以统计在这个基因领域的研究者最出名的是谁。</p>
<p>至于这个基因的序列，及其转录本翻译的蛋白我就不列了，太长了，而且占位子</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/491.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>免疫组库igblastn软件的使用</title>
		<link>http://www.bio-info-trainee.com/352.html</link>
		<comments>http://www.bio-info-trainee.com/352.html#comments</comments>
		<pubDate>Thu, 19 Mar 2015 12:56:53 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[免疫组库]]></category>
		<category><![CDATA[生信组学技术]]></category>
		<category><![CDATA[igblast]]></category>
		<category><![CDATA[igblastn]]></category>
		<category><![CDATA[ncbi]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=352</guid>
		<description><![CDATA[一：下载安装该软件 软件：NCBI提供的igblastn（linux环境） 需要 &#8230; <a href="http://www.bio-info-trainee.com/352.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p><b>一：下载安装该软件</b></p>
<p>软件：NCBI提供的igblastn（linux环境）</p>
<p>需要自己去NCBI的ftp里面下载</p>
<p><a href="ftp://ftp.ncbi.nlm.nih.gov/blast/executables/igblast/release/">ftp://ftp.ncbi.nlm.nih.gov/blast/executables/igblast/release/</a></p>
<p>要保证igblastn程序文件和以下三个文件夹在同一目录，可以自行下载ncbi的igblast程序，同时要下载这些东西。<span id="more-352"></span></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/免疫组库igblastn软件的使用302.png"><img class="alignnone size-full wp-image-353" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/免疫组库igblastn软件的使用302.png" alt="免疫组库igblastn软件的使用302" width="553" height="234" /></a></p>
<p><!--more--></p>
<p>其中database根据物种需要自行选择或者自己建库</p>
<p><b>二：准备数据</b></p>
<p>输入文件：各个样本经以上步骤处理好的fasta文件</p>
<p>输出文件：得到blast比对结果，一般处理后文件会增大10倍以上</p>
<p><b>三：运行命令</b></p>
<p>软件命令：对不同的物种需要不同的库文件，不同的BCR,TCR需要不同的比对策略，好好看说明书</p>
<p>对BCR                        对TCR</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/免疫组库igblastn软件的使用627.png"><img class="alignnone size-full wp-image-354" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/免疫组库igblastn软件的使用627.png" alt="免疫组库igblastn软件的使用627" width="375" height="195" /></a><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/免疫组库igblastn软件的使用834.png"><img class="alignnone size-full wp-image-355" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/免疫组库igblastn软件的使用834.png" alt="免疫组库igblastn软件的使用834" width="345" height="181" /></a></p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>处理结果如下，每个文件约2.5G大小</p>
<p>我一般是好几个样本一起跑，两百兆的文件需要跑四个小时左右！批处理命令如下，反正一般人也看不懂，就忒给有需求的人！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/免疫组库igblastn软件的使用914.png"><img class="alignnone size-full wp-image-356" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/免疫组库igblastn软件的使用914.png" alt="免疫组库igblastn软件的使用914" width="554" height="93" /></a></p>
<p><b>四：输出文件解读</b></p>
<p>这个就复杂了，一篇文章根本解释不清楚呀</p>
<p>在我写这篇日志的时候，我后台运行的igblastn程序还在运行，估计明天早上才能跑完</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/免疫组库igblastn软件的使用988.png"><img class="alignnone size-full wp-image-357" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/免疫组库igblastn软件的使用988.png" alt="免疫组库igblastn软件的使用988" width="320" height="634" /></a></p>
<p>这是我下载的一篇文献里面的数据，可以看到每个fa文件都输出了很大的blast result文件，需要打开一个个解读，略过了，有兴趣的可以联系我私聊。</p>
<p>在我的群里面共享了所有的代码及帖子内容，欢迎加群201161227，生信菜鸟团！</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/352.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>查某个基因家族在某物种的具体信息</title>
		<link>http://www.bio-info-trainee.com/332.html</link>
		<comments>http://www.bio-info-trainee.com/332.html#comments</comments>
		<pubDate>Wed, 18 Mar 2015 14:00:26 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[linux]]></category>
		<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[gene]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[taxid]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=332</guid>
		<description><![CDATA[查某个基因家族在某物种的具体信息 我很伤心，不知道是不是我写的教程还是不够人性化 &#8230; <a href="http://www.bio-info-trainee.com/332.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p style="text-align: center;"><b>查某个基因家族在某物种的具体信息</b></p>
<p>我很伤心，不知道是不是我写的教程还是不够人性化，一个朋友在群里面问如何知道NAC基因家族在拟南芥里面的105个基因信息，我随便给他示范了一下在人类里面如何找，希望他能触类旁通，结果他不会linux，啥生信基础都没有，我只会诱导他简单学习一下，希望他至少明白什么的taxid。所以我给了他我之前写的教程，只希望他告诉我拟南芥的taxid我就帮他把那105个基因找出来。<span id="more-332"></span></p>
<p><a href="http://www.bio-info-trainee.com/?p=84">http://www.bio-info-trainee.com/?p=84</a></p>
<p>结果好半天都不回信息了，我还以为他自己解决了，我礼貌性的再问一次，才知道他没看懂我的教程，我实在不明白，那么通俗的教程为嘛还是不能亲民呢？？？</p>
<p>拟南芥的拉丁名是Arabidopsis thaliana，在NCBI的Taxonomy里面搜索可以看到</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/查某个基因家族在某物种的具体信息582.png"><img class="alignnone size-full wp-image-333" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/查某个基因家族在某物种的具体信息582.png" alt="查某个基因家族在某物种的具体信息582" width="627" height="259" /></a></p>
<p>然后点击进去</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/查某个基因家族在某物种的具体信息757.png"><img class="alignnone size-full wp-image-334" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/查某个基因家族在某物种的具体信息757.png" alt="查某个基因家族在某物种的具体信息757" width="553" height="486" /></a></p>
<p>就简单的两个步骤呀，就可以看到taxid的呀！！！</p>
<p>然后我只需要简单一个命令就可以解决题目的问题了！</p>
<p>grep -w  NAC  gene_info |perl -alne '{print if $F[0] == 3702}'</p>
<p>其中gene_info在NCBI的ftp里面可以下载！！我前面也提到过，是所以物种的基因信息</p>
<p>我只需要查找基因名字是NAC的，然后物种代码是3702的就是他拟南芥的呀！！！</p>
<p>正好105个基因，达到了他的要求！！！</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/查某个基因家族在某物种的具体信息930.png"><img class="alignnone size-full wp-image-335" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/查某个基因家族在某物种的具体信息930.png" alt="查某个基因家族在某物种的具体信息930" width="249" height="524" /></a></p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/332.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>NCBI的taxid简单介绍</title>
		<link>http://www.bio-info-trainee.com/84.html</link>
		<comments>http://www.bio-info-trainee.com/84.html#comments</comments>
		<pubDate>Tue, 10 Mar 2015 14:08:37 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[taxid]]></category>
		<category><![CDATA[物种分类]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=84</guid>
		<description><![CDATA[ NCBI的taxid简单介绍 物种的信息集合都在它的NCBI的taxid号里面 &#8230; <a href="http://www.bio-info-trainee.com/84.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p style="text-align: center;"><strong> NCBI的taxid简单介绍</strong></p>
<p>物种的信息集合都在它的NCBI的taxid号里面，在NCBI里面关于它的英文介绍地址如下 <a href="http://www.ncbi.nlm.nih.gov/guide/taxonomy/">http://www.ncbi.nlm.nih.gov/guide/taxonomy/</a> ，NCBI人为的给自然界所有的物种都给了一个编号，这个编号就是taxid，是根据计算机里面树这种数据结构来编码的，其中人类的编号是 9606，7227是果蝇，我们只需要进入这个物种的taxid里面就能看的关于它的一切NCBI存在并且收集好的信息。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的taxid简单介绍288.png"><img class="alignnone size-full wp-image-85" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的taxid简单介绍288.png" alt="NCBI的taxid简单介绍288" width="494" height="354" /></a></p>
<p>&nbsp;</p>
<p><span id="more-84"></span></p>
<p>可以看到NCBI到2015年为止已经收录近50万的物种的基因。</p>
<p>我们可以进入人类的9606这个ID里面进去看看</p>
<p><a href="http://www.ncbi.nlm.nih.gov/taxonomy/?term=9606[uid]">http://www.ncbi.nlm.nih.gov/taxonomy/?term=9606[uid]</a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的taxid简单介绍468.png"><img class="alignnone size-full wp-image-86" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的taxid简单介绍468.png" alt="NCBI的taxid简单介绍468" width="489" height="81" /></a></p>
<p>可以看出，人类这个并不是最底层的taxid类别，下面还有两个分类</p>
<p>关于人类这个物种的信息是非常多的</p>
<p><a href="http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&amp;id=9606&amp;lvl=3&amp;lin=f&amp;keep=1&amp;srchmode=1&amp;unlock">http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&amp;id=9606&amp;lvl=3&amp;lin=f&amp;keep=1&amp;srchmode=1&amp;unlock</a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的taxid简单介绍758.png"><img class="alignnone size-full wp-image-87" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的taxid简单介绍758.png" alt="NCBI的taxid简单介绍758" width="307" height="723" /></a></p>
<p>但是它下面的两个亚种人，就比较少的信息。</p>
<p>关于这个taxid的资料还有很多 <a href="ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/">ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/</a></p>
<p>其中我们可以下载 wget  <a href="ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz">ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz</a> 这个文件，解压可以看到里面有以下文件，其中比较重要的两个文件</p>
<p><b>nodes.dmp</b><b> 这个文件列出了taxid的树的结构信息，子节点，父节点等等</b></p>
<p><b>names.dmp</b><b> 这个文件里面列出了每个独特的taxid对应着的物种名</b></p>
<p>其它信息不重要，自己看咯</p>
<p>gencode.dmp</p>
<p>-----------</p>
<p>Genetic codes file:</p>
<p>&nbsp;</p>
<p>genetic code id -- GenBank genetic code id</p>
<p>abbreviation -- genetic code name abbreviation</p>
<p>name -- genetic code name</p>
<p>cde -- translation table for this genetic code</p>
<p>starts -- start codons for this genetic code</p>
<p>&nbsp;</p>
<p>delnodes.dmp</p>
<p>------------</p>
<p>Deleted nodes (nodes that existed but were deleted) file field:</p>
<p>&nbsp;</p>
<p>tax_id -- deleted node id</p>
<p>&nbsp;</p>
<p>merged.dmp</p>
<p>----------</p>
<p>Merged nodes file fields:</p>
<p>&nbsp;</p>
<p>old_tax_id                              -- id of nodes which has been merged</p>
<p>new_tax_id                              -- id of nodes which is result of merging</p>
<p>&nbsp;</p>
<p>citations.dmp</p>
<p>-------------</p>
<p>Citations file fields:</p>
<p>&nbsp;</p>
<p>cit_id -- the unique id of citation</p>
<p>cit_key -- citation key</p>
<p>pubmed_id -- unique id in PubMed database (0 if not in PubMed)</p>
<p>medline_id -- unique id in MedLine database (0 if not in MedLine)</p>
<p>url -- URL associated with citation</p>
<p>text -- any text (usually article name and authors)</p>
<p>-- The following characters are escaped in this text by a backslash:</p>
<p>-- newline (appear as "\n"),</p>
<p>-- tab character ("\t"),</p>
<p>-- double quotes ('\"'),</p>
<p>-- backslash character ("\\").</p>
<p>taxid_list -- list of node ids separated by a single space</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/84.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>NCBI的基因entrez ID相关文件介绍</title>
		<link>http://www.bio-info-trainee.com/75.html</link>
		<comments>http://www.bio-info-trainee.com/75.html#comments</comments>
		<pubDate>Tue, 10 Mar 2015 14:05:29 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[entez ID]]></category>
		<category><![CDATA[ncbi]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=75</guid>
		<description><![CDATA[NCBI的基因entrez ID相关文件介绍 地址：ftp://ftp.ncbi &#8230; <a href="http://www.bio-info-trainee.com/75.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p style="text-align: center;"><strong>NCBI的基因entrez ID相关文件介绍</strong></p>
<p>地址：<a href="ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/">ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/</a></p>
<p>里面主要有以下几个文件</p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍124.png"><img class="alignnone size-full wp-image-76" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍124.png" alt="NCBI的基因entrez相关文件介绍124" width="554" height="221" /></a></b></p>
<p><span id="more-75"></span></p>
<p>我这里主要介绍gene2ensembl，gene2accession， gene2pubmed，gene2go，gene_info信息文件，它们的核心连接是gene的entrez ID号，了解了以下文件之后，可以把gene的entrez ID随意转换为ensembl的ID号，也可以随意转为基因名字，或者基因的通路信息。解压之后的大小如下：</p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍492.png"><img class="alignnone size-full wp-image-77" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍492.png" alt="NCBI的基因entrez相关文件介绍492" width="241" height="60" /></a></b></p>
<p><b>一：</b><b>第一个文件是gene2ensembl</b></p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍859.png"><img class="alignnone size-full wp-image-78" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍859.png" alt="NCBI的基因entrez相关文件介绍859" width="643" height="118" /></a></b></p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1094.png"><img class="alignnone size-full wp-image-79" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1094.png" alt="NCBI的基因entrez相关文件介绍1094" width="615" height="121" /></a></b></p>
<p>第一列：物种ID号</p>
<p>第二列：gene的entrez ID号</p>
<p>第三列：Ensembl_gene ID号</p>
<p>第四列：RNA的NCBI索取号</p>
<p>第五列：RNA的Ensembl_ ID号</p>
<p>第六列：protein的NCBI索取号</p>
<p>第七列：protein的Ensembl_ ID号</p>
<p>一般，一个gene有多个蛋白</p>
<p>7227是果蝇的物种ID号，30970这个gene ID号对应两个转录本</p>
<p>&nbsp;</p>
<p><b>第二个文件是gene2accession</b></p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1553.png"><img class="alignnone size-full wp-image-80" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1553.png" alt="NCBI的基因entrez相关文件介绍1553" width="918" height="57" /></a></b></p>
<p>第一列：物种ID号</p>
<p>第二列：gene的entrez ID号</p>
<p>第三列：status</p>
<p>第四列：RNA_nucleotide_accession.version，RNA_nucleotide_gi</p>
<p>第五列：protein_accession.version ，protein_gi</p>
<p>第六列：genomic_nucleotide_accession.version，genomic_nucleotide_gi</p>
<p>第七列：然后是start和end的pos坐标，还有正负链的标记</p>
<p>第八列:</p>
<p><b>第三个文件是 gene2pubmed</b></p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1912.png"><img class="alignnone size-full wp-image-81" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍1912.png" alt="NCBI的基因entrez相关文件介绍1912" width="182" height="130" /></a></b></p>
<p>总共只有三列，分别是物种ID号，gene的entrez ID号，和对应的pubmed ID号</p>
<p>#Format: tax_id GeneID PubMed_ID (tab is used as a separator, pound sign - start of a comment)</p>
<p>其中一个物种里面有多个基因，一个基因会在多篇文献里面都有报道。</p>
<p><b>第四个文件是gene2go</b></p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍2303.png"><img class="alignnone size-full wp-image-82" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/NCBI的基因entrez相关文件介绍2303.png" alt="NCBI的基因entrez相关文件介绍2303" width="640" height="127" /></a></b></p>
<p>主要看第三列的GO_ID与第四列的gene_name对应着</p>
<p>#Format: tax_id     GeneID     GO_ID     Evidence         Qualifier         GO_term         PubMed         Category</p>
<p>其中一个物种里面有多个基因，一个基因会有多个GO通路</p>
<p><b>第五个文件是gene_info      </b></p>
<p><b>主要是连接了</b>gene的entrez ID与基因的俗名及其描述。</p>
<p>其中比较重要的是Homo_sapiens.gene_info 这个文件。</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/75.html/feed</wfw:commentRss>
		<slash:comments>8</slash:comments>
		</item>
	</channel>
</rss>
