生信菜鸟团 » ncbi

生信人必学ftp站点之 dbsnp

ulwvfje — Thu, 04 Aug 2016 14:56:50 +0000

这个数据库我也不想多解释了，也是host在NCBI上，不仅有常见的模式生物已经被研究过的所有variation位点信息，还有很多其它物种的数据，主站点是：ftp://ftp-trace.ncbi.nih.gov/snp/organisms/

人类是物种ID是9606，可以看到variation位点信息有基于hg19和hg38的两种下载方式，如果还有其它需求，可以自己用基因组坐标转换工具。在NCBI的snp页面也有对各种物种的variation位点信息记录文件的统计：http://www.ncbi.nlm.nih.gov/snp/ http://www.ncbi.nlm.nih.gov/SNP/同时也是NCBI做好的一个网页版查询工具，因为下载一个 variation位点信息记录文件动辄就是十几个G，一般人也不会处理那个文件，不知道从里面应该如何提取需要的信息，这时候学习它的网页版查询工具也挺好的。

但是对真正搞生物信息学分析的人来说，就必须呀完全掌握这个站点以及里面的全部文件了。我比较感兴趣的是关于人类的研究，所有数据都在下面：

Nov 24 2015 00:00    Directory human_9606_b146_GRCh37p13
Apr 20 2016 19:39    Directory human_9606_b146_GRCh38p2
Apr 20 2016 19:23    Directory human_9606_b147_GRCh37p13
Apr 23 2016 03:59    Directory human_9606_b147_GRCh38p2

在UCSC里面也有对dbsnp数据库的介绍，主要是从数据库设计的角度来理解，里面详细介绍了每一列具体的意义，值得大家仔细学习。

http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=snp146&hgta_table=snp146&hgta_doSchema=describe+table+schema

http://genome.ucsc.edu/cgi-bin/hgTables?db=hg19&hgta_group=varRep&hgta_track=snp141&hgta_table=snp141&hgta_doSchema=describe+table+schema

但是如果真想从数据库语言的角度来理解，需要看它的schema了：很复杂：ftp://ftp.ncbi.nih.gov/snp/database/erd_dbSNP.pdf

sql的代码也可以下载：ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/database/organism_schema/

还根据gene来分genotype：ftp://ftp.ncbi.nlm.nih.gov/snp/organisms/human_9606/genotype_by_gene/

最后值得一提的是，除了dbsnp对variation规定了ID号，还有几个其它偏门的ID号也可以来描述变异位点的。

NCBI的dbsnp，以rs和ss开头

illumina的kgp开头

还有ESP的以esp开头

kgp是illumina中华八芯片的

kgp identifiers were not created by the 1000 Genomes Project. We also do not maintain them. They were created by Illumina for their genotyping platform before some variants identified during the pilot phase of the project had been assigned rs numbers.

We do not possess a mapping of these identifiers to current rs numbers. As far as we are aware no such list exists.

用DBsnp的数据，根据Illumina提供的注释文件，可以找到相应的RSID号。

Updating kgp IDs to rs IDs for SNPs on Illumina HumanOmni2.5M array

生信人必学ftp站点之NCBI-GEO

ulwvfje — Tue, 02 Aug 2016 11:48:19 +0000

NCBI的重要性我就不多说了，Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据！所有的数据均可以在ftp站点下载：ftp://ftp-trace.ncbi.nih.gov/geo/

首先，我们在GEO的主页可以看到：

截止到2016年8月2日，统计信息如上，可以看到数据量很恐怖了。

GEO数据库基础知识

GEO Platform (GPL) 芯片平台
GEO Sample (GSM) 样本ID号
GEO Series (GSE) study的ID号
GEO Dataset (GDS) 数据集的ID号

这些数据都可以在ftp里面直接下载：

FTP directory /geo/ at ftp-trace.ncbi.nih.gov

08/02/2016 05:39AM      Directory datasets
08/02/2016 05:39AM      Directory platforms
08/02/2016 05:39AM      Directory samples
08/02/2016 05:39AM      Directory series

网址都是很有规律的！（请务必注意规律）

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311

我们一般是拿到了GSE的study ID号，然后直接把什么的url修改一下，就可以看到关于该study的所以描述信息，是用的什么测序平台(芯片数据，或者高通量测序)，测了多少个样本，来自于哪篇文章！

所有需要的数据均可以下载，而且都是在上面的ftp里面可以根据规律去找到的，甚至可以自己拼接下载的url链接，来做批量化处理！

如果是芯片数据，那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息，才能利用好别人的数据。

如果是高通量测序数据，一般要同步进入该GSE对应的SRA里面去下载sra数据，然后转为fastq格式数据，自己做处理！

自学miRNA-seq分析第三讲~公共测序数据下载

ulwvfje — Sat, 25 Jun 2016 09:08:43 +0000

前面已经讲到了该文章的数据已经上传到NCBI的SRA数据中心，所以直接根据索引号下载，然后用SRAtoolkit转出我们想要的fastq测序数据即可。下载的数据一般要进行质量控制，可视化展现一下质量如何，然后根据大题测序质量进行简单过滤。所以需要提前安装一些软件来完成这些任务，包括： sratoolkit /fastx_toolkit /fastqc/bowtie2/hg19/miRBase/SHRiMP

下面是我用新服务器下载安装软件的一些代码记录，因为fastx_toolkit /fastqc我已经安装过，就不列代码了，还有miRBase的下载，我在前面第二讲里面提到过，传送门：自学miRNA-seq分析第二讲~学习资料的搜集

## pre-step: download sratoolkit /fastx_toolkit_0.0.13/fastqc/bowtie2/hg19/miRBase/SHRiMP

## http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

## http://www.ncbi.nlm.nih.gov/books/NBK158900/

## 我这里特意挑选的二进制版本程序下载的，这样直接解压就可以用，但是需要挑选适合自己的操作系统的程序。

cd ~/biosoft

mkdir sratoolkit && cd sratoolkit

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.6.3/sratoolkit.2.6.3-centos_linux64.tar.gz

##

## Length: 63453761 (61M) [application/x-gzip]

## Saving to: "sratoolkit.2.6.3-centos_linux64.tar.gz"

tar zxvf sratoolkit.2.6.3-centos_linux64.tar.gz

cd ~/biosoft

mkdir bowtie && cd bowtie

wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.9/bowtie2-2.2.9-linux-x86_64.zip/download

#Length: 27073243 (26M) [application/octet-stream]

#Saving to: "download"

mv download bowtie2-2.2.9-linux-x86_64.zip

unzip bowtie2-2.2.9-linux-x86_64.zip

## http://compbio.cs.toronto.edu/shrimp/

mkdir SHRiMP && cd SHRiMP

wget http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz

tar zxvf SHRiMP_2_2_3.lx26.x86_64.tar.gz

cd SHRiMP_2_2_3

export SHRIMP_FOLDER=$PWD ## 这个软件使用的时候比较奇葩，需要设置到环境变量，不能简单的调用全路径

SHRiMP这个软件比较小众，我也是第一次听说过，本来我计划是能用bowtie搞定，就不麻烦了，但是第一次比对出了一个bug，就是下载的miRNA序列里面的U没有转换成T，所以导致比对率非常之低，所以我不得不根据文章里面记录的软件SHRiMP 来做比对，最后发现比对率完全没有改善，搞得我都在怀疑是不是作者乱来了。

下面是下载数据，质量控制的代码，希望大家可以照着运行一下：

## step1 : download raw data

mkdir miRNA_test && cd miRNA_test

echo {14..19} |sed 's/ /\n/g' |while read id; \

do wget "ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP045/SRP045420/SRR15427$id/SRR15427$id.sra" ;\

done

## step2 : change sra data to fastq files.

## 主要是用shell脚本来批量下载

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump $id;done

rm *sra

## 33M --> 247M

#Read 1866654 spots for SRR1542714.sra

#Written 1866654 spots for SRR1542714.sra

## step3 : download the results from paper

## http://www.bio-info-trainee.com/1571.html

## ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/suppl/GSE1009_RAW.tar

mkdir paper_results && cd paper_results

wget ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE60nnn/GSE60292/suppl/GSE60292_RAW.tar

## tar xvf GSE60292_RAW.tar

ls *gz |while read id ; do (echo $id;zcat $id | cut -f 2 |perl -alne '{$t+=$_;}END{print $t}');done

ls *gz |xargs gunzip

## step4 : quality assessment

ls *fastq | while read id ; do ~/biosoft/fastqc/FastQC/fastqc $id;done

## Sequence length 8-109

## %GC 52

## Adapter Content passed

## write a script : :: cat >filter.sh

ls *fastq |while read id

do

echo $id

~/biosoft/fastx_toolkit_0.0.13/bin/fastq_quality_filter -v -q 20 -p 80 -Q33 -i $id -o tmp ;

~/biosoft/fastx_toolkit_0.0.13/bin/fastx_trimmer -v -f 1 -l 27 -i tmp -Q33 -z -o ${id%%.*}_clean.fq.gz ;

done

rm tmp

## discarded 12%~~49%%

ls *_clean.fq.gz | while read id ; do ~/biosoft/fastqc/FastQC/fastqc $id;done

mkdir QC_results

mv *zip *html QC_results

这个代码是我自己根据文章的理解写出的，因为我本身不擅长miRNA数据分析，所以在进行QC的时候参数选择可能并不是那么友好，如果有高手能指正就最好了，可以直接打我电话告诉我，或者发邮箱给我，邮箱用户名是jmzeng1314，是163邮箱。

~/biosoft/fastx_toolkit_0.0.13/bin/fastq_quality_filter -v -q 20 -p 80 -Q33 -i $id -o tmp ;

~/biosoft/fastx_toolkit_0.0.13/bin/fastx_trimmer -v -f 1 -l 27 -i tmp -Q33 -z -o ${id%%.*}_clean.fq.gz ;

最后得到的clean.fq.gz系列文件，就是我需要进行比对的序列啦。

基因组各种版本对应关系

ulwvfje — Tue, 15 Mar 2016 11:50:00 +0000

我是受到了SOAPfuse的启发才想到整理各种基因组版本的对应关系，完整版！！！

以后再也不用担心各种基因组版本混乱了，我还特意把所有的下载链接都找到了，可以下载任意版本基因组的基因fasta文件，gtf注释文件等等！！！

首先是NCBI对应UCSC，对应ENSEMBL数据库：

GRCh36 (hg18): ENSEMBL release_52.

GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.

GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

可以看到ENSEMBL的版本特别复杂！！！很容易搞混！

但是UCSC的版本就简单了，就hg18,19,38, 常用的是hg19，但是我推荐大家都转为hg38

看起来NCBI也是很简单，就GRCh36,37,38，但是里面水也很深！

Feb 13 2014 00:00    Directory April_14_2003
Apr 06 2006 00:00    Directory BUILD.33
Apr 06 2006 00:00    Directory BUILD.34.1
Apr 06 2006 00:00    Directory BUILD.34.2
Apr 06 2006 00:00    Directory BUILD.34.3
Apr 06 2006 00:00    Directory BUILD.35.1
Aug 03 2009 00:00    Directory BUILD.36.1
Aug 03 2009 00:00    Directory BUILD.36.2
Sep 04 2012 00:00    Directory BUILD.36.3
Jun 30 2011 00:00    Directory BUILD.37.1
Sep 07 2011 00:00    Directory BUILD.37.2
Dec 12 2012 00:00    Directory BUILD.37.3

可以看到，有37.1, 37.2， 37.3 等等，不过这种版本一般指的是注释在更新，基因组序列一般不会更新！！！

反正你记住hg19基因组大小是3G，压缩后八九百兆即可！！！

如果要下载GTF注释文件，基因组版本尤为重要！！！

对NCBI：ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/ ##最新版（hg38）

ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ ## 其它版本

对于ensembl：

ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz

变幻中间的release就可以拿到所有版本信息：ftp://ftp.ensembl.org/pub/

对于UCSC，那就有点麻烦了：

需要选择一系列参数：

http://genome.ucsc.edu/cgi-bin/hgTables

1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables

2. Select the following options:
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Predictions
track: UCSC Genes
table: knownGene
region: Select "genome" for the entire genome.
output format: GTF - gene transfer format
output file: enter a file name to save your results to a file, or leave blank to display results in the browser

3. Click 'get output'.

现在重点来了，搞清楚版本关系了，就要下载呀！

UCSC里面下载非常方便，只需要根据基因组简称来拼接url即可：

http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz

http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz

或者用shell脚本指定下载的染色体号：

for i in $(seq 1 22) X Y M;
do echo $i;
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;

## 这里也可以用NCBI的：ftp://ftp.ncbi.nih.gov/genomes/M_musculus/ARCHIVE/MGSCv3_Release3/Assembled_Chromosomes/chr前缀
done
gunzip *.gz
for i in $(seq 1 22) X Y M;
do cat chr${i}.fa >> hg19.fasta;
done
rm -fr chr*.fasta

脚本作业-解读NCBI的ftp里面关于人的一些基因信息

ulwvfje — Fri, 01 May 2015 03:04:56 +0000

为了感谢大家对我博客的关注，我在这里发布一个作业，适合菜鸟做的。里面有十几个类似的问题，大家可以下载数据自行处理，如果是问这些问题，我优先回答！

NCBI的ftp里面关于人的一些基因信息

我在NCBI的ftp服务器里面下载了这些数据，时间是2015年，大多是hg19系列的，文件名如下：

CDS.fa 这个是ensembl中人的CDS碱基序列文件，hg38

entrez2go.gene 这个是有go注释的基因情况，有一万八的基因都有go注释

entrez2name.gene 这个是NCBI的entrez ID号对应着基因名的文件

entrez2pubmed.gene 这个是NCBI的entrez ID号对应着该基因发表过的文章的ID号

entrez2refseq2ensembl.gene 这个是NCBI的entrez ID号对应着基因名的refseq的ID号和ensembl数据库的ID号

human_gene_info这个是基因的详细信息，包括基因的起始终止点坐标等等

Protein.fa 这个是ensembl中人的蛋白的氨基酸序列文件，有十万多个蛋白hg38

ref2ensembl.txt 这个是基因名的refseq的ID号和ensembl数据库的ID号

自行去NCBI的ftp服务器里面下载这些数据。

然后好好熟悉这些数据信息，回答一下几个问题：

人总的基因有多少个，它们分别分布在哪些染色体上面，基因的转录本分布情况如何，基因的长度分布如何，基因的外显子个数如何。

CD分子的基因有多少个，它们分别分布在哪些染色体上面，基因的转录本分布情况如何，基因的长度分布如何，基因的外显子个数如何。它们有没有氨基酸偏好性？？

MHC系列基因信息？CCL系列基因信息如何？CXCL系列信息如何？或者你感兴趣的基因家族信息？

现在研究最热门的基因是什么？发表文章最多的前十个基因是什么？

基因长度情况如何？最长的基因多长？最短的基因多少bp，可靠吗？

蛋白质长度情况如何？

每条染色体的基因分别情况？基因在染色体那个地方分别最多？

请用图形展示你的结论！！！

如果你能回答以上问题，证明你的脚本水平不错了。

如果找不到我，看旁边的公告，加入生信菜鸟群，我就在里面！！！

一个基因的生信之旅

ulwvfje — Thu, 26 Mar 2015 02:47:25 +0000

感觉大家对很多生物信息学的术语都不甚了解，我这里简单的从一个基因开始，扩展开来讲一讲生信数据库，及它相关的一些术语！

我要讲的基因是BRCA1，这是一个与乳腺癌以及卵巢癌都息息相关的基因。而BRCA1是它的英文缩写简称，也是通常学者们进行交流十它的名字。它的全称是breast cancer 1,每个基因都会有一个简称，比如下面这些，在human里面这些简称多大47732个，正常人都不会认识它们所有，只需要碰到了去数据库搜索即可，但是搞医疗健康的，必须熟悉癌症50基因。

这样的缩写简称其实弊端很多，单词毕竟是有限的，而且缩写也没有语义。所以NCBI给每个基因都定义了一个entrez ID号，是整数的排序，具体大家可以去看NCBI发的一篇文献，专门讲解了entrez ID号的好处。

1 A1BG

2 A2M

3 A2MP1

9 NAT1

10 NAT2

11 NATP

12 SERPINA3

13 AADAC

14 AAMP

这里我们来找一下我们的BRCA1这个基因在生物信息数据库里面的其它信息，在NCBI的ftp里面有一个文件是Homo_sapiens.gene_info里面包含着人类所以基因的全部信息

9606 首先这个基因在human上面的，而human被NCBI定义的taxid是9606

672 然后这个基因的被NCBI定义的entrez ID号是672

BRCA1 这个当然就是这个基因的英文缩写名称啦

- 这个表明这个基因在负链什么

这个可能是基因以前的名称，或者是在其它研究领域的一些名称。MIM:113705|HGNC:HGNC:1100|Ensembl:ENSG00000012048|HPRD:00218|Vega:OTTHUMG00000157426

这里面包含在它在其它数据库的信息，我们的NCBI用entrez ID号672来标识它，相应的ensembl数据用ensembl ID号ENSG00000012048来标识它，还有什么MIM数据库，HGNC数据库，Vega数据库我就不详细讲啦

17 17q21 这个说明它在human的17号染色体的位置信息

下面一堆都是这个基因的描述，它的功能等等。

breast cancer 1, early onset protein-coding BRCA1 breast cancer 1, early onset

O BRCA1/BRCA2-containing complex, subunit 1|Fanconi anemia, complementation group S|RING finger protein 53|breast and ovarian cancer susceptibility protein 1|breast and ovarian cancer sususceptibility protein 1|breast cancer type 1 susceptibility protein|protein phosphatase 1, regulatory subunit 53

20150201

这样我们就把好几个数据库给串起来了，也大致了解了一个基因的各种信息，但是，这样肯定是不够的。

接下来我们就不用BRCA1来称呼这个基因了，我们统一用NCBI定义entrez ID号672来称呼这个基因，当然用ensembl ID号ENSG00000012048也可以，它们都是比较通用的。

ENSG00000012048 672 这个基因在GO数据库里面可以找到67个功能信息，分别是以下

GO:0000151 GO:0000724 GO:0000724 GO:0000794 GO:0003677 GO:0003684 GO:0003713 GO:0003723 GO:0004842 GO:0005515 GO:0005634 GO:0005654 GO:0005694 GO:0005737 GO:0005886 GO:0006260 GO:0006281 GO:0006301 GO:0006302 GO:0006302 GO:0006349 GO:0006357 GO:0006359 GO:0006633 GO:0006915 GO:0006974 GO:0006978 GO:0007059 GO:0007098 GO:0008270 GO:0008274 GO:0008630 GO:0009048 GO:0010212 GO:0010575 GO:0010628 GO:0015631 GO:0016567 GO:0016874 GO:0019899 GO:0030521 GO:0030529 GO:0031398 GO:0031436 GO:0031572 GO:0031625 GO:0035066 GO:0035067 GO:0042127 GO:0042981 GO:0043009 GO:0043234 GO:0043627 GO:0044030 GO:0044212 GO:0045717 GO:0045739 GO:0045766 GO:0045892 GO:0045893 GO:0045893 GO:0045944 GO:0045944 GO:0046600 GO:0050681 GO:0051571 GO:0051572 GO:0051573 GO:0051574 GO:0051865 GO:0070512 GO:0070531 GO:0071158 GO:0071356 GO:0071681 GO:0085020 GO:1902042 GO:2000378 GO:2000617 GO:2000620

由于GO太多了，我简单讲几个

ubiquitin ligase complex

double-strand break repair via homologous recombination

condensed nuclear chromosome

DNA binding

damaged DNA binding

transcription coactivator activity

RNA binding

ubiquitin-protein transferase activity

protein binding

都是描述这个基因的功能的。

到这里我们大致了解了这个基因的功能，但是还不够。

然后可以查到它有一下6个转录本，都有二十多个外显子。

NR_027676

NM_007300

NM_007299

NM_007298

NM_007297

NM_007294

在hg19这个参考基因组的起始终止坐标，还有各个外显子的起始终止坐标都能找到。

41196311,41199659,41201137,41203079,41209068,41215349,41215890,41219624,41222944,41226347,41228504,41234420,41242960,41243451,41247862,41249260,41251791,41256138,41256884,41258494,41267742,41276033,41277198

41197819,41199720,41201211,41203134,41209152,41215390,41215968,41219712,41223255,41226538,41228631,41234592,41243049,41246877,41247939,41249306,41251894,41256278,41256973,41258550,41267796,41276132,41277340

http://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000012048;r=17:43044295-43125483

在ensembl里面关于这个基因的描述如下。

breast cancer 1, early onset [Source:HGNC Symbol;Acc:HGNC:1100]

BRCC1, FANCS, PPP1R53, RNF53

Chromosome 17: 43,044,295-43,125,483 reverse strand.

chromosome:GRCh38:CM000679.2:43044295:43125483:1

This gene has 29 transcripts (splice variants), 63 orthologues, is a member of 4 Ensembl protein families and is associated with 11 phenotypes.

RefSeq Gene ID 672

Uniprot identifiers: P38398

而且ensembl里面可以可视化这个基因的所有信息。

然后简单检索一下关于这个BRCA1基因的文献发表状况，居然多达2111篇文献，看来这个基因很火呀！！！

awk '{if ($1==9606 && $2==672) print }' gene2pubmed |wc

9606 672 1676470

9606 672 2001833

9606 672 2270482

9606 672 4506230

9606 672 7481765

9606 672 7545954

9606 672 7550349

9606 672 7795652

9606 672 7894491

9606 672 7894492

第三列1676470等编号是pubmed数据库的文献编号，可以直接找到关于这个基因的文献发表情况。

而直接在NCBI的pubmed数据库里面可以搜到多达11339篇文献。

esearch -db pubmed -query 'BRCA1'

Esearch这个程序是NCBI提供的，挺好用的，希望大家可以熟悉一下。

esearch -db pubmed -query 'BRCA1' | efetch -format docsum | xtract -pattern DocumentSummary -present Author -and Title -element Id -first "Author/Name" -element Title >BRCA1.pubmed

用这个代码，可以找到所有关于这个BRCA1基因的文献的作者及标题，这样可以统计在这个基因领域的研究者最出名的是谁。

至于这个基因的序列，及其转录本翻译的蛋白我就不列了，太长了，而且占位子

免疫组库igblastn软件的使用

ulwvfje — Thu, 19 Mar 2015 12:56:53 +0000

一：下载安装该软件

软件：NCBI提供的igblastn（linux环境）

需要自己去NCBI的ftp里面下载

ftp://ftp.ncbi.nlm.nih.gov/blast/executables/igblast/release/

要保证igblastn程序文件和以下三个文件夹在同一目录，可以自行下载ncbi的igblast程序，同时要下载这些东西。

其中database根据物种需要自行选择或者自己建库

二：准备数据

输入文件：各个样本经以上步骤处理好的fasta文件

输出文件：得到blast比对结果，一般处理后文件会增大10倍以上

三：运行命令

软件命令：对不同的物种需要不同的库文件，不同的BCR,TCR需要不同的比对策略，好好看说明书

对BCR 对TCR

处理结果如下，每个文件约2.5G大小

我一般是好几个样本一起跑，两百兆的文件需要跑四个小时左右！批处理命令如下，反正一般人也看不懂，就忒给有需求的人！

四：输出文件解读

这个就复杂了，一篇文章根本解释不清楚呀

在我写这篇日志的时候，我后台运行的igblastn程序还在运行，估计明天早上才能跑完

这是我下载的一篇文献里面的数据，可以看到每个fa文件都输出了很大的blast result文件，需要打开一个个解读，略过了，有兴趣的可以联系我私聊。

在我的群里面共享了所有的代码及帖子内容，欢迎加群201161227，生信菜鸟团！

查某个基因家族在某物种的具体信息

ulwvfje — Wed, 18 Mar 2015 14:00:26 +0000

查某个基因家族在某物种的具体信息

我很伤心，不知道是不是我写的教程还是不够人性化，一个朋友在群里面问如何知道NAC基因家族在拟南芥里面的105个基因信息，我随便给他示范了一下在人类里面如何找，希望他能触类旁通，结果他不会linux，啥生信基础都没有，我只会诱导他简单学习一下，希望他至少明白什么的taxid。所以我给了他我之前写的教程，只希望他告诉我拟南芥的taxid我就帮他把那105个基因找出来。

http://www.bio-info-trainee.com/?p=84

结果好半天都不回信息了，我还以为他自己解决了，我礼貌性的再问一次，才知道他没看懂我的教程，我实在不明白，那么通俗的教程为嘛还是不能亲民呢？？？

拟南芥的拉丁名是Arabidopsis thaliana，在NCBI的Taxonomy里面搜索可以看到

然后点击进去

就简单的两个步骤呀，就可以看到taxid的呀！！！

然后我只需要简单一个命令就可以解决题目的问题了！

grep -w NAC gene_info |perl -alne '{print if $F[0] == 3702}'

其中gene_info在NCBI的ftp里面可以下载！！我前面也提到过，是所以物种的基因信息

我只需要查找基因名字是NAC的，然后物种代码是3702的就是他拟南芥的呀！！！

正好105个基因，达到了他的要求！！！

NCBI的taxid简单介绍

ulwvfje — Tue, 10 Mar 2015 14:08:37 +0000

NCBI的taxid简单介绍

物种的信息集合都在它的NCBI的taxid号里面，在NCBI里面关于它的英文介绍地址如下 http://www.ncbi.nlm.nih.gov/guide/taxonomy/ ，NCBI人为的给自然界所有的物种都给了一个编号，这个编号就是taxid，是根据计算机里面树这种数据结构来编码的，其中人类的编号是 9606，7227是果蝇，我们只需要进入这个物种的taxid里面就能看的关于它的一切NCBI存在并且收集好的信息。

可以看到NCBI到2015年为止已经收录近50万的物种的基因。

我们可以进入人类的9606这个ID里面进去看看

http://www.ncbi.nlm.nih.gov/taxonomy/?term=9606[uid]

可以看出，人类这个并不是最底层的taxid类别，下面还有两个分类

关于人类这个物种的信息是非常多的

http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=9606&lvl=3&lin=f&keep=1&srchmode=1&unlock

但是它下面的两个亚种人，就比较少的信息。

关于这个taxid的资料还有很多 ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/

其中我们可以下载 wget ftp://ftp.ncbi.nih.gov/pub/taxonomy/taxdump.tar.gz 这个文件，解压可以看到里面有以下文件，其中比较重要的两个文件

nodes.dmp 这个文件列出了taxid的树的结构信息，子节点，父节点等等

names.dmp 这个文件里面列出了每个独特的taxid对应着的物种名

其它信息不重要，自己看咯

gencode.dmp

-----------

Genetic codes file:

genetic code id -- GenBank genetic code id

abbreviation -- genetic code name abbreviation

name -- genetic code name

cde -- translation table for this genetic code

starts -- start codons for this genetic code

delnodes.dmp

------------

Deleted nodes (nodes that existed but were deleted) file field:

tax_id -- deleted node id

merged.dmp

----------

Merged nodes file fields:

old_tax_id -- id of nodes which has been merged

new_tax_id -- id of nodes which is result of merging

citations.dmp

-------------

Citations file fields:

cit_id -- the unique id of citation

cit_key -- citation key

pubmed_id -- unique id in PubMed database (0 if not in PubMed)

medline_id -- unique id in MedLine database (0 if not in MedLine)

url -- URL associated with citation

text -- any text (usually article name and authors)

-- The following characters are escaped in this text by a backslash:

-- newline (appear as "\n"),

-- tab character ("\t"),

-- double quotes ('\"'),

-- backslash character ("\\").

taxid_list -- list of node ids separated by a single space

NCBI的基因entrez ID相关文件介绍

ulwvfje — Tue, 10 Mar 2015 14:05:29 +0000

NCBI的基因entrez ID相关文件介绍

地址：ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

里面主要有以下几个文件

我这里主要介绍gene2ensembl，gene2accession， gene2pubmed，gene2go，gene_info信息文件，它们的核心连接是gene的entrez ID号，了解了以下文件之后，可以把gene的entrez ID随意转换为ensembl的ID号，也可以随意转为基因名字，或者基因的通路信息。解压之后的大小如下：

一：第一个文件是gene2ensembl

第一列：物种ID号

第二列：gene的entrez ID号

第三列：Ensembl_gene ID号

第四列：RNA的NCBI索取号

第五列：RNA的Ensembl_ ID号

第六列：protein的NCBI索取号

第七列：protein的Ensembl_ ID号

一般，一个gene有多个蛋白

7227是果蝇的物种ID号，30970这个gene ID号对应两个转录本

第二个文件是gene2accession

第一列：物种ID号

第二列：gene的entrez ID号

第三列：status

第四列：RNA_nucleotide_accession.version，RNA_nucleotide_gi

第五列：protein_accession.version ，protein_gi

第六列：genomic_nucleotide_accession.version，genomic_nucleotide_gi

第七列：然后是start和end的pos坐标，还有正负链的标记

第八列:

第三个文件是 gene2pubmed

总共只有三列，分别是物种ID号，gene的entrez ID号，和对应的pubmed ID号

#Format: tax_id GeneID PubMed_ID (tab is used as a separator, pound sign - start of a comment)

其中一个物种里面有多个基因，一个基因会在多篇文献里面都有报道。

第四个文件是gene2go

主要看第三列的GO_ID与第四列的gene_name对应着

#Format: tax_id GeneID GO_ID Evidence Qualifier GO_term PubMed Category

其中一个物种里面有多个基因，一个基因会有多个GO通路

第五个文件是gene_info

主要是连接了gene的entrez ID与基因的俗名及其描述。

其中比较重要的是Homo_sapiens.gene_info 这个文件。