生信菜鸟团 » 基础数据格式

生信技能树论坛-生信基础版块介绍-测序基础

ulwvfje — Thu, 16 Nov 2017 02:01:13 +0000

如果你是最近关注我们，你将又知道一个学习生信的好地方；
如果你是一直关注我们，你肯定对这个地方不陌生；
那就是我们的生信技能树论坛。
本周我们将为大家带来论坛-生信基础版块的介绍。

作者：梅零落

首先是测序基础。
关于我们论坛的介绍，创始人jimmy最近已经给大家做了很详细的说明，详情请看末尾的大写的真诚。让我们使用论坛的搜索，看看这个版块有些什么吧，这里对本版块的帖子简单分了类，所以可以试试在本版搜索以下关键词（如图）…看看有没有你想要的(#^.^#)

大写的真诚

我们非常欢迎有能力、有担当的朋友来参与论坛的建设，有意的朋友请联系我们。
我如何参与生信技能树论坛建设
 如何做好一个版主-系统性的整理一个领域的资料

制作自己的gene set文件给gsea软件

ulwvfje — Thu, 15 Dec 2016 11:43:56 +0000

熟悉GSEA软件的都知道，它只需要GCT,CLS和GMT文件，其中GMT文件，GSEA的作者已经给出了一大堆！就是记录broad的Molecular Signatures Database (MSigDB) 已经收到了18026个geneset，但是我奇怪的是里面竟然没有包括cancer testis的gene set，MSigDB的确是多，但未必全，其实里面还有很多重复。而且有不少几乎没有意义的gene set。那我想做自己的gene set来用gsea软件做分析，就需要自己制造gmt格式的数据。因为即使下载了MSigDB的gene set，本质上就是gmt格式的数据而已：http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#GMT:_Gene_Matrix_Transposed_file_format_.28.2A.gmt.29

我们首先要拿到自己感兴趣的gene set里面的gene list，最好是以hugo规定的标准symbol。

比如我感兴趣的是：http://www.cta.lncc.br/modelo.php

我这里提供一个2列的文件，直接转换成gmt的R代码！

文件来自于：下载最新版的KEGG信息，并且解析好，如下：

首先在R里面赋值一个变量path2gene_file就是图中的kegg2gene.txt文件，读到R里面去

tmp=read.table(path2gene_file,sep="\t",colClasses=c('character'))

#tmp=toTable(org.Hs.egPATH)

# first column is kegg ID, second column is entrez ID

GeneID2kegg_list<<- tapply(tmp[,1],as.factor(tmp[,2]),function(x) x)

kegg2GeneID_list<<- tapply(tmp[,2],as.factor(tmp[,1]),function(x) x)

这个变量kegg2GeneID_list是一个list，因为是entrez gene ID，需要转换成symbol，我就不多说了，转换后的数据，就是kegg2symbol_list 。

最后对 kegg2symbol_list 输出成gmt文件：

write.gmt <- function(geneSet=kegg2symbol_list,gmt_file='kegg2symbol.gmt'){

sink( gmt_file )

for (i in 1:length(geneSet)){

cat(names(geneSet)[i])

cat('\tNA\t')

cat(paste(geneSet[[i]],collapse = '\t'))

cat('\n')

}

sink()

}

gene symbol 中的奇怪开头基因

ulwvfje — Sun, 11 Dec 2016 00:48:20 +0000

这本是我为论坛的基础板块写的一个基础知识点，但是浏览量实在有限，不忍它蒙尘，特在博客重新发布一次！原帖见：http://www.biotrainee.com/thread-511-1-1.html

gene symbol 是非常官方的，由HUGO 组织负责维护，有专门的数据库HGNC database of human gene names | HUGO
以前分析数据的时候，有一些基因的symbol很奇怪，让我百思不得其解，比如
C orf 系列基因，
HS.系列基因，
KRTAP系列基因，
LOC系列基因，
MIR系列基因，
LINC系列基因
它们往往一个系列，就有好几百个基因；
C12orf44; Chromosome 12 Open Reading Frame 44; 这个是C orf系列基因的意思
MIR系列基因应该是 miRNA相关的基因
LINC系列基因应该就是long intergenic non-protein coding RNA
LOC系列基因，是非正式的，推定的，日后可能被更合适的名字替代
我这里做好了所有的基因对应关系，去生信菜鸟团QQ群里下载吧，共47938个基因的symbol和entrez gene id还有name，还有alias的对应!

还有一些RNA基因，根本就没有symbol，比如：CTA/B/C/D系列的
Aliases for ENSG00000271971 Gene
Quality Score for this RNA gene is 1
Aliases for ENSG00000271971 Gene
CTD-2006H14.2 5
External Ids for ENSG00000271971 Gene
Ensembl: ENSG00000271971
还有，如果你看到HS.开头的基因，它是unigene的ID了，已经不再是symbol啦。

TPM值就是RPKM的百分比嘛！

ulwvfje — Mon, 14 Nov 2016 11:34:12 +0000

很久以前就有人问过这个问题啦，虽然目前主流还是用RPKM/FPKM来形容一个基因的表达量。但是既然大家都说TPM更好，我也来探究一下吧！

我不喜欢看公式，直接说事情，我有一个基因A，它在这个样本的转录组数据中被测序而且mapping到基因组了 5000个的reads，而这个基因A长度是10K，我们总测序文库是50M，所以这个基因A的RPKM值是 5000除以10，再除以50，为10. 就是把基因的reads数量根据基因长度和样本测序文库来normalization 。

那么它的TPM值是多少呢？这个时候这些信息已经不够了，需要知道该样本其它基因的RPKM值是多少，加上该样本有3个基因，另外两个基因的RPKM值是5和35，那么我们的基因A的RPKM值为10需要换算成TPM值就是 1,000,000 *10/(5+10+35)=200,000，看起来是不是有点大呀，其实主要是因为我们假设的基因太少了，一般个体里面都有两万多个基因的，总和会大大的增加，这样TPM值跟RPKM值差别不会这么恐怖的。

TPM值就是RPKM的百分比！！！

大家肯定想问，TPM的优点是什么呢？很明显，所有基因的TPM值加起来肯定是1M，因为百分比的总和就是1嘛，与样本无关，各个样本都可以保证TPM库是一样的，这样比较更有意义！！！

我这里没有讲FPKM，大家自己搜索学习吧，没什么意思

最后还是贴上公式吧！

一大波我懒得看的参考资料：

http://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4702322/

https://www.biostars.org/p/88751/

https://www.biostars.org/p/133488/

https://www.biostars.org/p/115674/

终于碰到color space的测序数据啦！

ulwvfje — Thu, 04 Aug 2016 00:23:08 +0000

看了illumina的测序仪市场份额的确很夸张，像我这样在生信数据分析领域身经百战的老鸟，都是直到今天才碰到color space的测序数据。测序平台是AB 5500xl Genetic Analyzer，就是传说中的solid格式。主要是我在学习一篇关于tp53转录因子结合能力的文章的时候碰到的，我查看了下载的数据虽然还是fastq格式，但很诡异，我完全不认识里面的序列。这里总结一下，下面是我的学习过程及思路，有点乱，大家随便看看！

首先：测序仪给的数据应该是 (.csfasta & .qual) 这两个后缀名的文件

然后，可以用脚本把数据转为csfastq格式，与普通fastq数据格式是没有区别，但是里面包含的不是序列，是color的编码。

其次，color space不允许转为base space数据！！！

最后，之所以转为csfastq格式，是为了适应很多软件，fastqc,cutadap，SHRiMP，sequel和BFAST ，bowtie等等

csfastq数据如下，还是四行代表一条read：

@SRR2967009.1 100_1000_1168_F3

T10011023211201220121202030102221012302121010131001

+

2@@@@>@?@@@@<@@//;@@/@9?@8@=@@@6;6@66;<@6@67?2?;/@

@SRR2967009.2 100_1000_1211_F3

T20132312201120021312220200023110220113100012321011

+

@@@@@@@@@<@@@@@@@@@@@@@@@@@@@@@@?@@@@/?@@@@@@@@
@SRR2967009.3 100_1000_1272_F3

T33222002231020000110132110001032232200332111022002

起初，我完全蒙圈了，查了资料才勉强了解。

Generally, in a classic fastq format file, first line is begin with "@", 2nd line is the sequence of reads, 3rd line is a "+" and 4th line is the quality.
However in these fastq files, the sequence of reads are some numbers ("0,1,2,3").

其实这个fastq并不是测序仪的下机数据，测序仪给的数据应该是 (.csfasta & .qual) 这两个后缀名的文件，一般情况下我们需要把SOLid output files (.csfasta & .qual) into an integrated .csfastq file，转为的csfastq就是fastq格式了，但是跟通常的fastq有略微区别

所以我们的fastq里面的不是序列，而是color的编码，Colors may be encoded either as numbers (0=blue, 1=green, 2=orange, 3=red) or as characters A/C/G/T (A=blue, C=green, G=orange, T=red).

>1_53_33_F3
T2213120002010301233221223311331
>1_53_70_F3
T2302111203131231130300111123220
...

Here, T is the primer base. bowtie detects and handles primer bases properly (i.e., the primer base and the adjacent color are both trimmed away prior to alignment) as long as the rest of the read is encoded as numbers.

如果从sra数据库里面下载数据的时候知道是solid的数据，就应该用abi-dump而不是fastq-dump

比如对http://www.ncbi.nlm.nih.gov/sra?term=SRP066824 来说：

首先下载数据并且解压：

for ((i=7009;i<7014;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP066/SRP066824/SRR296$i/SRR296$i.sra;done

因为测序平台是AB 5500xl Genetic Analyzer，就是传说中的solid格式，所以不应该用fastq-dump啦，应该用abi-dump才对！

参考：http://davetang.org/muse/2012/07/04/from-sra-to-fastq-for-solid-data/

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/abi-dump $id;done

解压之后是下面这样：

这样只能转为csfasta格式文件和qual文件，需要下载大名鼎鼎的lh写的一个脚本：wget http://www.bbmriwiki.nl/svn/bwa_45_patched/solid2fastq.pl 来转为fastq格式

程序非常好用：perl solid2fastq.pl SRR2967009_ SRR2967009 即可

也可以用Python程序来做这个转换，http://edison.cremag.org/resources/seq-analysis/tools/solid2fastq/

最后就是输出了fastq格式的 color space的数据，但是我测试了，直接用fastq-dump也可以把数据解压成fastq格式的color space的数据，并不需要那么麻烦的，因为我们不是从测序仪拿数据，而是从SRA数据库里面直接下载。(补充一下，直接用fastq-dump也可以把数据解压成fastq格式跟用abi-dump解压后再转换成csfastq有区别，但是我现在说不清楚区别是什么，建议用abi-dump)

SOLiD native (CSFASTA/QUAL)

All SRA data can be output into color space data. The utility ‘abi-dump’ can be used to output CSFASTA and QUAL data files (with appropriate options, fastq-dump can be used to output “CSFASTQ” format).

SHRiMP，sequel和BFAST 都可以来比对fastq格式的color space的数据，或者直接从 (.csfasta & .qual) 这两个文件开始处理，其实bowtie也可以的。

https://wikis.utexas.edu/display/bioiteam/BFAST

比对后的bam文件，就可以走正常的illumina数据分析流程啦！

转为了fastq格式的color space的数据，就可以直接进行fastqc看看质量控制图片，如果质量很差，可以直接用处理cutadapt等各种软件进行处理，in a .csfasta and a .qual file (this is the native SOLiD format).

参考：http://cutadapt.readthedocs.io/en/stable/colorspace.html

fastqc软件直接处理csfastq格式数据结果如下：

参考：http://seqanswers.com/forums/showpost.php?p=59156&postcount=4

Sequencer reads have a chance of read error (e.g. spot misidentification), combined with a chance of sequence error (e.g. polymerase misread in the PCR step).

For sequencers that output in base space, both these errors have a similar effect on the base-space mapping.

For sequencers that output in color-space, the read errors result in a somewhat unexpected base-space translation even if the underlying sequence has a perfect match to the reference.

The issues relating to color-space to base-space translation were discussed in the thread you linked to, but here's my take on it (dumped from an email I recently sent to someone else):A color-space sequence is an encoding of adjacent dimers such that unchanging bases are encoded with '0', complementary changes are encoded with '3', the colour '1' is used for a non-complementary base change on the same side of the alphabet (AC, CA, GT, or TG), and the colour '2' is used for a non-complementary base change on a different side of the alphabet (AG, GA, CT, or TC). A table of these changes can be found here:
http://www.ploscompbiol.org/article/...i.1000386.g002
This has a few nice properties (e.g. the reverse-complement of a color-space sequence is the same as the reverse of the color-space sequence, a SNP will have two transitions), but many annoying and nasty properties.

The first is that a color-space sequence in itself is meaningless without a base reference (usually the starting base).

芯片探针注释基因ID或者symbol，并对每个基因挑选最大表达量探针

ulwvfje — Tue, 29 Mar 2016 10:14:06 +0000

在R里面实现这个功能其实非常简单，难的是很多packages经常会出现安装问题，更有的人压根不看芯片平台是什么，芯片对应的package是什么，就开始到处发问，自学能力实在是堪忧！

我前面有写目前所有bioconductor支持的芯片平台对应关系：通过bioconductor包来获取所有的芯片探针与gene的对应关系

但那其实是一个很笨的办法，得到所有的各式各样的探针ID与基因的对应关系，以为它绕路了，正常情况只需要在GEO里面找到芯片对应基因关系即可，没必要下载那么多package的，但是这样做的好处也是很明显的，对很多初学者来说，如果package能解决的话，就省心很多，比如下面这个转换关系：

suppressPackageStartupMessages(library(CLL))

## 这个package自带了一个数据，是我们需要用的

data(sCLLex) ## 这个数据里面有24个样本，分成两组，可以直接拿来测试差异基因分析

library(hgu95av2.db) ## 一定要搞清楚自己的芯片是什么数据包

## 常见的芯片平台，都是有对应的bioconductor数据包的

exprSet=exprs(sCLLex) ##得到表达数据矩阵，但是矩阵的行名，是探针ID，无法理解，需要转换

##首先你取出所有的探针ID，#这里可以用三种方法来得到symbol，或者得到entrezID也可以

probeset=rownames(exprSet)

Symbol=as.character(as.list(hgu95av2SYMBOL[probeset]))

#annotate包提供 getSYMBOL( probeset ,"hgu95av2" )

#还可以用lookUp函数 lookUp( probeset , "hgu95av2", "SYMBOL")

#这些只是技巧而已啦

a=cbind.data.frame(Symbol,exprSet)

## 下面这个函数是对每个基因挑选最大表达量探针

rmDupID <-function(a=matrix(c(1,1:5,2,2:6,2,3:7),ncol=6)){

exprSet=a[,-1]

rowMeans=apply(exprSet,1,function(x) mean(as.numeric(x),na.rm=T))

a=a[order(rowMeans,decreasing=T),]

exprSet=a[!duplicated(a[,1]),]

#exprSet=apply(exprSet,2,as.numeric)

exprSet=exprSet[!is.na(exprSet[,1]),]

rownames(exprSet)=exprSet[,1]

exprSet=exprSet[,-1]

return(exprSet)

}

exprSet=rmDupID(a)

对每个基因挑选最大表达量探针，只是一种处理方法而已，只是我一般处理芯片是这样做的，并不一定就是最好的！

基因组各种版本对应关系

ulwvfje — Tue, 15 Mar 2016 11:50:00 +0000

我是受到了SOAPfuse的启发才想到整理各种基因组版本的对应关系，完整版！！！

以后再也不用担心各种基因组版本混乱了，我还特意把所有的下载链接都找到了，可以下载任意版本基因组的基因fasta文件，gtf注释文件等等！！！

首先是NCBI对应UCSC，对应ENSEMBL数据库：

GRCh36 (hg18): ENSEMBL release_52.

GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.

GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

可以看到ENSEMBL的版本特别复杂！！！很容易搞混！

但是UCSC的版本就简单了，就hg18,19,38, 常用的是hg19，但是我推荐大家都转为hg38

看起来NCBI也是很简单，就GRCh36,37,38，但是里面水也很深！

Feb 13 2014 00:00    Directory April_14_2003
Apr 06 2006 00:00    Directory BUILD.33
Apr 06 2006 00:00    Directory BUILD.34.1
Apr 06 2006 00:00    Directory BUILD.34.2
Apr 06 2006 00:00    Directory BUILD.34.3
Apr 06 2006 00:00    Directory BUILD.35.1
Aug 03 2009 00:00    Directory BUILD.36.1
Aug 03 2009 00:00    Directory BUILD.36.2
Sep 04 2012 00:00    Directory BUILD.36.3
Jun 30 2011 00:00    Directory BUILD.37.1
Sep 07 2011 00:00    Directory BUILD.37.2
Dec 12 2012 00:00    Directory BUILD.37.3

可以看到，有37.1, 37.2， 37.3 等等，不过这种版本一般指的是注释在更新，基因组序列一般不会更新！！！

反正你记住hg19基因组大小是3G，压缩后八九百兆即可！！！

如果要下载GTF注释文件，基因组版本尤为重要！！！

对NCBI：ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/ ##最新版（hg38）

ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ ## 其它版本

对于ensembl：

ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz

变幻中间的release就可以拿到所有版本信息：ftp://ftp.ensembl.org/pub/

对于UCSC，那就有点麻烦了：

需要选择一系列参数：

http://genome.ucsc.edu/cgi-bin/hgTables

1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables

2. Select the following options:
clade: Mammal
genome: Human
assembly: Feb. 2009 (GRCh37/hg19)
group: Genes and Gene Predictions
track: UCSC Genes
table: knownGene
region: Select "genome" for the entire genome.
output format: GTF - gene transfer format
output file: enter a file name to save your results to a file, or leave blank to display results in the browser

3. Click 'get output'.

现在重点来了，搞清楚版本关系了，就要下载呀！

UCSC里面下载非常方便，只需要根据基因组简称来拼接url即可：

http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz

http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz

http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz

http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz

或者用shell脚本指定下载的染色体号：

for i in $(seq 1 22) X Y M;
do echo $i;
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;

## 这里也可以用NCBI的：ftp://ftp.ncbi.nih.gov/genomes/M_musculus/ARCHIVE/MGSCv3_Release3/Assembled_Chromosomes/chr前缀
done
gunzip *.gz
for i in $(seq 1 22) X Y M;
do cat chr${i}.fa >> hg19.fasta;
done
rm -fr chr*.fasta

用R获取芯片探针与基因的对应关系三部曲-bioconductor

ulwvfje — Mon, 15 Feb 2016 15:41:55 +0000

现有的基因芯片种类不要太多了！

但是重要而且常用的芯片并不多！

一般分析芯片数据都需要把探针的ID切换成基因的ID，我一般喜欢用基因的entrez ID。

一般有三种方法可以得到芯片探针与gene的对应关系。

金标准当然是去基因芯片的厂商的官网直接去下载啦！！！

一种是直接用bioconductor的包

一种是从NCBI里面下载文件来解析好！

首先，我们说官网，肯定可以找到，不然这种芯片出来就没有意义了！

然后，我们看看NCBI下载的，会比较大

http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL6947

这两种方法都比较麻烦，需要一个个的来！

所以我接下来要讲的是用R的bioconductor包来批量得到芯片探针与gene的对应关系！

一般重要的芯片在R的bioconductor里面都是有包的，用一个R包可以批量获取有注释信息的芯片平台，我选取了常见的物种，如下：

gpl           organism                  bioc_package

1     GPL32       Mus musculus                        mgu74a

2     GPL33       Mus musculus                        mgu74b

3     GPL34       Mus musculus                        mgu74c

6     GPL74       Homo sapiens                        hcg110

7     GPL75       Mus musculus                     mu11ksuba

8     GPL76       Mus musculus                     mu11ksubb

9     GPL77       Mus musculus                     mu19ksuba

10    GPL78       Mus musculus                     mu19ksubb

11    GPL79       Mus musculus                     mu19ksubc

12    GPL80       Homo sapiens                        hu6800

13    GPL81       Mus musculus                      mgu74av2

14    GPL82       Mus musculus                      mgu74bv2

15    GPL83       Mus musculus                      mgu74cv2

16    GPL85  Rattus norvegicus                        rgu34a

17    GPL86  Rattus norvegicus                        rgu34b

18    GPL87  Rattus norvegicus                        rgu34c

19    GPL88  Rattus norvegicus                         rnu34

20    GPL89  Rattus norvegicus                         rtu34

22    GPL91       Homo sapiens                      hgu95av2

23    GPL92       Homo sapiens                        hgu95b

24    GPL93       Homo sapiens                        hgu95c

25    GPL94       Homo sapiens                        hgu95d

26    GPL95       Homo sapiens                        hgu95e

27    GPL96       Homo sapiens                       hgu133a

28    GPL97       Homo sapiens                       hgu133b

29    GPL98       Homo sapiens                     hu35ksuba

30    GPL99       Homo sapiens                     hu35ksubb

31   GPL100       Homo sapiens                     hu35ksubc

32   GPL101       Homo sapiens                     hu35ksubd

36   GPL201       Homo sapiens                       hgfocus

37   GPL339       Mus musculus                       moe430a

38   GPL340       Mus musculus                     mouse4302

39   GPL341  Rattus norvegicus                       rae230a

40   GPL342  Rattus norvegicus                       rae230b

41   GPL570       Homo sapiens                   hgu133plus2

42   GPL571       Homo sapiens                      hgu133a2

43   GPL886       Homo sapiens                     hgug4111a

44   GPL887       Homo sapiens                     hgug4110b

45  GPL1261       Mus musculus                    mouse430a2

49  GPL1352       Homo sapiens                       u133x3p

50  GPL1355  Rattus norvegicus                       rat2302

51  GPL1708       Homo sapiens                     hgug4112a

54  GPL2891       Homo sapiens                       h20kcod

55  GPL2898  Rattus norvegicus                     adme16cod

60  GPL3921       Homo sapiens                     hthgu133a

63  GPL4191       Homo sapiens                       h10kcod

64  GPL5689       Homo sapiens                     hgug4100a

65  GPL6097       Homo sapiens               illuminaHumanv1

66  GPL6102       Homo sapiens               illuminaHumanv2

67  GPL6244       Homo sapiens   hugene10sttranscriptcluster

68  GPL6947       Homo sapiens               illuminaHumanv3

69  GPL8300       Homo sapiens                      hgu95av2

70  GPL8490       Homo sapiens   IlluminaHumanMethylation27k

71 GPL10558       Homo sapiens               illuminaHumanv4

72 GPL11532       Homo sapiens   hugene11sttranscriptcluster

73 GPL13497       Homo sapiens         HsAgilentDesign026652

74 GPL13534       Homo sapiens  IlluminaHumanMethylation450k

75 GPL13667       Homo sapiens                        hgu219

76 GPL15380       Homo sapiens      GGHumanMethCancerPanelv1

77 GPL15396       Homo sapiens                     hthgu133b

78 GPL17897       Homo sapiens                     hthgu133a

这些包首先需要都下载

gpl_info=read.csv("GPL_info.csv",stringsAsFactors = F)

### first download all of the annotation packages from bioconductor

for (i in 1:nrow(gpl_info)){

  print(i)

  platform=gpl_info[i,4]

  platform=gsub('^ ',"",platform) ##主要是因为我处理包的字符串前面有空格

  #platformDB='hgu95av2.db'

  platformDB=paste(platform,".db",sep="")

  if( platformDB  %in% rownames(installed.packages()) == FALSE) {

    BiocInstaller::biocLite(platformDB)

    #source("http://bioconductor.org/biocLite.R");

    #biocLite(platformDB )

  }

}

下载完了所有的包，就可以进行批量导出芯片探针与gene的对应关系！

for (i in 1:nrow(gpl_info)){

  print(i)

  platform=gpl_info[i,4]

  platform=gsub('^ ',"",platform)

  #platformDB='hgu95av2.db'

  platformDB=paste(platform,".db",sep="")

  if( platformDB  %in% rownames(installed.packages()) != FALSE) {

    library(platformDB,character.only = T)

    #tmp=paste('head(mappedkeys(',platform,'ENTREZID))',sep='')

    #eval(parse(text = tmp))

###重点在这里，把字符串当做命令运行

    all_probe=eval(parse(text = paste('mappedkeys(',platform,'ENTREZID)',sep='')))

    EGID <- as.numeric(lookUp(all_probe, platformDB, "ENTREZID"))

##自己把内容写出来即可

  }

}

参考：http://blog.sina.com.cn/s/blog_62b37bfe0101jbuq.html

拷贝数变异检测芯片介绍

ulwvfje — Wed, 06 Jan 2016 01:00:08 +0000

这里的拷贝数变异检测芯片指的是Affymetrix Genome-Wide Human SNP Array 6.0

cel数据，需要处理成segment及genotype数据

这个芯片在TCGA计划里面用的非常多，是标配了。大家只要记住，这是一个跟拷贝数变异检测相关的芯片，而且还可以测一些genotype

Affymetrix Genome-Wide Human SNP Array 6.0是唯一可以真正将CNP(拷贝数多态性)转化成高分辨率的参考图谱的平台。主要应用领域包括全基因组SNP分型、全基因组CNV分型、全基因组关联分析、全基因组连锁分析。除了进行基因分型外，还为拷贝数研究和LOH研究提供帮助，从而能够进行：UPD检测、亲子鉴定、异常的亲代起源分析（针对 UPD和缺失）、纯合性分析、血缘关系鉴定。

参考：http://www.affymetrix.com/support/technical/byproduct.affx?product=genomewidesnp_6

SNP Array 6.0是昂飞公司继Mapping10k、100k、500k和SNP5.0芯片后推出的新一代SNP芯片。在一张芯片上可以分析一个样本906,600 个SNP的基因型, 大约有482，000个SNP来自于前代产品500K和SNP5.0芯片。剩下424，000个SNP包括了来源于国际HapMap计划中的标签 SNP，X，Y染色体和线粒体上更具代表性的SNP,以及来自于重组热点区域和500K芯片设计完成后新加入dbSNP数据库的SNP。该芯片同时含 946,000个非多态性CNV探针，用于检测拷贝数变异，其中202,000个用于检测5677个已知拷贝数变异区域的探针，这些区域来源于多伦多基因组变异体数据库。该数据库中每隔3,182个非重叠片段区域分别用61个探针来检测。除了检测这些已知的拷贝数多态区域，还有超过744,000个探针平均分配到整个基因组上，用来发现未知的拷贝数变异区域。SNP和CNV两种探针高密度且均匀地分布在整个基因组，作为拷贝数变异和杂合性缺失(LOH)检测的工具来发现微小的染色体增加和缺失。为广大生命科学研究者提高发现复杂疾病相关基因的可能提供了强有力的工具。
通过与哈佛大学合办的Broad研究所合作，SNP6.0芯片在数据准确性和一致性方面达到了新的高度。相应推出的Genotyping Console用来处理SNP6.0芯片数据和全基因组遗传分析及质量控制。

产品特点：

1.涵盖超过1,800,000个遗传变异标志物：包括超过906,600个SNP和超过946,000个用于检测拷贝数变化（CNV，Copy Number Variation）的探针；

2.SNP和CNV两种探针高密度且均匀地分布在整个基因组，不仅可以用于SNP基因精确分型，还可用于拷贝数变异CNV的研究；

3.744,000个探针平均分配到整个基因组上，用来发现未知的拷贝数变异区域；

4.可用于Copy-neutral LOH/UPD检测，亲子鉴定，纯合性分析、血缘关系鉴定、遗传病或其它疾病的研究。

参考：http://www.biomart.cn/specials/cnv2014/article/84169

在NCBI的GEO数据库里面可以查到这个芯片，已经有一万多个样本数据啦!

图中第一个是CCLE计划的近千个样本，可能是定制化了的snp6.0芯片吧

使用这个芯片数据来发文章的非常多，见列表：http://media.affymetrix.com/support/technical/other/snp6_array_publications.pdf

还有一篇2010-nature文章讲了如何用picnic来研究cnv，http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3145113/

也有一篇2010年的文章提出了新的软件来分析这个芯片cnv数据http://bioinformatics.oxfordjournals.org/content/26/11/1395.long

实现同样功能的软件，非常之多，还有一个R的bioconductor系列的包

http://www.bioconductor.org/help/search/index.html?q=cnv/

随便进去都可以找到很多raw data，可以自己进行分析的！

http://www.ncbi.nlm.nih.gov/geo/browse/?view=samples&platform=6801

比如：ftp://ftp.ncbi.nlm.nih.gov/geo/samples/GSM1949nnn/GSM1949207/suppl/GSM1949207%5FSB%5FCID0102B%5F071708%2ECEL%2Egz

liftover基因组版本直接的coordinate转换

ulwvfje — Mon, 07 Sep 2015 02:27:39 +0000

下载地址:http://hgdownload.cse.ucsc.edu/admin/exe/

我一般是使用linux版本的：wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/liftOver

使用方法:【从hg38转到hg19】

因为主流的基因组版本还是hg19，但是时代在进步，已经有很多信息都是以hg38的形式公布出来的了。

比如，我下载了pfam.df这个protein domain注释文件，对人的hg38基因组每个坐标都做了domain注释，数据形式如下：

查看文件内容head pfam.hg38.df ，如下：

PFAMID chr start end strand

Helicase_C_2 chr1 12190 12689 +

7tm_4 chr1 69157 69220 +

7TM_GPCR_Srsx chr1 69184 69817 +

7tm_1 chr1 69190 69931 +

7tm_4 chr1 69490 69910 +

7tm_1 chr1 450816 451557 -

7tm_4 chr1 450837 451263 -

EPV_E5 chr1 450924 450936 -

7TM_GPCR_Srsx chr1 450927 451572 -

我想把domain的起始终止坐标转换成hg19的，就必须要借助UCSC的liftover这个工具啦

这个工具需要一个坐标注释文件 http://hgdownload-test.cse.ucsc.edu/goldenPath/hg38/liftOver/

我这里需要下载的是http://hgdownload-test.cse.ucsc.edu/goldenPath/hg38/liftOver/hg38ToHg19.over.chain.gz

而且它只能对bed等符合要求的格式进行转换

http://www.ensembl.org/info/website/upload/bed.html

示例如下：

chr7  127471196  127472363  Pos1  0  +  127471196  127472363  255,0,0
chr7  127472363  127473530  Pos2  0  +  127472363  127473530  255,0,0

很简单的，把自己的文件随便凑几列信息，做成这个9列的格式即可

cat pfam.hg38.df |sed 's/\r//g' |awk '{print $2,$3,$4,$1,0,$5,$3,$4,"255,0,0"}' >pfam.hg38.bed

这样就有了足够的文件可以进行坐标转换啦，转换的命令非常简单！

chmod 777 liftOver

./liftOver pfam.hg38.bed hg38ToHg19.over.chain pfam.hg19.bed unmap

然后运行成功了会有提示，报错一般是你的格式不符合标准bed格式，自己删掉注释行等等不符合的信息即可

Reading liftover chains

Mapping coordinates

转换后，稍微检查一下就可以看到坐标的确发生了变化，当然，我们只需要看前面几列信息即可

grep -w p53 *bed

pfam.hg19.bed:chr11 44956439 44959858 p53-inducible11 0 - 44956439 44959858 255,0,0

pfam.hg19.bed:chr11 44956439 44959767 p53-inducible11 0 - 44956439 44959767 255,0,0

pfam.hg19.bed:chr2 669635 675557 p53-inducible11 0 - 669635 675557 255,0,0

pfam.hg19.bed:chr22 35660826 35660982 p53-inducible11 0 + 35660826 35660982 255,0,0

仔细看看坐标是不是变化啦！

pfam.hg38.bed:chr11 44934888 44938307 p53-inducible11 0 - 44934888 44938307 255,0,0

pfam.hg38.bed:chr11 44934888 44938216 p53-inducible11 0 - 44934888 44938216 255,0,0

pfam.hg38.bed:chr2 669635 675557 p53-inducible11 0 - 669635 675557 255,0,0

pfam.hg38.bed:chr22 35264833 35264989 p53-inducible11 0 + 35264833 35264989 255,0,0

其实R里面的bioconductor系列包也可以进行坐标转换 http://www.bioconductor.org/help/workflows/liftOver/

这个可以直接接着下载pfam.df数据库来做下去。更方便一点。

我的数据如下，需要自己创建成一个GRanges对象

library(GenomicRanges)

pfam.hg38 <- GRanges(seqnames=Rle(a[,2]),
               ranges=IRanges(a[,3], a[,4]),
               strand=a[,5])

这样就OK拉，虽然这只是一个很简陋的GRanges对象，但是这个GRanges对象可以通过R的liftover方法来转换坐标啦。

library(rtracklayer)
ch = import.chain("hg38ToHg19.over.chain")

pfam.hg19 = liftOver(pfam.hg38, ch)

pfam.hg19 =unlist(pfam.hg19)

再把这个转换好的pfam.hg19 写出即可

参考：http://www.zilhua.com/906.html

生信菜鸟团 » 基础数据格式

生信技能树论坛-生信基础版块介绍-测序基础

关键词：生信人

关键词：数据库

关键词：测序

关键词：基因

关键词：格式

关键词：NGS

其他（未分类）