生信菜鸟团 » 变异

找变异的流程

ulwvfje — Mon, 30 Oct 2017 02:55:56 +0000

找变异简单点说，就是把高通量测序得到的成千上万条序列片段比对到合适的参考基因组，找到那些成

功比对的片段与参考基因组的微小差异情况。那么就涉及到存储测序数据的fastq数据格式，比对的工具，比对后的sam格式，找微小差异的工具，差异结果的vcf文件，每个步骤的软件选择，参数调整。当然，最重要的是走通整个流程，明白自己在做什么。

一个模拟项目

首先下载X,Y染色体的fasta序列，在UCSC上面下载即可。
然后把X染色体构建bwa的索引
接着模拟一个Y染色体的测序数据，模拟的程序很简单,模拟Y染色体的测序片段（PE100，insert400）
然后把模拟测序数据比对到X染色体的参考，统计一下比对结果。
最后对比对成功的bam文件进行找变异位点。

代码如下：

## 源代码方式安装 bwa-0.7.15 
## conda安装samtools
cd tmp/chrX_Y/hg19/
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrX.fa.gz 
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chrY.fa.gz 
gunzip chrX.fa.gz
gunzip chrY.fa.gz
~/biosoft/bwa/bwa-0.7.15/bwa index chrX.fa
perl simulate.pl chrY.fa ## 这个perl脚本在 http://www.bio-info-trainee.com/wp-content/uploads/2015/10/tmp.png 
~/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M chrX.fa read*.fa >read.sam
samtools view -bS read.sam >read.bam
samtools flagstat read.bam
samtools sort -@ 5 -o read.sorted.bam read.bam
samtools view -h -F4 -q 5 read.sorted.bam |samtools view -bS|samtools rmdup - read.filter.rmdup.bam
samtools index read.filter.rmdup.bam
samtools mpileup -ugf ~/tmp/chrX_Y/hg19/chrX.fa read.filter.rmdup.bam |bcftools call -vmO z -o read.bcftools.vcf.gz
## 把fa/bam/vcf 载入到 IGV 进行可视化，截图其中一个变异位点
## 参考 http://www.biotrainee.com/thread-696-1-1.html

变异寻找的流程

完整的流程可以很复杂：

仅是上变异寻找流程就可以很复杂：

来自于2017年发表于BMC Bioinformatics的文章 MC-GenomeKey: a multicloud system for the detection and annotation of genomic variants

【直播】我的基因组（十二）:先粗略看看几个基因吧

ulwvfje — Fri, 09 Dec 2016 01:05:47 +0000

昨天我们说到，测序得到的fastq文件map到基因组之后，我们通常会得到一个sam或者bam为扩展名的文件。SAM的全称是sequence alignment/map format，而BAM就是SAM的二进制文件。通常sam文件太大，我们会生成bam文件来节省空间。sam文件和bam文件的转换用samtools这个软件就可以完成。

samtools view -h abc.bam > abc.sam
samtools view -b -S abc.sam > abc.bam

我们已经拿到了bam文件，我这里就先用公司给我的bam文件吧，根据我的帖子：仅仅对感兴趣的基因call variation ，可以先了解几个比较有趣的基因的变异情况。我自己呢，对以下几个位点和基因比较感兴趣，就用他们来讲一下今天的内容吧！

1.STAT4上的rs7574865和HLA-DQ的 rs9275319是中国人群中乙型肝炎病毒（HBV）相关肝细胞癌（HCC）遗传易感基因

2.V1aR基因是雄性标志性出轨基因。

3.GLI3和PAX1基因控制鼻孔的大小，而RUNX2基因控制鼻梁的宽度。DCHS2基因调控鼻子的突起程度，即决定鼻尖是否朝上和鼻尖的角度，或者说它决定了你的鼻子是否迷人挺拔。

4.肥胖有关的基因FTO（Fat Mass and Obesity Associated），最近发现了调控肥胖（主要是脂肪燃烧）的基因是IRX3 和IRX5。大约100个基因位点与BMI(身体质量指数)相关，600个基因位点与身高相关，160个基因位点与肥胖特征如腰臀比相关。6个新基因位点，这些位点位于LEMD2、CD47、GANAB、RPS6KA5/C14orf159、ANP32和ARL15基因内或周围。

那，我们就先关注这几个基因吧（不要问我为什么(-_-メ)　）。

首先找到这些基因的坐标，看到如下：

其中V1aR基因这个雄性标志性出轨基因，在标准的基因命名系统里面其实是AVPR1A：http://www.genecards.org/cgi-bin/carddisp.pl?gene=AVPR1A ，这里面涉及到HUGO symbol的概念，这个genecard数据库也非常赞，基因相关信息都可以在这里面查找的。

有了这些坐标信息，我们就进入我们的基因组工作目录：

cd data/project/myGenome/

然后把坐标文件做好

因为公司给我的bam文件里面，用的参考基因组是GRCh37而不是hg19(两者区别在于chr是否标记)，我们还是需要下载；

cd ~/reference

mkdir -p genome/human_g1k_v37 && cd genome/human_g1k_v37

# http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/

nohup wget http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.gz &

gunzip human_g1k_v37.fasta.gz

wget http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.fai

wget http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/README.human_g1k_v37.fasta.txt

然后回到基因组工作目录，保证bam文件在上图中bamFiles那个目录，然后用下面这个脚本，批量提取我们感兴趣的基因的变异情况：

cat key_gene.list |while read id;

do

chr=$(echo $id |cut -d" " -f 1|sed 's/chr//' )

start=$(echo $id |cut -d" " -f 2 )

end=$(echo $id |cut -d" " -f 3 )

gene=$(echo $id |cut -d" " -f 4 )

echo $chr:$start-$end $gene

samtools mpileup -r $chr:$start-$end -ugf ~/reference/genome/human_g1k_v37/human_g1k_v37.fasta bamFiles/P_jmzeng.final.bam | \

bcftools call -vmO z -o $gene.vcf.gz

done

等三分钟就好了，结果如下：

前面我们说到有研究表明STAT4上的rs7574865和HLA-DQ的 rs9275319是国人群中乙型肝炎病毒（HBV）相关肝细胞癌（HCC）遗传易感基因，那么我们很容易去dbSNP数据库或者我最近强烈推荐的snpedia数据库（吐血推荐snpedia数据库，非常丰富的snp信息记录）里面找到它的坐标。

6 32666295 :Rs9275319--HLA-DQ

2 191964633 :Rs7574865--STAT4

然后我检查了我刚才call到的variation文件，

zcat STAT4.vcf.gz |grep -w 191964633 显示为空。

zcat HLA-DQ* |grep 32666295 也是空。

哈哈，我完美的错过了这两个易感位点！！！！谢天谢地！！！

其余的我就不讲了，毕竟会涉及到隐私，我就讲这个方法吧！

文：Jimmy、吃瓜群众

图文编辑：吃瓜群众

【直播】我的基因组（七）:从整体理解全基因组测序数据的变异位点

ulwvfje — Wed, 23 Nov 2016 02:08:00 +0000

首先记住一个很重要的知识点，变异是相对的！

简单说一下什么是找变异，变异跟突变有什么区别呢？举个栗子：有国际组织规定了人类的参考基因组（如UCSC,ENSEMBL,NCBI等，前面帖子都有讲)，就是 AAAAA(这里简化一下，就5个碱基，其实人类基因组多达30亿个) 。现在通过给自己测序得知，我与之对应的是AGCAA，那么我相比国际基因组来说，就是2个变异位点，位于基因组的坐标2和3，但是它们还不能说就是突变。

如第二位碱基，虽然我的是G，参考基因组是A，但是全球已经测序了几百万人，而我查看了他们的测序结果，其中99万人都是G，这说明是参考基因组出现了问题，可能是国际组织当年恰好选择了一个人是A，所以就规定第二个碱基是A。所以虽然我用软件找到了我的这个位点相对于参考基因组是来说，是一个变异，但是这恰好是好事，完全不用担心，我们也不需要用突变这个单词来描述它！

那么接下来看第3位碱基，同样，国际组织规定了是A，而我却测了个C，但是全球已经公布的一百万人里面99.999万人都跟参考一样，就是A。有一个人和参考基因组对应的碱基不一样，不一样的那个人是个有病的患者，这个时候，你就惨了，这个变异，就是突变了！

很多变异其实只是造成人种多样性的原因，是构成人独特性的基础，而那些跟疾病相关的变异，我们通常就会叫做是突变！因我我只举了2个极端的例子，所以大家可能会误以为，跟大多数人一样，就没事了！其实也并不是这样，一般来说，在正常人的数据库里面出现了5%的变异就可以认为没什么大的危害，而且变异还可以分成germline、somatic、de novo等情况，如果是特定性的针对某种疾病还可以找driver的mutation，但总之，我们得先找到自己的测序数据跟国际规定的参考基因组有什么区别（变异）吧！

变异分成4种，即snv、indel、cnv、sv，大部分情况下只能分析到SNV，另外3个要么不准确，要么有点难度！

bwa软件的作者，大名鼎鼎的 Heng Li给出的流程如下： http://www.htslib.org/workflow/

根据Heng Li的博客自己也完成过几十个外显子数据的找变异分析，其中还包括一个自闭症家系的分析，通过与参考基因组比较找到变异并不难，但是如何给找到的几万到几百万个变异一个合理的解释才是问题所在。

我当初的流程如下:(http://www.bio-info-trainee.com/1114.html)

第一步，下载数据第二步，bwa比对

第三步，sam转为bam，并sort好

第四步，标记PCR重复，并去除

第五步，产生需要重排的坐标记录

第六步，根据重排记录文件把比对结果重新比对

第七步，把最终的bam文件转为mpileup文件

第八步，用bcftools 来call snp

第九步，用freebayes来call snp

第十步，用gatk来call snp

第十一步，用varscan来call snp

本次处理全基因组数据我也准备走同样的流程，因为找到变异并不是重点，即使中间有什么不妥，我们也可以随时回过头来看看问题出在哪里！

其中需要安装的软件及参考基因组及注释文件在我之前的文章里都提到了。

大家可以简单用下面的代码处理一下KPGP0001这个个体的全基因组测序数据，如下：

ls *gz |xargs ~/biosoft/fastqc/FastQC/fastqc -t 10for i in $(seq 1 6) ;do (nohup ~/biosoft/bwa/bwa-0.7.15/bwa mem -t 5 -M ~/reference/index/bwa/hg19 KPGP-00001_L${i}_R1.fq.gz KPGP-00001_L${i}_R2.fq.gz 1>KPGP-00001_L${i}.sam 2>KPGP-00001_L${i}.bwa.align.log &);done

for i in $(seq 1 6) ;do (nohup samtools sort -@ 5 -o KPGP-00001_L${i}.sorted.bam KPGP-00001_L${i}.sam &);done

for i in $(seq 1 6) ;do (nohup samtools index KPGP-00001_L${i}.sorted.bam &);done

samtools merge KPGP-00001.merge.bam *.sorted.bam

samtools sort -@ 50 -O bam -o KPGP-00001.sorted.merge.bam KPGP-00001.merge.bam

samtools index KPGP-00001.sorted.merge.bam

for i in $(seq 1 6) ;do ( samtools flagstat KPGP-00001_L${i}.sorted.bam >KPGP-00001_L${i}.flagstat.txt );done

有学者处理了Korean Personal Genomes Project (KPGP)中的 35 Korean genomes里面的WGS数据，文章中用了两套SNV calling流程来处理：http://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-15-S11-S6 流程如下，大家可以进行一下参考。

请扫描以下二维码关注我们，获取直播系列的所有帖子！

根据dbSNP的ID来转换成HGVS突变表示形式

ulwvfje — Sun, 10 Apr 2016 01:11:47 +0000

dbSNP的ID直接在NCBI的dbSNP官网可以看到详细介绍，现在已经更新到146版本了，一般人看到一个ID肯定什么信息都获取不到，毕竟这只是人家NCBI规定的一个ID而已。但是HGVS突变形式就有非常详细的信息了。

人类基因组变异协会（HGVS）官方组织规定了mutation该如何记录：http://www.hgvs.org/mutnomen/recs.html 推荐大家都仔细阅读！！！

还有一个程序是根据染色体坐标来得到HGVS突变形式：https://github.com/counsyl/hgvs 这个有点复杂，我们先不讲！

其实YouTube上面有视频教程(BioMart: Variation IDs to HGNC Symbols)，考虑到大部分都无法翻墙，我这里给出一个取巧的解决办法！

取巧的办法就是，根据RS ID号直接组合域名，一下三种方式均可！

http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=rs1800234

http://www.ncbi.nlm.nih.gov/snp/1800234

http://browser.1000genomes.org/Homo_sapiens/Variation/Explore?v=rs1800234

下面详细讲解三种方式的返回结果：

直接爬取dbSNP的返回数据，提取对应的：

比如：http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=rs1800234

很明显就能看到：

HGVS Names
NC_000022.10:g.46615880T>C NC_000022.11:g.46219983T>C NG_012204.1:g.74382T>C NM_001001928.2:c.680T>C NM_005036.4:c.680T>C NP_001001928.1:p.Val227Ala NP_005027.2:p.Val227Ala XM_005261653.1:c.680T>C XM_005261654.1:c.680T>C XM_005261655.1:c.680T>C

你只需要根据你自己想搜索的ID号来组合一个url

http://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=rs197278

等等~~~~~~~~~~

或者直接在NCBI的snp页面根据ID来搜索：

http://www.ncbi.nlm.nih.gov/snp/1800234

AACATGAACAAGGTCAAAGCCCGGG[A/C/T]CATCCTCTCAGGAAAGGCCAGTAAC

Chromosome:: 22:46219983
Gene:: PPARA (GeneView)
Functional Consequence:: intron variant,missense
Validated:: by 1000G,by cluster,by frequency
Global MAF:: C=0.0170/85
HGVS:: NC_000022.10:g.46615880T>C, NC_000022.11:g.46219983T>C, NG_012204.1:g.74382T>C, NM_001001928.2:c.680T>C, NM_005036.4:c.680T>C, NP_001001928.1:p.Val227Ala, NP_005027.2:p.Val227Ala, XM_005261653.1:c.680T>C, XM_005261654.1:c.680T>C, XM_005261655.1:c.680T>C, XM_005261655.2:c.680T>C, XM_005261656.1:c.680T>C, XM_005261656.2:c.680T>C, XM_005261657.1:c.680T>C, XM_005261658.1:c.680T>C, XM_006724269.2:c.680T>C, XM_006724270.2:c.680T>C, XM_011530239.1:c.680T>C, XM_011530240.1:c.680T>C, XM_011530241.1:c.680T>C, XM_011530242.1:c.680T>C, XM_011530243.1:c.680T>C, XM_011530244.1:c.278T>C, XM_011530245.1:c.278T>C, XP_005261710.1:p.Val227Ala, XP_005261711.1:p.Val227Ala, XP_005261712.1:p.Val227Ala, XP_005261713.1:p.Val227Ala, XP_005261714.1:p.Val227Ala, XP_005261715.1:p.Val227Ala, XP_006724332.1:p.Val227Ala, XP_006724333.1:p.Val227Ala, XP_011528541.1:p.Val227Ala, XP_011528542.1:p.Val227Ala, XP_011528543.1:p.Val227Ala, XP_011528544.1:p.Val227Ala, XP_011528545.1:p.Val227Ala, XP_011528546.1:p.Val93Ala, XP_011528547.1:p.Val93Ala, XR_244379.1:n.735+1578T>C, XR_937869.1:n.827+1578T>C, XR_937870.1:n.822+1582T>C

PubMed Protein3D

还有很多其它类似的数据库都提供类似的服务：

比如Ensembl提供的千人基因组计划的接口：

http://browser.1000genomes.org/Homo_sapiens/Variation/Explore?v=rs1800234

This variation has 11 HGVS names - click the plus to show

22:g.46615880T>C
ENST00000493286.1:n.890T>C
ENST00000262735.5:c.680T>C
ENSP00000262735.5:p.Val227Ala
ENST00000396000.2:c.680T>C
ENSP00000379322.2:p.Val227Ala
ENST00000434345.2:c.508+1582T>C
ENST00000407236.1:c.680T>C
ENSP00000385523.1:p.Val227Ala
ENST00000402126.1:c.680T>C
ENSP00000385246.1:p.Val227Ala

华盛顿大学把所有的变异数据都用自己的方法注释了一遍，然后提供下载

ulwvfje — Thu, 14 Jan 2016 12:16:34 +0000

华盛顿大学把所有的变异数据都用自己的方法注释了一遍，然后提供下载：

文献是：Kircher M, Witten DM, Jain P, O'Roak BJ, Cooper GM, Shendure J.

A general framework for estimating the relative pathogenicity of human genetic variants.
Nat Genet. 2014 Feb 2. doi: 10.1038/ng.2892.
PubMed PMID: 24487276.

文中的观点是：现在大多的变异数据注释方法都非常单一，通常是看看该位点是否保守，对蛋白功能的改变，在什么domain上面等等。

但这样是远远不够的，所以他们提出了一个新的注释方法，用他们自己的CADD方法把现存的一些公共数据库的变异位点（约86亿的位点）都注释了一下，并对每个位点进行了打分。

C scores correlate with allelic diversity, annotations of functionality, pathogenicity, disease severity, experimentally measured regulatory effects and complex trait associations, and they highly rank known pathogenic variants within individual genomes.

总之，他们的方法是无与伦比的！

所有他们已经注释好的数据下载地址是：http://cadd.gs.washington.edu/download

这些数据在很多时候非常有用，尤其是想跟自己得到的突变数据做交叉验证，或者做一下统计分析的时候！

人的基因组才300亿个位点，他们就注释了86亿！！！

所以有三百多G的压缩包数据，我想，一般的公司或者单位都不会去用这个数据了！