生信菜鸟团 » 直播

【直播】我的基因组22：用IGV查看具体某个位点是否变异

ulwvfje — Mon, 19 Dec 2016 05:11:40 +0000

下载IGV和导入文件的方法我就不多说了，可以直接在windows平台下使用，就跟你操作QQ一样，自己摸索就好了！

著名芬兰运动员Eero Mäntyranta，他拿过七枚奥运奖牌。他的血红细胞远超正常人水平，甚至一度被奥组委误以为服用了禁药。后来经过研究发现，他的EPOR基因上的一个位点rs121918116，发生了一个G>A的变异，使得他的血氧含量达到了普通人的150%，所以他耐力惊人。

在snpPedia里面可以查看这个位点的信息：http://snpedia.com/index.php/Rs121918116

rs121918116, also known as c.1317G>A, p.Trp439Ter or W439X,is a rare mutation in the EPOR erythropoietin receptor gene on chromosome 19.

看得出来这个变异造成了EPOR基因翻译的蛋白的氨基酸的改变，对EPOR基因的功能是有影响的

在dbSNP里面可以查看它在人的hg19坐标系的定位是chr19:11488870

(https://www.ncbi.nlm.nih.gov/SNP/snp_ref.cgi?rs=121918116)

前面我们已经把55G的bam文件按照染色体拆分了，那么我们就在IGB里面直接打开我们的19号染色体的bam文件来查看这个位点吧！

首先在坐标输入框里面输入EPOR基因，可以定位到整个基因，看看基因的全景。

然后输入具体的坐标：

可以看到，我的这个位点，跟参考基因组这个位点的碱基是一模一样的，唉，看来我是没有传说中的运动天赋了。可是我觉得我跳远跳高都还不错呀。(大学记录，立定跳远是2.6米)

(当然，没有这个变异位点其实也是好事，所谓的运动天赋其实是一种病——家族性良性红细胞增多症，这种病会导致人脸红（可能关羽也有这种病，千里走单骑，耐力超好）、嗜睡、容易头痛。)

理论上这种方法可以把我的全基因组数据全部check一遍，这样就知道每个位点是否跟参考基因组不一致了，但是这个工作量太大了，我们作为数据分析人员不会选择这种方式，而是用已经被公认的软件来批量处理。后面我们会讲到，但是软件得到的变异情况，如果某个位点非常重要，推荐用IGV加载bam文件，然后定位到具体的坐标来仔细检查。

比如下面，可以大体上看到RGL3这个基因跟hg19参考基因组不同的地方还真不少，但是呢，这些variation真的影响健康吗？意义大吗？这就需要后面来具体探讨了。

也可以顺便看看第12讲提到的两个rs位点：

6 32666295 :Rs9275319--HLA-DQ

2 191964633 :Rs7574865--STAT4

但是需要载入不同的bam文件，分别是6号染色体和2号染色体，这样可以验证一下是不是我们的bcftools整个软件没有call到变异，是否是假阴性。

参考：

http://wap.sciencenet.cn/blogview.aspx?id=37068

好了这一集就讲到这里，下面我们会详细讲解用软件CALL SNP 的细节

敬请期待！

请扫描以下二维码关注我们，获取直播系列的所有帖子！

菜鸟团公众号二维码

【直播】我的基因组21：为什么我算出的染色体覆盖度与公司差异甚大

ulwvfje — Mon, 19 Dec 2016 05:10:56 +0000

我们在第19讲留下了一个悬念：为什么我算的染色体覆盖度与公司给我的报告不符合！！

公司算出每条染色体的覆盖度都接近于100%了，而我是结果是:

很明显，chrY覆盖度严重偏低，21,22染色体也略堪忧。然而我对自己脚本能力及其有信心，反复检查觉得不可能写错。所以就理直气壮的写邮件咨询了给我测序的公司项目负责人~

他们反应挺迅速的，隔天就给我了答复：

邮件内容

曾老师：您好！

根据与信息同事沟通，分析您提出的问题，现解答如下：

老师您统计的length_of_chromosome的长度是全部的碱基的长度，其中包含N，而我们统计的染色体长度是去掉N的（如下图所示），所以老师统计出来的覆盖率偏低（如21,22号染色体）；

Y染色体之所以更低是因为Y染色体中含有很多重复的序列，而我们做比对分析的时候是把这些mask掉了（如果把这些也算进来会造成multimap的比例较高，不利于后面的分析），所以用来计算覆盖率的Y染色体的长度比实际的短很多。

老师可以参考我们给出的染色体长度（下图）重新计算一下就可以得出统计图中的结果了。

也就是说，他们在算chrY的覆盖度的时候，不是把Y染色体的全长58M来做分母，而是只用了22.98M来做分母，这样就算出了超高的覆盖度，接近于100%！！！

先不论公司这样做对不对，我首先重复一下他们的分析结果再说，不就是去除参考基因组的N碱基长度嘛，我还专门写了一个帖子：统计各种参考基因组的各条染色体的N含量（http://www.biotrainee.com/thread-563-1-1.html）

的确，这样统计数据马上就漂亮很多，也就有了公司给我的测序深度和覆盖度的图。数据统计如下：

如下图，可以直接在excel表格里面做出来的。

好了，这个问题说清楚了，继续前进！

请扫描以下二维码关注我们，获取直播系列的所有帖子！

菜鸟团公众号二维码

【直播】我的基因组（20）:覆盖度详细探究

ulwvfje — Mon, 19 Dec 2016 05:10:03 +0000

前面我们在第8讲提到了公司给我的一个报告的统计表格，有人反映不会做。

本来应该只需要给我6亿条reads的（PE150测序，人30X），但是足足给了我8.9亿条！（但事实上很多paper发表的基因组高于60X的也不少）

表格里面提到了好几个概念，比如duplicate的reads，一般说的PCR造成的duplicate，在找变异的时候需要去除掉。然后是那些比对到了不同染色体的reads pair，虽然只有2.29% ，也是需要重点分析的。（前面我也讲了如何提取以及分别分析它们！）

如果只是想重新前面的这些统计指标，非常很简单，就是samtools工具提供了一个flagstat功能，用法及结果如下：

samtools flagstat P_jmzeng.final.bam

899361748 + 0 in total (QC-passed reads + QC-failed reads)

8597742 + 0 secondary

0 + 0 supplementary

132556557 + 0 duplicates

890858540 + 0 mapped (99.05% : N/A)

890764006 + 0 paired in sequencing

445382003 + 0 read1

445382003 + 0 read2

853255862 + 0 properly paired (95.79% : N/A)

881249604 + 0 with itself and mate mapped

1011194 + 0 singletons (0.11% : N/A)

20382234 + 0 with mate mapped to a different chr

12511988 + 0 with mate mapped to a different chr (mapQ>=5)

从结果很明显可以看到，公司的确给了我8.9亿的reads，这个没错，duplicate的情况也的确是132556557/899361748 = 14.73%，而mapping的情况和proper mapping的情况也都显示好了，可以看到公司用的是同样的命令和方法！没有什么神秘的，我们生信工程师，做得就是这个，而且可以做得更好。

后面的探索全基因组区域中碱基覆盖深度不低于多少X的比例，是需要画一个图，有非常多的现成的工具可以使用，包括 BedTools' genomeCov 、 GATK's DepthOfCoverage，还有Picard suite的几个命令。

其实本身原理很简单，就是把全基因组的每个坐标的depth都得到，然后得到depth的频数，然后画图。

我们可以对每条染色体单独来绘图，也可以针对全基因组来绘图，当然，公司给我们的数据是针对全基因组的。脚本很简单：

samtools mpileup P_jmzeng.final.bam |perl -alne '{if($F[3]>100){$depth{"over100"}++}else{$depth{$F[3]}++}}END{print "$_\t$depth{$_}" foreach sort{$a <=> $b}keys %depth}' 当是需要运行很久，毕竟全基因组的bam文件太大了。

如果分开运行，可以对下面的各条染色体bam文件批量跑一个脚本

脚本如下：

ls P_jmzeng.final.REF*.bam |while read id

echo $id

samtools mpileup $id |perl -alne '{if($F[3]>100){$depth{"over100"}++}else{$depth{$F[3]}++}}END{print "$_\t$depth{$_}" foreach sort{$a <=> $b}keys %depth}' >$id.depth.txt

done

跑完之后，对每条染色体都会输出如下文件：

over100 110789

0 27065

1 1730286

2 2219409

3 2728526

4 3251046

5 3774335

6 4303971

~~~~~~~~~~~~~~~~~~~~~~~

后面省略94行，每一行都是两列，第一列是测序深度，第二列是有着该测序深度的位点是多少个！所以行的第二列加起来，就是染色体的长度！！！面这个例子是X染色体的，绘图如下，可以看到X染色体的测序深度其实并不怎么好，全基因组测序深度平均高达44X，可是这个X染色体超过44X的只占极少的比例。

我用excel表格简单画个图如下：（当然，作为一个高级生物信息学工程师，用excel表格是有点low，但是这里只是为了说明一个问题，我们后面还是写程序的，用R语言）

比如我们再看看10号染色体，我随意在R里面画了个图：

a=read.table('P_jmzeng.final.REF_10.bam.depth.txt',stringsAsFactors = F)

plot(a[,2],type = 'l',xaxt="n",lwd=3)

axis(1, at = 1:nrow(a),labels =a[,1] , las=1)

abline(v=44)

可以看到10号染色体的测序深度要显著好于X染色体，大部分的测序深度都超过了30X！！（不过，这里虽然用来R，但是出图很丑，虽然不是专业做可视化的，但是想调整美观一点问题也不大，就是好耗费时间。）

做出depth的累积曲线图了，也是很简单的！

a=read.table('P_jmzeng.final.REF_10.bam.depth.txt',stringsAsFactors = F)

over100=a[1,]

a=a[-1,]

a=rbind(a,over100)

a[,3]= cumsum(a[,2])

a[,4]= 1-a[,3]/sum(a[,2])

plot(a[,4],type = 'l',xaxt="n",lwd=3)

axis(1, at = 1:nrow(a),labels =a[,1] , las=1)

abline(v=10);abline(v=20);abline(v=30)

最后得到的数据如下：第4列，就是不低于多少X的比例

可以看到大于10X测序深度的比例仍然高达92.88%，效果杠杠的！！

这个测序深度累积分布图，就是很多人的重点！！！！（请大家仔细学习我上面的统计脚本和画图方法）

加油吧，骚年！！！！

请扫描以下二维码关注我们，获取直播系列的所有帖子！

菜鸟团公众号二维码

参考：

https://www.biostars.org/p/104063/

http://www.gettinggeneticsdone.com/2014/03/visualize-coverage-exome-targeted-ngs-bedtools.html

【直播】我的基因组（19）:根据比对结果来统计测序深度和覆盖度

ulwvfje — Mon, 19 Dec 2016 05:08:43 +0000

看来本次直播我的基因组分析流程效果还不错，不少朋友跟着自己动手开始分析全基因组测试数据了，值得表扬。其中有好几个朋友留言向我反映公司给的统计报告里面的覆盖度的问题，如下图：

我在第 8讲中写道，每条染色体的覆盖度都接近于100%，而且测序深度大多在40X以上，不少读者表示看晕了，明明这个条形图显示覆盖度不到60%呀！其实是公司的这个图没有做好，它里面的覆盖度用的是最上面的曲线显示的，条形图是测序深度！！！

测序深度和覆盖度的示意图如下：

那么我们就来自己动手统计一下比对好的sam/bam文件的测序深度和覆盖度吧！

这个统计主要依赖于samtools的depth功能，或者说mpileup功能，输入文件都是sort好bam格式的比对文件。事实上，你如果读samtools的源代码就会发现，其实depth功能调用的就是mpileup的函数。但是mpileup可以设置一系列的过滤参数。而depth命令是纯天然的，所以mpileup的结果一定会小于depth的测序深度。对mpileup，可以不选择-u -f 参数指定参考基因组，因为我们只需要测序深度情况，还有，可以指定-q 1 来过滤掉多比对情况。还可以用-Q来过滤低质量的碱基(base pair),用-A来过滤无法定位的reads，结果如下：

针对这个全基因组位点的统计结果，我们很容易写脚本来计算每条平均的测序深度和各个染色体的覆盖度。

nohup time samtools mpileup P_jmzeng.final.bam |perl -alne '{$pos{$F[0]}++;$depth{$F[0]}+=$F[3]} END{print "$_\t$pos{$_}\t$depth{$_}" foreach sort keys %pos}' 1>coverage_depth.txt 2>coverage_depth.log &

nohup ... & ...为命令表明命令后台执行也可以

nohup ... & > *.log 将运行结果写入到一个log文件里面

time 命令可以统计命令运行的时间

这个脚本运行会比较慢，因为是针对整个55G的bam文件。耗时如下：

real 130m34.855s

user 237m14.308s

sys 1m45.692s

结果如下：

其中chromosome的长度在bam文件里面可以看到，用samtools view -H P_jmzeng.final.bam 即可！！！把上面的表格可视化，就是文章最开头的figure。但是很明显公司给我的各个指标均高于我自己算出来的！尤其是其中几个染色体的coverage非常差。当然平均测序深度，我在这里选择的是整个染色体的长度作为分母，对于那些覆盖度很差的染色体，平均测序深度就被被拉低。所以我起初猜想是不是问题出在我用的是samtools的mpileup命令，而不是depth命令！（因为我以前从来没有如此细致的去比较它们的差别，其实这这个命令的确有差别，但是对全基因组层面的统计指标几乎没什么影响）

下面的表格，是我用depth命令的结果，而且平均测序深度我选择被覆盖到的染色体长度作为分母，所以看到测序深度有些许提升，但是有几条染色体的覆盖度堪忧。与公司给我的报告不符合！

先不要急着怪公司，请听下回分解

这个问题我会详细讲解，请关注后面的帖子：

或者不用重复造轮子，bedtools有这个命令：http://bedtools.readthedocs.io/en/latest/content/tools/genomecov.html

而且Qualimap软件也可以做到，后面我们会讲到！

请扫描以下二维码关注我们，获取直播系列的所有帖子！

菜鸟团公众号二维码

参考：

http://seqanswers.com/forums/showthread.php?t=17438

https://www.biostars.org/p/218049/

https://www.biostars.org/p/3326/

http://www.danielecook.com/calculate-depth-coverage-bam-file/

Should Samtools Pileup Be Performed On Uniquely Mapped Reads Or All The Reads?

Genomic Coverage - Samtool's undocumented "depth" verses the poorly documented pileup.

Discrepancy In Samtools Mpileup/Depth And Bedtools Genomecoveragebed Counts

【直播】我的基因组（18）:初步分析PCR duplication的情况

ulwvfje — Mon, 19 Dec 2016 05:07:37 +0000

我博客里面有详细讲读原文查解去除PCR duplication的reads的原理和方法，还比较了samtools和picard这两个软件的区别，请点击阅看（仔细探究samtools的rmdup是如何行使去除PCR重复reads功能的），或者复制链接（http://www.bio-info-trainee.com/2003.html）到浏览器查看。

去除PCR duplication的reads用samtools或者picard均可，对单端测序数据来说，去除掉比对到同一个基因组坐标的reads即可，当然要保证比对的flag是一致的。但是单端测序比对flag情况只有0,4,16，flag很容易一致。然而对于双端测序来说，去除PCR重复不仅仅需要它们比对到的染色体起始终止位置相同，更重要的是flag的一致。在双端测序里面存在着一大堆的flag情况，如果flag不一致，比对到基因组同一坐标也不会认为是PCR的duplication。还有要考虑插入片段的大小，就是第9列，如果第9列不一致，这个双端测序也不会被当做PCR duplication而去除。

很明显，公司给我的bam文件里面并没有去除pcr duplicate，比如下面：

这3条reads虽然都比对到了1号染色体的第13145个碱基的位置，但是尾号为63261的reads跟另外两个的flag不一致，所以它被保留下来，而另外两条reads虽然flag一致，但是第九列插入片段不一致，也不会被当做duplication被去除。

下面这种情况才是需要去除的PCR duplication，而且它们的flag是1017，代表它们的另一端read并没有成功比对。

（请务必反复看这个示意图，并且自己找bam文件来理解我说的这段话）

而且他们给我的报告里面提到过有15%的duplication情况，我用Qualimap软件可视化如下：

可以看到大部分情况是duplicate一次，很少有多次重复的。

那么为什么要去除这个duplication呢？主要是因为在call snp的时候，如果某个变异位点的变异碱基都是来自于PCR重复，而我们却认为它深度足够判断是真的变异位点，这个结论其实有很大可能是假阳性。

请扫描以下二维码关注我们，获取直播系列的所有帖子！

菜鸟团公众号二维码

【直播】我的基因组（17）:初步分析一下multiple mapping 的情况

ulwvfje — Mon, 19 Dec 2016 05:06:17 +0000

分析multiple mapping的情况，还是先用公司已经提供的bam文件来吧，后面我会用自己比对得到的bam文件再重新分析一次。

公司给我的bam数据是把有效测序数据通过 BWA（Li H et al.）比对到参考基因组 (b37)，这是目前使用率很高的一个软件。在比对过程中，如果一个或一对 read(s) 在基因上可以有多个比对位置，BWA 的处理策略是从中选择一个最好的，如果有两个或以上最好的比对位置，则从中随机选择一个。这种多重比对（multiple hits）的处理对 SNP、INDEL 以及 CNV 等的检测有重要影响。

通常检测 SNP 或 INDEL 的时候要使用高质量的比对结果(alignment)，即比对质量值[MAPQ]大于0或更高。

前面我们详细讲了sam文件格式，在sam文件的第五列是MAPQ值，对某些软件，比如BWA，直接通过它就可以区分unique mapping和mutiple mapping的情况，就是判断这条reads是否只比对到参考基因组的唯一的位点。所以对于这种情况下的sam文件，提取unique mapping非常简单，用samtools view -q 1 （过滤掉MAPQ值低于1的情况）。

正好公司提供的bam文件就是这样的情况，因为他们在使用bwa这个软件来把测序数据比对到参考基因组的时候并没有加上-a这个参数，那么输出的sam文件里面，bwa会对每一个有multiple mapping情况的reads的MAPQ值设置为0，所以提前multiple mapping的reads是非常容易的。

但其它软件，其它参数产生的sam比对文件，如果我们要提取multiple mapping的reads就不那么容易了，因为MAPQ为0，并不一定就是multiple mapping。如下：

可以看到上面很多序列都是150M，但是mapping的quality都是0，也有很多其它比对序列也是quality为0，它们在IGV显示如下：

每一个矩形箭头都是一条比对好的reads，如果是白色的说明比对质量值为0，如果是灰色的，说明是正常的reads。

那么这个地方为什么会集中一大堆的multiple mapping的reads呢？

一些软件在根据bam文件来选择变异位点的时候会忽略掉这些mapping quality为0的reads。

也就是说对于这部分软件来说，这些mapping quality为0的reads是没有用的，相当于损失掉了，假设整体基因组的覆盖深度是很平均的，那这些MAPQ为0的位置的覆盖深度相当于降低了。这很有可能影响SNV位点的可信度。

那有multiple mapping情况的reads都集中在基因组的哪些区域呢？在哪些基因附近呢？

我们可以先用公司提供的bam文件提取出MAPQ为0的reads[里面包含大多数 multiple reads]，看一下大致的分布，后面再用我自己比对得到的bam作进更加准确的分析。

请扫描以下二维码关注我们，获取直播系列的所有帖子！

菜鸟团公众号二维码

【直播】我的基因组（16）:提取左右端测序数据比对到不同染色体的PE reads

ulwvfje — Mon, 19 Dec 2016 05:05:04 +0000

这类情况仅仅针对于双端测序数据，因为根据实验原理来看，对一个DNA片段，会把它的左右两端分别测序，但是测序仪器的测序长度有限，对本次实验来说，打断的DNA片段长度在350个碱基左右(这个长度只是一个分布，并不是真实值)，理论来说测序是左右各150，加起来也就300，也就是说DNA片段中间还有50个碱基是测不到的（当然，实际上是有可能测通的）。而对这个配对的reads来说，来自于同一个DNA片段，所以理论上它们应该比对到同一条染色体的。也还是基于对sam格式的文件的理解，前面我们提到了sam文件的第3，7列指明了该reads比对到哪条染色体，以及该reads的配对reads比对到了哪条染色体(如果比对到同一条染色体，那么第7列是=符号)。所以我们只需要写脚本来提取即可！

而左右端测序数据比对到不同染色体的情况，比较有意义，可能是融合基因，也可能是基因之间本来就相似性很大。

在sam文件里面左右端测序数据比对到不同染色体情况如下所示：

提取的脚本很简单是：samtools view P_jmzeng.final.bam|perl -alne '{print if $F[6] ne "="}' >unpaired.sam 可以看到这样的情况还是挺多的，14G的sam文件，当然，里面有非常多的是没有比对上的，下面的统计可以看出。

可以用命令 cut -f 3,7 unpaired.sam |sort |uniq -c 简单统计一下

先提取出来，我们后面再讲如何应用这个数据。

三种具有代表性的肿瘤融合基因BCR-ABL、SLC45A3-ELK4 和. PAX3-FOXO1

融合基因（英语：Fusion gene）是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程。其有可能是染色体易位、中间缺失或染色体倒置所致的结果。

请扫描以下二维码关注我们，获取直播系列的所有帖子！

菜鸟团公众号二维码

【直播】我的基因组（15）:提取未比对的测序数据

ulwvfje — Mon, 19 Dec 2016 05:03:59 +0000

之前我们说了比对上的数据，那么会有人想到有没有没有比对上的数据呢？

既然是从我的血液里面提取到的DNA进行测序的，那么理论上测序仪出来的所有测序reads都应该是我的，也应该都可以比对到人类的参考基因组，但是实际过程中的确存在着未必对上的数据。

现有人类基因组毕竟只是个参考，也许我有某些独特的DNA序列呢？而且也不一定测序数据就都是人类的，也许我血液里面会有那么些微不纯粹呢？也有可能是某些片段变异的太多了，超过了常见的比对软件的承受能力，可以试用SHRIMP这个软件来提取一下。当然，这不是本讲的重点。

前面我们已经详细讲解了sam文件的格式，就是为了给这个做铺垫，如果还不清楚的，可以回过头再仔细阅读(http://genome.sph.umich.edu/wiki/SAM)。sam格式文件的第3和第7列，可以用来判断某条reads是否比对成功到了基因组的染色体，左右两条reads是否比对到同一条染色体。有两个方法可以提取未比对成功的测序数据，sam文件的第3列是*的(如果是PE数据，需要考虑第6,7列)，或者sam文件的flag标签包含0x4的，代码如下：

samtools view -f4 sample.bam > sample.unmapped.samsamtools view sample.bam |perl -alne '{print if $F[2] eq "*" or $F[5] eq "*" }' > sample.unmapped.sam

虽然上面两个方法得到的结果是一模一样的，但是这个perl脚本运行速度远远比不上上面的samtools自带的参数。

sam文件的说明书里面有这样一句话;https://samtools.github.io/hts-specs/SAMv1.pdf

An unmapped segment without coordinate has a ‘*’ at this field. However, an unmapped segment may also have an ordinary coordinate such that it can be placed at a desired position after sorting. If RNAME is ‘*’, no assumptions can be made about POS and CIGAR.

（其实也不一定要自己写脚本，我们前面讲到的用来把巨大的bam文件按照染色体分割的小软件bamtools也可以完成这个需求，用 bamtools -split -in my.bam -mapped 即可！）

小写的f是提取，大写的F是过滤。因为我们测序数据的双端的，那么sam文件的第3列是reads1的比对情况，第6列是reads2的比对情况。所以未比对成功的测序数据可以分成3类，仅reads1，仅reads2，和两端reads都没有比对成功。

也可以用下面的代码分步提取这3类未比对成功的reads:

samtools view -u -f 4 -F264 alignments.bam > tmps1.bam samtools view -u -f 8 -F 260 alignments.bam > tmps2.bam samtools view -u -f 12 -F 256 alignments.bam > tmps3.bamsamtools merge -u - tmps[123].bam | samtools sort -n - unmapped

bamToFastq -bam unmapped.bam -fq1 unmapped_reads1.fastq -fq2 unmapped_reads2.fastq

可以简单的统计一下未比对成功的reads有多少：

cut -f 3,6 P_jmzeng.unmapped.sam |sort |uniq -c >unmapped.counts

结果如下

如果对bamtools软件的结果来统计：

samtools view P_jmzeng.final.REF_unmapped.bam |cut -f 3,7 |sort |uniq -c >unmapped.counts

得到的结果只有7492014 * * 说明它只考虑了PE reads均为比对成功的情况。

很奇怪，看起来我的未比对成功的测序数据里面竟然没有右端成功，而左端失败的情况，这个我没办法解释。我也还需要学习才能搞明白这件事。

(其实之前我也搞错了，如果PE reads的左右两端均没有比对成功，那么第3,6,7列都是*，4，5，8，9都是0，第2列flag只有77,141这两种情况。(77代表PE,而且PE的两条reads都是unmanned的，141跟77一样，只是它们分别指代unmanned的的PE的reads的两端,结合https://broadinstitute.github.io/picard/explain-flags.html来理解)

如果是左右两端reads只有一个比对成功，另一个reads没有比对上，如果是read1比对了，read2失败了，那么第3列应该是read1的染色体，第7列应该是*号表明read2没有比对成功。同理，如果read2比对成功，read1失败，按照道理，我们应该看得第7列有染色体，第3列是*号，但是我们在提取的unmapped文件里面，没有发现这种情况。

但其实不管是左端还是右端，第3列都是有染色体的，第7列是=号，但这并不能说明左端跟右端有着同样的比对结果。而第6列CIGAR是*，这个才是判断左右端是否匹配失败的标准。

sam文件的说明书里面有这样一句话;https://samtools.github.io/hts-specs/SAMv1.pdf

对于第6列CIGAR来说，An unmapped segment without coordinate has a ‘*’ at this field. However, an unmapped segment may also have an ordinary coordinate such that it can be placed at a desired position after sorting. If RNAME is ‘*’, no assumptions can be made about POS and CIGAR.

这也就是我为什么没有发现第7列有染色体，第3列是*号的reads。即使PE reads的右端匹配，左端未匹配，它只会把这个read比对的染色体写在第3列，而不是第7列！所以说要想探究它是左端还是右端未比对成功，得看flag。

这样就提取出来了未比对的测序数据，但是还需要做进一步分析，看看这些reads究竟是何方大神！具体要在第25讲之后了，敬请期待！

请扫描以下二维码关注我们，获取直播系列的所有帖子！

菜鸟团公众号二维码

【直播】我的基因组（14）:bam文件给按照染色体给分割成小文件

ulwvfje — Mon, 19 Dec 2016 05:02:39 +0000

昨天，我们了解了一下SAM格式的比对结果，不知道大家理解的怎么样。但是全基因组测序数据实在是太大了，即使比对后把sam文件压缩成二进制的bam文件也还有55G（如何压缩转换可查看直播十二），如果完整的导入IGV查看会略微考验计算机配置。

如果按照染色体（chr1-chr22,chrX,chrY,chrMT）来分割写一个脚本其实很容易，无非是效率的高低而已。但是我Google了一下，发现有现成的工具，也顺便试用一下这个软件bamtools。

如果需要手动切割，用下面的脚本，其中$BAM是需要传进去的参数。

for chrom in `seq 1 22` X Y MT do samtools view -bh $BAM chr${chrom} | samtools sort - chr${chrom} samtools index chr${chrom}.bam done

如果需要使用现成的工具bamtools的话，该软件的github地址是：https://github.com/pezmaster31/bamtools 。安装也是非常容易，因为没有二进制可执行版本，所以需要下载源码自己编译。

## Download and install variationtoolkit## https://github.com/pezmaster31/bamtools/wiki/Building-and-installing

cd ~/biosoft

mkdir bamtools && cd bamtools

git clone git://github.com/pezmaster31/bamtools.git

cd bamtools

cmake --version ## BamTools requires CMake (version >= 2.6.4).

mkdir build && cd build

cmake ../

make

~/biosoft/bamtools/bamtools/bin/bamtools

与我以前安装的软件不太一样的是要先cmake然后再make，而且保证cmake的版本不低于2.6.4

用法非常简单：

bamtools split -in file.bam -reference

我的代码如下：

~/biosoft/bamtools/bamtools/bin/bamtools split \-in /data/project/myGenome/bamFiles/P_jmzeng.final.bam \ -reference

## 这里指定按照reference来分离bam文件

还可以指定 -tag RG 来把这个bam文件按照原来的测序上样品的lane给分离开(因为本身测序文件就是多个，比对后merge的bam)

也可以指定-mapped来分离比对成功与否的bam文件！

默认split后的小bam文件，就在原来的大的bam文件目录下，这个55G的文件，运行了近8个小时。

上面的脚本也好，这个bamtools工具也好，都是一个个染色体依次运行，所以速度很慢，其实可以同时开25个文件句柄，一次读入，全部写出！！！

最后呢，留个问题给大家，对于PE reads，如果左端的reads比对到1号染色体，但是右端比对到2号染色体，这个应该归于哪个染色体的比对情况呢？欢迎大家评论区留言!请扫描以下二维码关注我们，获取直播系列的所有帖子！

菜鸟团公众号二维码

【直播】我的基因组（13）:了解sam格式比对结果

ulwvfje — Mon, 19 Dec 2016 05:00:17 +0000

十一讲中将我们主要讲了如何将下机数据比对到参考基因组中。但是很多人对比对结果却是一头雾水。那我们现在来了解一下Sam格式的比对结果吧！

比对工具到现在已经多如牛毛了，见列表： https://en.wikipedia.org/wiki/List_of_sequence_alignment_software 。但是能被大多数人熟知的，就是bowtie和bwa（我们在十一讲中用的才是bwa），它们把测序数据比对到参考基因组之后，都会生成一个sam格式的文件。随后的大部分分析都是基于sam格式进行的分析，虽然Jimmy多次强调这些基础知识的重要性需要大家私下自学。但是由于这个sam文件实在是太重要了！！！所以，不得不亲自抽出一讲来说说它，后面也会基于此写十多篇文章：

⊙14-把bam文件给按照染色体给分割成小文件

⊙15-提取未比对的测序数据

⊙16-提取多比对的测序数据

⊙17-提取左右端测序数据比对到不同染色体的PE reads

⊙18-去除PCR的duplication情况

⊙19-根据比对结果来统计测序深度和覆盖度

⊙20-覆盖度累积曲线

因为这个是基础，如果你后面的十几篇有不理解的，请回头来再仔细看看sam文件的定义！

当然，不仅是这些分析是基于对sam文件的理解，我只是举几个例子，大家千万要熟练使用sam格式的比对结果，最权威的定义见：https://samtools.github.io/hts-specs/SAMv1.pdf

记住，我们的双端测序的数据，一个paired reads，有左右两端两条reads，所以在sam文件里面会有且只有两条记录，除非你设置特殊参数，允许输出多比对情况。

上面是一个典型的PEreads输出的sam比对结果，反正必须要有的就是下面11列，其中第3和第7列，可以用来判断某条reads是否比对成功到了基因组的染色体，左右两条reads是否比对到同一条染色体。而第1，10，11列可以提取出来还原成我们的测序数据fastq格式的。第9列是我们建库的时候打断的片段长度，本次是PE150的数据，打断成350bp，所以这里应该是350个字符左右，但如果是RNA-seq数据，就不一样了。

其中第二列flag是比较反人类的，一般人用不了二进制，有网页可以帮助你：http://picard.sourceforge.net/explain-flags.html。我们的sam里面第二列是下面这些二级制转为十进制后的和！

然后第6列CIGAR是比较重要的，解释如下，其中M并不是说match，所以我们的PE 150的reads，大部分都会是150M，但是并不代表着跟参考序列一模一样。其中S/H是比较特殊的，很难讲清楚，但是大部分情况下用不到。（soft-clipping碱基是指一条reads未匹配上当前基因组位置的部分，如果有多个reads在这种情况并且这些reads的soft-clipping碱基都能够比对在基因组另一位置，那么就可能存在SV）

第5列，比对结果的质量值，也是因工具而异。

a. Match score: Score awarded for a base in a sequence matching a base in another sequence

b. Alignment score: Cumulative score of the bases of a sequence matching the bases of another sequence (more this score, better the alignment, if all else equal)

c. Mapping Quality score: Probability that the shorter sequence is mapped to the right spot on the longer sequence.

如果定义某条reads比对的质量值是一个非常复杂的问题，我也没办法说清楚，感兴趣的朋友可以去查看 http://biofinysics.blogspot.com/2014/05/how-does-bowtie2-assign-mapq-scores.html

但是需要记住，质量值越高这个比对越可信，如果质量值为0，可能是该序列在参考基因组有多种定位的可能性。

最后，一般来说，sam文件肯定是大于11列的，后面多余的列是各种各样的 tag。而且只要是你开发了一个比对工具，你就可以定义一堆tag，这个并没有公认的标准，因为sam文件的定义就是前面的11列，后面的tag是随心所欲的！

但是一般RG代表着你的sam文件比对来自于哪个样本的fastq程序结果。NM这个tag是编辑距离，大概就是你的reads如果想转变成参考基因组，需要改变多少个碱基，如果编辑距离是0才说明你的这个150bp长度的序列跟参考基因组一模一样。

MD这个tag里面写明了，你的序列跟参考基因组不同在哪里，比如下面的截图里面的，我的某个位点相比参考基因组来说，就变成了G，而其余的碱基都是一样的。

AS和XS在两个标签貌似没什么用，以后再说吧。

如果你用的bowtie或者hisat等其它比对工具，还会有更多的稀奇古怪的tag，学无止境呀！

请扫描以下二维码关注我们，获取直播系列的所有帖子！