生信菜鸟团 » QC

【直播】我的基因组（十）:测序数据质量控制

ulwvfje — Fri, 09 Dec 2016 01:04:49 +0000

质控之前我们在直播八的时候分析过，公司也给了我质控后的的数据，但是毕竟是别人做的，我们做为一个数据分析师，自己动手来验证一下公司给出的报告也是再好不过的了。大家可以跟着我先将下载数据进行一下质控。

因为此直播系列走得是半科普半技术路线，所以我这里show一个最常用也是最简单的测序质量控制软件，大名鼎鼎的fastqc软件，它是一个java软件，功能很单一，就是对你的测序数据生成一个网页版的可视化检测报告而已。这个软件的安装可以查看之前的直播贴（【直播】我的基因组（八）:原始测序数据质量报告）。它在在linux或者windows平台都可以使用。直接下载这个压缩包： http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.5.zip

我比较喜欢把这些软件放在biosoft文件夹下面（个人windows电脑），这个软件安装后会自带一些数据，大家感兴趣可以查看一下。

由于fastqc是免安装软件，直接解压后就可以直接使用。解压打开里面后缀是 .bat （相对于windows平台的批处理程序）的文件就打开fastqc啦，然后导入数据开始分析即可，静候一两个小时。

如果你用的是linux服务器，可以直接用unzip解压fastqc的zip压缩文件。里面有个fastqc的文件，就是fastqc的程序了。我们可以用fastqc -o output dir [-(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN的命令让它进行质量控制。-o是用来指定输出文件的目录，注意是这里是不能自动新建目录的。输出的结果是.zip文件，默认自动解压缩，-noextract则不解压缩。-f用来强制指定输入文件格式，默认会自动检测。-c用来指定一个contaminant文件，fastqc会把overrepresented sequences往这个contaminant文件里搜索。后面加上你要质控的序列的文件名就可以了。

把所有的fastq.gz文件用fastqc软件处理得到的测序质量检测报告是一个html文件加上一个文件夹，如果没有解压缩需要用命令ls *zip|while read id;do unzip $id;done，把所有压缩包批量解压开。可以看到对每个测序数据它都进行了十几项统计结果和可视化的图片，对该款软件的结果感兴趣的可以下载（http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip）文件，对原始数据处理前后的fastqc报告的区别显而易见。

然后批量抓取里面的%GC,Total sequences等信息，来跟之前公司给我的报告做比较，看看公司给我的结果有什么出入！

我以前写过帖子关于如何得到fastqc的统计表格：写脚本对fastqc的结果进行统计咯！

也就是说把多个qc的结果通过脚本整理在一起，方便查看。我们的统计结果如下：

当然一般不会有什么差别的，而且fastqc跑出来的结果都是合格的，公司对raw data得到clean的步骤仅仅是过滤掉不合格的reads，全部丢弃，而不是截断，豪气！！！

因为illumina的X10机器跑出来的数据一般都非常不错，我就没有在这里面下太多功夫，只是走个流程看一下测序质量，的确非常好，大家如果遇到质量比较差的数据，可以去我博客里面寻找各种解决方案。当然，质量控制不只是看序列的质量，还有很多小技巧，我会在后面的帖子里面专项讲解，比如我的数据是5条lane的数据合并起来的，那么lane的上样品是一定正确吗，那些没有比对上的reads是什么之类的相关问题。

请扫描以下二维码关注我们，获取直播系列的所有帖子！

用sickle软件来对双端测序数据过滤低质量reads

ulwvfje — Thu, 06 Oct 2016 13:47:26 +0000

一般来讲，我们对测序数据进行QC，就三个大的方向：Quality trimming， Adapter removal， Contaminant filtering，当我们是双端测序数据的时候，去除低质量的reads就容易导致左右两端测序文件不平衡，有一个比较好的软件能解决这个问题，而且软件使用非常简单！

安装代码如下：

## https://github.com/najoshi/sickle
cd ~/biosoft
mkdir sickle && cd sickle
wget https://codeload.github.com/najoshi/sickle/zip/master -O sickle.zip
unzip sickle.zip
cd sickle-master
make
~/biosoft/sickle/sickle-master/sickle -h

这个软件很简单，就是去除低质量的reads，而且还可以保证双端测序的完整性。

本实例的测试数据可以在 http://www.biotrainee.com/jmzeng/reads/test1.fastq 和 http://www.biotrainee.com/jmzeng/reads/test2.fastq

这个软件支持gz压缩格式，我应该压缩好了再上传到我们的云服务器的，这样可以节省流量，这只是一个测试，如果数据传输压力太大了，我们可能会取消链接，改为百度云分享！
~/biosoft/sickle/sickle-master/sickle pe -f test1.fastq -r test2.fastq -t sanger -o trimmed_output_file1.fastq -p trimmed_output_file2.fastq

软件给出的log日志如下：

PE forward file: test1.fastq
PE reverse file: test2.fastq

Total input FastQ records: 200000 (100000 pairs)

FastQ paired records kept: 192262 (96131 pairs)
FastQ single records kept: 3869 (from PE1: 3864, from PE2: 5)
FastQ paired records discarded: 0 (0 pairs)
FastQ single records discarded: 3869 (from PE1: 5, from PE2: 3864)

然后批量查看处理前后的fastqc质量报告：
ls *fastq |xargs -P 5 ~/biosoft/fastqc/FastQC/fastqc

比较所有的fastq文件的结果报告就可以看出它做了什么！

sickle处理前后的结果文件都可以在 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 下载。

当然，这只是默认参数的用法，还可以添加很多参数! 比如 -q 30 -l 15 参数解释如下：

pe : use paired-end mode
-f training/rnaseq/ERR022486_chr22_read1.fastq.gz : the fastq file for read 1
-r training/rnaseq/ERR022486_chr22_read2.fastq.gz : the fastq file for read 2
-t sanger : the quality encoding. All data downloaded from EBI or NCBI will be "sanger" encoded. For an explanation:http://en.wikipedia.org/wiki/FASTQ_format#Encoding
-o ERR022486_chr22_read1_trim.fastq : the output file for trimmed reads from read 1
-p ERR022486_chr22_read2_trim.fastq : the output file for trimmed reads from read 2
-s ERR022486_chr22_single_trim.fastq : the output file for reads where the mate has failed the quality or length filter
-q 30 : the quality value to use. Bases below this will be trimmed, using a sliding window
-l 15 : the minimum length allowed after trimming. Here we remove reads with less than 15bp

WES（一）测序质量控制

ulwvfje — Sun, 01 Nov 2015 09:58:13 +0000

这一步主要看看这些外显子测序数据的测序质量如何：

首先用fastqc处理，会出一些图表，肯定是没问题的啦，如果数据有问题，公司就不会给你，那样不砸了他们自己的招牌嘛。

然后我们粗略统计下平均测序深度及目标区域覆盖度，这个是重点，不过一般没问题的，因为现在芯片捕获技术非常成熟了，而且实验水平大幅提升，没有以前那么多的问题了。

这个外显子项目的测序文件里面，mpileup文件是1371416525行，意味着总的测序长度是1.3G，以前我接触的一般是600M左右的
因为外显子目标区域并不大，就34729283bp，也就是约35M。

即使加上侧翼长度

54692160 外显子加上前后50bp

73066288 外显子加上前后100bp

90362533 外显子加上前后150bp

然后我要根据外显子记录文件对mpileup文件进行计数，统计外显子coverage，还有测序深度，这个脚本其实蛮有难度的！

我前面提到过外显子组的序列仅占全基因组序列的1%左右，而我在NCBI里面拿到 consensus coding sequence (CCDS)记录CCDS.20150512.txt文件，是基于hg38版本的，需要首先转换成hg19才可以来计算这次测序项目的覆盖度和平均测序深度。

参考：http://www.bio-info-trainee.com/?p=990 （ liftover基因组版本之间的coordinate转换）

awk '{print "chr"$3,$4,$5,$1,0,$2,$4,$5,"255,0,0"}' CCDS.20150512.exon.txt >CCDS.20150512.exon.hg38.bed

~/bio-soft/liftover/liftOver CCDS.20150512.exon.hg38.bed ~/bio-soft/liftover/hg38ToHg19.over.chain CCDS.20150512.exon.hg19.bed unmap

下面这个程序就是读取转换好的外显子记录的数据，对一家三口一起统计，然后再读取每个样本的20G左右的mpileup文件，进行统计，所以很耗费时间。

外显子目标区域平均测序深度接近100X，所以很明显是非常好的捕获效率啦！而全基因组背景深度才3.3，这符合实验原理, 即与探针杂交碱基多的片段比少的片段更易被捕获. 对非特异杂交的,基因组覆盖度非特异的背景 DNA 也进行了测序。

接下来对测序深度进行简单统计，脚本如下，但是这个图没多大意思。因为我们的外显子的35M区域平均都接近100X的测序量

NGS QC Toolkit 对测序reads进行简单过滤

ulwvfje — Sun, 29 Mar 2015 14:04:44 +0000

这个软件其实我真心不需要讲些什么了，它的官网写的太好了，简直就是软件说明书的典范

http://www.nipgr.res.in/ngsqctoolkit.html

它列出了它的几个功能模块，还给出了下载地址，还给出了说明文档，下载压缩包，解压即可使用啦

更重要的是给出了测试数据和测试的结果，而且还专门测试了不同测序平台及不同的测序策略的使用说明

里面就是一些perl测序，其实自己都可以写的，分成了四大类。

其中统计的那个平均测序质量，我在前面仿写fastqc就写过，至于那个统计N50，更是生信常用的脚本。

但是大家可以看看这个perl程序来学perl语言，蛮不错的这些程序，都写的很标准。

比如那个TrimmingReads.pl

可以根据四个参数来选择性的对我们的原始reads进行过滤，当然很多其它的程序也有类似的功能，它的参数分别是铲掉5端的几个碱基或者3端的，或者根据测序质量来切除碱基，或者根据reads长度来取舍，都是挺实用的功能。但是我一般用LengthSort和DynamicTrim那两个程序，原因很简单，我老师是这样用的，所以我习惯了，哈哈