PRINSEQ软件使用说明

PRINSEQ软件使用说明

PRINSEQ全称是PReprocessing and INformation of SEQuences,下面是关于这个软件工具的一些链接:

主页 —> 在线—>下载—>FAQ —>手册

它是这样介绍自己的:

PRINSEQ can be used to filter, reformat, or trim your genomic and metagenomic sequence data. It generates summary statistics of your sequences in graphical and tabular format. It is easily configurable and provides a user-friendly interface.

是用perl语言写的一些脚本集合,不依赖于其它perl模块,所以安装非常方便,功能大概就像是fastqc和fastx-toolkit的合集,是2011年发表的工具了,但是不知道为什么它不是很出名。

首先安装该软件:

cd ~/biosoft
mkdir PRINSEQ &&  cd PRINSEQ
wget  https://sourceforge.net/projects/prinseq/files/standalone/prinseq-lite-0.20.4.tar.gz
tar zxvf  prinseq-lite-0.20.4.tar.gz

用法很简单:

perl prinseq-lite.pl -verbose -fastq test.fq -graph_data test.gd -out_good null -out_bad null
perl prinseq-graphs.pl -i test.gd -png_all -o test
perl prinseq-graphs.pl -i test.gd -html_all -o test

我也简单测试了一下自己的数据

perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-lite.pl -verbose -phred64 -graph_data test.gd -out_good null -out_bad null  -fastq <( zcat NPC10F-N_1.fastq.gz ) -fastq2  <( zcat NPC10F-N_2.fastq.gz ) 
perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-graphs.pl -i test.gd -png_all -o test
perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-graphs.pl -i test.gd -html_all -o test

我想它之所以不流行,就是因为它对fastq文件的支持性太差了,还需要用户自己解压开gz格式的文件,这对很多人来说是一个挑战。

分析的确不需要perl模块,但是绘图是需要一些特殊模块的,包括:

   Getopt::Long
   Pod::Usage
   File::Temp qw(tempfile)
   Fcntl qw(:flock SEEK_END)
   Cwd
   JSON
   Cairo
   Statistics::PCA
   MIME::Base64

出网页包括也需要一些perl模块,如下:

   CGI
   File::Path
   IO::Uncompress::AnyUncompress
   LWP::Simple
   File::Copy
   File::Basename

这就是大家为什么不喜欢用这个软件的原因了吧,还有一些特殊要求我都懒得讲解了,https://sourceforge.net/projects/prinseq/files/ 自行阅读哈。

但是它有两个值得一提的功能!

测序污染序列PCA分析

很多情况下提取的DNA会混杂有其它物种,对下游分析不利,这个时候就需要仔细检查了,PRINSEQ软件正好派上用场。

不过我没看懂那个图!需要去看一篇文章 Willner D, Thurber RV, Rohwer F: Metagenomic signatures of 86 microbial and viral metagenomes. Environ. Microbiol 2009.

组装基因组的N50等分析

有参数 -stats_assembly 可以选择!

perl ~/biosoft/PRINSEQ/prinseq-lite-0.20.4/prinseq-lite.pl -verbose -fasta output_prefix.contigs.fa  -stats_assembly

就是给出一些指标,如下;

stats_assembly  N50 176
stats_assembly  N75 113
stats_assembly  N90 78
stats_assembly  N95 70

 

Comments are closed.