用 SHRiMP 来比对color space的数据

ulwvfje — Thu, 04 Aug 2016 02:08:43 +0000

无意中接触了AB 5500xl Genetic Analyzer这个测序仪的数据，就是传说中的solid格式，也就是color space的测序数据，虽然拿到的测序数据也是fastq格式的， 4行代表一条read，但是第二行已经不是在是碱基序列啦，而是color的编码。Colors may be encoded either as numbers (0=blue, 1=green, 2=orange, 3=red) or as characters A/C/G/T (A=blue, C=green, G=orange, T=red).我们通常称为csfastq格式。

对于这种数据的处理，一般的比对软件是hold 不住的，我查了一下，SHRiMP，sequel和BFAST ，bowtie，是可以处理这种csfastq格式数据的比对的，我这里简单使用了最出名的SHRiMP 。

安装过程如下：

## http://compbio.cs.toronto.edu/shrimp/

cd ~/biosoft

mkdir SHRiMP && cd SHRiMP

wget http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz

tar zxvf SHRiMP_2_2_3.lx26.x86_64.tar.gz

cd SHRiMP_2_2_3

export SHRIMP_FOLDER=$PWD

## 如果需要永久使用就添加到.bashrc，如果只是用一次，就export即可。

软件说明书详细介绍了该软件的用法：http://compbio.cs.toronto.edu/shrimp/README

如果你的参考基因组很小，那么直接使用就好了。

如果是普通的小基因组和小的color space测序序列

$SHRIMP_FOLDER/bin/gmapper-cs test.csfasta \
  reference.fa \
  -N 4 -o 5 -h 80% >map.test.out 2>map.test.log

具体参数意义，大家看软件说明书吧。

或者对于miRNA来说

##　　We project the database with:

$SHRIMP_FOLDER/utils/project-db.py --seed 00111111001111111100,00111111110011111100,00111111111100111100,00111111111111001100,00111111111111110000 \

--h-flag --shrimp-mode ls miRBase/hairpin.human.fa

##

$SHRIMP_FOLDER/bin/gmapper-ls -L hairpin.human-ls SRR1542716.fastq --qv-offset 33 \

-o 1 -H -E -a -1 -q -30 -g -30 --qv-offset 33 --strata -N 8 >map.out 2>map.log

如果你的参加基因太大，超过了你的内存限制，那么就需要技巧了。

代码也不难，如下：

$SHRIMP_FOLDER/utils/split-db.py --ram-size 14 --prefix hg18 hg18.fa

$SHRIMP_FOLDER/utils/project-db.py --shrimp-mode ls hg18-14gb-*.fa

 for i in 1 2 3 4; do \
      $SHRIMP_FOLDER/bin/gmapper-ls -L hg18-14gb-12_12_12_12seeds-${i}of4-ls \
      reads.500kx2.36bp.ls.fa \
      -N 8 -p opp-in -I 50,500 -m 20 -i -25 -g -40 -e -10 -E \
      >map.db${i}of4.sam 2>map.db${i}of4.log
    done
  [...]
 ls map.db*.sam

$SHRIMP_FOLDER/bin/mergesam reads.500kx2.36bp.ls.fa map.db?of4.sam > map.sam

最后的map.sam文件就是我们比对结果啦！

sam文件我就不解释啦！

因为把参考基因组分开，还是很麻烦，而且耗时的，我并没有那样做，我的机器1T的内存，我不觉得有什么基因组会超出我的内存限制

自学miRNA-seq分析第三讲~公共测序数据下载

ulwvfje — Sat, 25 Jun 2016 09:08:43 +0000

前面已经讲到了该文章的数据已经上传到NCBI的SRA数据中心，所以直接根据索引号下载，然后用SRAtoolkit转出我们想要的fastq测序数据即可。下载的数据一般要进行质量控制，可视化展现一下质量如何，然后根据大题测序质量进行简单过滤。所以需要提前安装一些软件来完成这些任务，包括： sratoolkit /fastx_toolkit /fastqc/bowtie2/hg19/miRBase/SHRiMP

下面是我用新服务器下载安装软件的一些代码记录，因为fastx_toolkit /fastqc我已经安装过，就不列代码了，还有miRBase的下载，我在前面第二讲里面提到过，传送门：自学miRNA-seq分析第二讲~学习资料的搜集

## pre-step: download sratoolkit /fastx_toolkit_0.0.13/fastqc/bowtie2/hg19/miRBase/SHRiMP

## http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

## http://www.ncbi.nlm.nih.gov/books/NBK158900/

## 我这里特意挑选的二进制版本程序下载的，这样直接解压就可以用，但是需要挑选适合自己的操作系统的程序。

cd ~/biosoft

mkdir sratoolkit && cd sratoolkit

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.6.3/sratoolkit.2.6.3-centos_linux64.tar.gz

##

## Length: 63453761 (61M) [application/x-gzip]

## Saving to: "sratoolkit.2.6.3-centos_linux64.tar.gz"

tar zxvf sratoolkit.2.6.3-centos_linux64.tar.gz

cd ~/biosoft

mkdir bowtie && cd bowtie

wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.9/bowtie2-2.2.9-linux-x86_64.zip/download

#Length: 27073243 (26M) [application/octet-stream]

#Saving to: "download"

mv download bowtie2-2.2.9-linux-x86_64.zip

unzip bowtie2-2.2.9-linux-x86_64.zip

## http://compbio.cs.toronto.edu/shrimp/

mkdir SHRiMP && cd SHRiMP

wget http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz

tar zxvf SHRiMP_2_2_3.lx26.x86_64.tar.gz

cd SHRiMP_2_2_3

export SHRIMP_FOLDER=$PWD ## 这个软件使用的时候比较奇葩，需要设置到环境变量，不能简单的调用全路径

SHRiMP这个软件比较小众，我也是第一次听说过，本来我计划是能用bowtie搞定，就不麻烦了，但是第一次比对出了一个bug，就是下载的miRNA序列里面的U没有转换成T，所以导致比对率非常之低，所以我不得不根据文章里面记录的软件SHRiMP 来做比对，最后发现比对率完全没有改善，搞得我都在怀疑是不是作者乱来了。

下面是下载数据，质量控制的代码，希望大家可以照着运行一下：

## step1 : download raw data

mkdir miRNA_test && cd miRNA_test

echo {14..19} |sed 's/ /\n/g' |while read id; \

do wget "ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP045/SRP045420/SRR15427$id/SRR15427$id.sra" ;\

done

## step2 : change sra data to fastq files.

## 主要是用shell脚本来批量下载

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump $id;done

rm *sra

## 33M --> 247M

#Read 1866654 spots for SRR1542714.sra

#Written 1866654 spots for SRR1542714.sra

## step3 : download the results from paper

## http://www.bio-info-trainee.com/1571.html

## ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/suppl/GSE1009_RAW.tar

mkdir paper_results && cd paper_results

wget ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE60nnn/GSE60292/suppl/GSE60292_RAW.tar

## tar xvf GSE60292_RAW.tar

ls *gz |while read id ; do (echo $id;zcat $id | cut -f 2 |perl -alne '{$t+=$_;}END{print $t}');done

ls *gz |xargs gunzip

## step4 : quality assessment

ls *fastq | while read id ; do ~/biosoft/fastqc/FastQC/fastqc $id;done

## Sequence length 8-109

## %GC 52

## Adapter Content passed

## write a script : :: cat >filter.sh

ls *fastq |while read id

do

echo $id

~/biosoft/fastx_toolkit_0.0.13/bin/fastq_quality_filter -v -q 20 -p 80 -Q33 -i $id -o tmp ;

~/biosoft/fastx_toolkit_0.0.13/bin/fastx_trimmer -v -f 1 -l 27 -i tmp -Q33 -z -o ${id%%.*}_clean.fq.gz ;

done

rm tmp

## discarded 12%~~49%%

ls *_clean.fq.gz | while read id ; do ~/biosoft/fastqc/FastQC/fastqc $id;done

mkdir QC_results

mv *zip *html QC_results

这个代码是我自己根据文章的理解写出的，因为我本身不擅长miRNA数据分析，所以在进行QC的时候参数选择可能并不是那么友好，如果有高手能指正就最好了，可以直接打我电话告诉我，或者发邮箱给我，邮箱用户名是jmzeng1314，是163邮箱。

~/biosoft/fastx_toolkit_0.0.13/bin/fastq_quality_filter -v -q 20 -p 80 -Q33 -i $id -o tmp ;

~/biosoft/fastx_toolkit_0.0.13/bin/fastx_trimmer -v -f 1 -l 27 -i tmp -Q33 -z -o ${id%%.*}_clean.fq.gz ;

最后得到的clean.fq.gz系列文件，就是我需要进行比对的序列啦。

生信菜鸟团 » SHRiMP

用 SHRiMP 来比对color space的数据

自学miRNA-seq分析第三讲~公共测序数据下载