用 SHRiMP 来比对color space的数据

ulwvfje — Thu, 04 Aug 2016 02:08:43 +0000

无意中接触了AB 5500xl Genetic Analyzer这个测序仪的数据，就是传说中的solid格式，也就是color space的测序数据，虽然拿到的测序数据也是fastq格式的， 4行代表一条read，但是第二行已经不是在是碱基序列啦，而是color的编码。Colors may be encoded either as numbers (0=blue, 1=green, 2=orange, 3=red) or as characters A/C/G/T (A=blue, C=green, G=orange, T=red).我们通常称为csfastq格式。

对于这种数据的处理，一般的比对软件是hold 不住的，我查了一下，SHRiMP，sequel和BFAST ，bowtie，是可以处理这种csfastq格式数据的比对的，我这里简单使用了最出名的SHRiMP 。

安装过程如下：

## http://compbio.cs.toronto.edu/shrimp/

cd ~/biosoft

mkdir SHRiMP && cd SHRiMP

wget http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz

tar zxvf SHRiMP_2_2_3.lx26.x86_64.tar.gz

cd SHRiMP_2_2_3

export SHRIMP_FOLDER=$PWD

## 如果需要永久使用就添加到.bashrc，如果只是用一次，就export即可。

软件说明书详细介绍了该软件的用法：http://compbio.cs.toronto.edu/shrimp/README

如果你的参考基因组很小，那么直接使用就好了。

如果是普通的小基因组和小的color space测序序列

$SHRIMP_FOLDER/bin/gmapper-cs test.csfasta \
  reference.fa \
  -N 4 -o 5 -h 80% >map.test.out 2>map.test.log

具体参数意义，大家看软件说明书吧。

或者对于miRNA来说

##　　We project the database with:

$SHRIMP_FOLDER/utils/project-db.py --seed 00111111001111111100,00111111110011111100,00111111111100111100,00111111111111001100,00111111111111110000 \

--h-flag --shrimp-mode ls miRBase/hairpin.human.fa

##

$SHRIMP_FOLDER/bin/gmapper-ls -L hairpin.human-ls SRR1542716.fastq --qv-offset 33 \

-o 1 -H -E -a -1 -q -30 -g -30 --qv-offset 33 --strata -N 8 >map.out 2>map.log

如果你的参加基因太大，超过了你的内存限制，那么就需要技巧了。

代码也不难，如下：

$SHRIMP_FOLDER/utils/split-db.py --ram-size 14 --prefix hg18 hg18.fa

$SHRIMP_FOLDER/utils/project-db.py --shrimp-mode ls hg18-14gb-*.fa

 for i in 1 2 3 4; do \
      $SHRIMP_FOLDER/bin/gmapper-ls -L hg18-14gb-12_12_12_12seeds-${i}of4-ls \
      reads.500kx2.36bp.ls.fa \
      -N 8 -p opp-in -I 50,500 -m 20 -i -25 -g -40 -e -10 -E \
      >map.db${i}of4.sam 2>map.db${i}of4.log
    done
  [...]
 ls map.db*.sam

$SHRIMP_FOLDER/bin/mergesam reads.500kx2.36bp.ls.fa map.db?of4.sam > map.sam

最后的map.sam文件就是我们比对结果啦！

sam文件我就不解释啦！

因为把参考基因组分开，还是很麻烦，而且耗时的，我并没有那样做，我的机器1T的内存，我不觉得有什么基因组会超出我的内存限制

生信菜鸟团 » color space

用 SHRiMP 来比对color space的数据