生信菜鸟团 » sratoolkit

自学CHIP-seq分析第三讲~公共测序数据下载

ulwvfje — Tue, 05 Jul 2016 00:26:27 +0000

这一步跟自学其它高通量测序数据处理一样，就是仔细研读paper，在里面找到作者把原始测序数据放在了哪个公共数据库里面，一般是NCBI的GEO，SRA，本文也不例外，然后解析样本数，找到下载链接规律

## step1 : download raw data

cd ~

mkdir CHIPseq_test && cd CHIPseq_test

mkdir rawData && cd rawData

## batch download the raw data by shell script :

for ((i=593;i<601;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492/SRR1042$i/SRR1042$i.sra;done

很容易就下载了8个测序文件，每个样本的数据大小，测序量如下

621M Jun 27 14:03 SRR1042593.sra (16.9M reads)

2.2G Jun 27 15:58 SRR1042594.sra (60.6M reads)

541M Jun 27 16:26 SRR1042595.sra (14.6M reads)

2.4G Jun 27 18:24 SRR1042596.sra (65.9M reads)

814M Jun 27 18:59 SRR1042597.sra (22.2M reads)

2.1G Jun 27 20:30 SRR1042598.sra (58.1M reads)

883M Jun 27 21:08 SRR1042599.sra (24.0M reads)

2.8G Jun 28 11:53 SRR1042600.sra (76.4M reads)

虽然下载的SRA格式数据也是一个很流行的标准，但它只是数据压缩的标准，几乎没有软件能直接跟SRA的格式的测序数据来进行分析，我们需要转成fastq格式，代码如下：

## step2 : change sra data to fastq files.

## cell line: MCF7 // Illumina HiSeq 2000 // 50bp // Single ends // phred+33

## http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52964

## ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033492

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump $id;done

rm *sra

解压的详情如下，可以看到SRA格式有6~9倍的压缩了，比zip格式压缩的2~3倍高多了

## 621M --> 3.9G

## 2.2G --> 14G

## 541M --> 3.3G

## 2.4G --> 15G

自学miRNA-seq分析第三讲~公共测序数据下载

ulwvfje — Sat, 25 Jun 2016 09:08:43 +0000

前面已经讲到了该文章的数据已经上传到NCBI的SRA数据中心，所以直接根据索引号下载，然后用SRAtoolkit转出我们想要的fastq测序数据即可。下载的数据一般要进行质量控制，可视化展现一下质量如何，然后根据大题测序质量进行简单过滤。所以需要提前安装一些软件来完成这些任务，包括： sratoolkit /fastx_toolkit /fastqc/bowtie2/hg19/miRBase/SHRiMP

下面是我用新服务器下载安装软件的一些代码记录，因为fastx_toolkit /fastqc我已经安装过，就不列代码了，还有miRBase的下载，我在前面第二讲里面提到过，传送门：自学miRNA-seq分析第二讲~学习资料的搜集

## pre-step: download sratoolkit /fastx_toolkit_0.0.13/fastqc/bowtie2/hg19/miRBase/SHRiMP

## http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

## http://www.ncbi.nlm.nih.gov/books/NBK158900/

## 我这里特意挑选的二进制版本程序下载的，这样直接解压就可以用，但是需要挑选适合自己的操作系统的程序。

cd ~/biosoft

mkdir sratoolkit && cd sratoolkit

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.6.3/sratoolkit.2.6.3-centos_linux64.tar.gz

##

## Length: 63453761 (61M) [application/x-gzip]

## Saving to: "sratoolkit.2.6.3-centos_linux64.tar.gz"

tar zxvf sratoolkit.2.6.3-centos_linux64.tar.gz

cd ~/biosoft

mkdir bowtie && cd bowtie

wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.9/bowtie2-2.2.9-linux-x86_64.zip/download

#Length: 27073243 (26M) [application/octet-stream]

#Saving to: "download"

mv download bowtie2-2.2.9-linux-x86_64.zip

unzip bowtie2-2.2.9-linux-x86_64.zip

## http://compbio.cs.toronto.edu/shrimp/

mkdir SHRiMP && cd SHRiMP

wget http://compbio.cs.toronto.edu/shrimp/releases/SHRiMP_2_2_3.lx26.x86_64.tar.gz

tar zxvf SHRiMP_2_2_3.lx26.x86_64.tar.gz

cd SHRiMP_2_2_3

export SHRIMP_FOLDER=$PWD ## 这个软件使用的时候比较奇葩，需要设置到环境变量，不能简单的调用全路径

SHRiMP这个软件比较小众，我也是第一次听说过，本来我计划是能用bowtie搞定，就不麻烦了，但是第一次比对出了一个bug，就是下载的miRNA序列里面的U没有转换成T，所以导致比对率非常之低，所以我不得不根据文章里面记录的软件SHRiMP 来做比对，最后发现比对率完全没有改善，搞得我都在怀疑是不是作者乱来了。

下面是下载数据，质量控制的代码，希望大家可以照着运行一下：

## step1 : download raw data

mkdir miRNA_test && cd miRNA_test

echo {14..19} |sed 's/ /\n/g' |while read id; \

do wget "ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP045/SRP045420/SRR15427$id/SRR15427$id.sra" ;\

done

## step2 : change sra data to fastq files.

## 主要是用shell脚本来批量下载

ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump $id;done

rm *sra

## 33M --> 247M

#Read 1866654 spots for SRR1542714.sra

#Written 1866654 spots for SRR1542714.sra

## step3 : download the results from paper

## http://www.bio-info-trainee.com/1571.html

## ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1009/suppl/GSE1009_RAW.tar

mkdir paper_results && cd paper_results

wget ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE60nnn/GSE60292/suppl/GSE60292_RAW.tar

## tar xvf GSE60292_RAW.tar

ls *gz |while read id ; do (echo $id;zcat $id | cut -f 2 |perl -alne '{$t+=$_;}END{print $t}');done

ls *gz |xargs gunzip

## step4 : quality assessment

ls *fastq | while read id ; do ~/biosoft/fastqc/FastQC/fastqc $id;done

## Sequence length 8-109

## %GC 52

## Adapter Content passed

## write a script : :: cat >filter.sh

ls *fastq |while read id

do

echo $id

~/biosoft/fastx_toolkit_0.0.13/bin/fastq_quality_filter -v -q 20 -p 80 -Q33 -i $id -o tmp ;

~/biosoft/fastx_toolkit_0.0.13/bin/fastx_trimmer -v -f 1 -l 27 -i tmp -Q33 -z -o ${id%%.*}_clean.fq.gz ;

done

rm tmp

## discarded 12%~~49%%

ls *_clean.fq.gz | while read id ; do ~/biosoft/fastqc/FastQC/fastqc $id;done

mkdir QC_results

mv *zip *html QC_results

这个代码是我自己根据文章的理解写出的，因为我本身不擅长miRNA数据分析，所以在进行QC的时候参数选择可能并不是那么友好，如果有高手能指正就最好了，可以直接打我电话告诉我，或者发邮箱给我，邮箱用户名是jmzeng1314，是163邮箱。

~/biosoft/fastx_toolkit_0.0.13/bin/fastq_quality_filter -v -q 20 -p 80 -Q33 -i $id -o tmp ;

~/biosoft/fastx_toolkit_0.0.13/bin/fastx_trimmer -v -f 1 -l 27 -i tmp -Q33 -z -o ${id%%.*}_clean.fq.gz ;

最后得到的clean.fq.gz系列文件，就是我需要进行比对的序列啦。

SRA工具sratoolkit把原始测序数据转为fastq格式

ulwvfje — Thu, 19 Mar 2015 01:32:04 +0000

一，下载该软件

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz

tar xzf sratoolkit.current-centos_linux64.tar.gz

解压直接使用即可，里面有一大堆的软件，针对不同的测序仪，不同的数据

我一般只用/home/jmzeng/down_software/sratoolkit.2.3.5-2-ubuntu64/bin/fastq-dump

/home/jmzeng/down_software/sratoolkit.2.3.5-2-ubuntu64/bin/fastq-dump --split-3 SRR1793917.sra

二：下载数据

首先去NCBI里面搜索并找到你想要的数据的SRA地址，然后写脚本批量下载。

如果文献里面的SRA号，那么可以直接打开NCBI里面的搜索界面下载

如果文献里面是SRP号，那么该SRP会涉及到好几个SRA数据，得一个个开网站下载

三：用命令解压数据

下载之后的数据是

非常简单的命令，就可以把当前文件夹下的所有sra都解压开来！

[shell]

for i in *sra
do
echo $i
/home/jmzeng/bio-soft/sratoolkit.2.3.5-2-ubuntu64/bin/fastq-dump --split-3 $i
done

[/shell]

解压的同时它也会显示每个SRA文件的数据量

四：结果文件解读

可以看到，每个SRA文件都产生了两个reads，分别是左右两端测序，说明这个SRA文件是双端测序策略。

随便打开一个fastq文件可以看到，它的读长是300bp