使用ebi数据库直接下载fastq测序数据的改进脚本

昨天安排学徒分享了我们全国巡讲的生信爆款入门课,大家关于下载fastq测序数据最常见的问题,就是ncbi的sra数据库访问慢,学徒写了一个shell脚本批量从ebi数据库下载,然后被吐槽比较难懂,而且不智能。我稍微改进一下:

在EBI数据库搜索自己感兴趣的文章的项目地址,然后选择就可以拿到全部fastq链接,如下:

fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/003/SRR7707733/SRR7707733_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/003/SRR7707733/SRR7707733_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/004/SRR7707734/SRR7707734_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/004/SRR7707734/SRR7707734_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/005/SRR7707735/SRR7707735_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/005/SRR7707735/SRR7707735_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/006/SRR7707736/SRR7707736_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/006/SRR7707736/SRR7707736_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/007/SRR7707737/SRR7707737_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/007/SRR7707737/SRR7707737_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/008/SRR7707738/SRR7707738_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/008/SRR7707738/SRR7707738_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/009/SRR7707739/SRR7707739_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/009/SRR7707739/SRR7707739_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/000/SRR7707740/SRR7707740_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/000/SRR7707740/SRR7707740_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/001/SRR7707741/SRR7707741_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/001/SRR7707741/SRR7707741_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/002/SRR7707742/SRR7707742_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/002/SRR7707742/SRR7707742_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/003/SRR7707743/SRR7707743_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/003/SRR7707743/SRR7707743_2.fastq.gz

这个项目地址是:https://www.ebi.ac.uk/ena/data/search?query=PRJNA486533

首先使用conda安装aspera

conda create -n download
conda activate download
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
which ascp
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/etc/asperaweb_id_dsa.openssh

我们已经多次介绍过conda细节了,这里就不再赘述。

然后写出第一个aspera下载命令

关于aspera命令参数细节,大家自行搜索哦:

ascp -QT -l 300m -P33001 \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR770/003/SRR7707743/SRR7707743_1.fastq.gz .

可以看到,就是把我们前面拿到的fastq的aspera链接不停的放在命令里面,就可以循环下载啦。

最后写批量的脚本

cat fq.txt |while read id
do
ascp -QT -l 300m -P33001 \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \
era-fasp@$id .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &

得到的文件如下:

2.0G Feb 11 18:38 SRR7707733_1.fastq.gz
2.1G Feb 11 18:49 SRR7707733_2.fastq.gz
2.2G Feb 11 19:00 SRR7707734_1.fastq.gz
2.3G Feb 11 19:12 SRR7707734_2.fastq.gz
2.9G Feb 11 19:28 SRR7707735_1.fastq.gz
3.1G Feb 11 19:44 SRR7707735_2.fastq.gz
2.6G Feb 11 20:00 SRR7707736_1.fastq.gz
2.9G Feb 11 20:17 SRR7707736_2.fastq.gz
2.7G Feb 11 20:34 SRR7707737_1.fastq.gz
3.0G Feb 11 20:54 SRR7707737_2.fastq.gz
2.9G Feb 11 21:14 SRR7707738_1.fastq.gz
3.1G Feb 11 21:33 SRR7707738_2.fastq.gz
3.0G Feb 11 21:57 SRR7707739_1.fastq.gz
3.2G Feb 11 22:13 SRR7707739_2.fastq.gz
2.3G Feb 11 23:13 SRR7707740_1.fastq.gz
2.5G Feb 11 23:41 SRR7707740_2.fastq.gz
2.8G Feb 11 23:56 SRR7707741_1.fastq.gz
3.0G Feb 12 00:13 SRR7707741_2.fastq.gz
2.7G Feb 12 00:31 SRR7707742_1.fastq.gz
3.0G Feb 12 00:50 SRR7707742_2.fastq.gz
2.5G Feb 11 18:08 SRR7707743_1.fastq.gz
2.7G Feb 12 01:07 SRR7707743_2.fastq.gz

可以看到,下载速度还算ok啦,基本上是15-20分钟一个样本。

拿到fastq测序数据之后呢?

当然是走各种各样的NGS流程啦,同样是在B站有教学视频,全栈生信工程师的NGS组学技能

分别是4,5,6,7个小时的教学视频,主要是依托于我在生信技能树/生信菜鸟团过去五年举办的各种NGS组学线上教学经验,相关推文目录是:

如果你留心观察,可以看到近十万的生信工程师都是靠我的这些教学指引来掌握不同的NGS数据处理技术的。

当然了,大部分人不会直接写,从我这里学习的,不过没关系哈,资料还是给大家。部分NGS组学讲义思维导图在:

同样的,我也为每个组学视频课程,设置了练习题:

基本上每个过来我这边学习一个月以上的学徒,我都会让他们学习多种组学(围绕着中心法则),而且有了Linux基础和R语言能力后, 跟着我们的视频教程很容易就学会基础流程,毫无压力。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

Comments are closed.