下载GEO数据太慢?快用axel

以下笔记分享来自于2019-11月学徒:


因为国内需要下载GEO芯片原始数据,但是下载速度真的感人,只有几k。老是找海外的朋友又觉得不好意思,所以就看看github大神有没有什么办法,果然找到了!!!

Axel

Axel 是 CLI (command-line interface) 下的一个多线程下载工具,通常我都用它取代 wget 下载各类文件,适用于 Linux 及 BSD 等 UNIX 类平台。在Ubuntu 上安装 axel 命令是:sudo apt-get install axel

github简介是

  • Axel tries to accelerate the download process by using multiple connections per file, and can also balance the load between different servers.

  • Axel tries to be as light as possible, so it might be useful on byte-critical systems.

  • Axel supports HTTP, HTTPS, FTP and FTPS protocols.

  • Thanks to the original developer of Axel, Wilmer van der Gaast, and everyone else who has contributed to it.

基本主流方式都支持了!!!

安装axel

mac安装特别方便,只需要用homebrew就好

####安装brew
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
###安装axel
brew install axel

至于Windows,大家自行搜索哦。

然后下面的参数,我简单罗列处理,我的命令如下:

axel -n 20 ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE12nnn/GSE12452/suppl/GSE12452_RAW.tar
###这里我只指定了连接数,还可以指定最大下载速度等等
#--max-speed=x -s x Specify maximum speed (bytes per second)
#--num-connections=x -n x Specify maximum number of connections
#--max-redirect=x Specify maximum number of redirections
#--output=f -o f Specify local output file
#--search[=n] -S[n] Search for mirrors and download from n servers
#--ipv4 -4 Use the IPv4 protocol
#--ipv6 -6 Use the IPv6 protocol
#--header=x -H x Add HTTP header string
#--user-agent=x -U x Set user agent
#--no-proxy -N Just don't use any proxy server
#--insecure -k Don't verify the SSL certificate
#--no-clobber -c Skip download if file already exists
#--quiet -q Leave stdout alone
#--verbose -v More status information
#--alternate -a Alternate progress indicator
#--help -h This information
#--timeout=x -T x Set I/O and connection timeout
#--version -V Version information

image-20200214234833005

速度真的很不错!!!2分43s下完

image-20200215000822209

另一个数据集

axel -n 20 ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE13nnn/GSE13597/suppl/GSE13597_RAW.tar

image-20200215000924019

其实也可以写脚本循环下载,我就2个数据集,就这样吧。

有一点不满意,会在99%卡一会儿,搞不懂为什么。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

Comments are closed.