在美帝的服务器的prefetch和aspera下载比较

如果你的服务器在中国大陆,基本上就放弃prefetch啦,直接aspera即可。但是如果是在海外,就可以尝试比较prefetch和aspera下载速度。
需要注意的是:什么,SRA测序数据要收费了,同样的,需要熟悉GEO和SRA数据库编号规则:

  • 解读GEO数据存放规律及下载,一文就够
  • 解读SRA数据库规律一文就够
    获得文献里面的数据集里面的样本的数据库里面的ID列表,但是ncbi的sratoolkit有可能不好用,比如prefetch命令下载sra文件速度太慢,可以参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好aspera从ebi下载的软件环境,然后去EBI里面搜索到的 fq.txt 路径文件:
  • 比如一个文章的测序数据项目地址是: https://www.ebi.ac.uk/ena/browser/view/PRJEB33490

    可以使用conda安装aspera和prefetch

    其中prefetch属于 sra-tools,而aspera属于aspera-cli,都是需要先搜索它们拿到官方下载方式,我已经给大家找好了,如下:

    # wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
    # bash Miniconda3-latest-Linux-x86_64.sh 
    # echo $SHELL
    conda create -y -n download 
    conda activate download 
    conda install -y -c hcc aspera-cli
    conda install -y -c bioconda sra-tools
    which ascp 
    ## 一定要搞清楚你的软件被conda安装在哪
    ls -lh ~/miniconda3/etc/asperaweb_id_dsa.openssh
    

    我们已经多次介绍过conda细节了,这里就不再赘述。

  • conda管理生信软件一文就够
  • 生信技能树B站软件安装视频
  • https://www.bilibili.com/video/av28836717

    开始测试

    我们直接在 https://www.ebi.ac.uk/ena/browser/view/PRJEB33490 找到第一个样本的数据来进行测试,全部的代码如下:
    首先看看wget的速度:

    wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/ERR344/007/ERR3445007/ERR3445007_1.fastq.gz
    

    因为这个数据太小了,所以我们的服务器的网速体现不出来,其实正常情况下都是100M/s的
    image-20200722151014140
    然后测试prefetch命令:

    prefetch ERR3445007
    

    速度也是太快了,我根本就反应不过来:
    image-20200722151212756
    最后是aspera,

    id=fasp.sra.ebi.ac.uk:/vol1/fastq/ERR344/007/ERR3445007/ERR3445007_1.fastq.gz
    ascp -QT -l 300m -P33001 \
    -i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \
    era-fasp@$id .
    

    也是数据量太小了 ,根本就体现不出来我们的服务器的网络优势,唉,高手寂寞啊!
    image-20200722151357731
    测试了另外的数据集,发现速度是接近200Mb/s,一般般啦!
    4461595402840_.pic

    那么重点来了,哪里可以买到这样的ngs数据处理服务器呢?

    上海有一家公司,叫做云筏,专门针对科研用户,推出了共享云产品,购买地址: https://my.cloudraft.cn/baremetal/buy.html
    之前我们的618活动是下面3款服务器的6.18折扣:

  • (学习型)共享24核64G内存(年付原价500元)
  • (进阶型)共享36核128G内存(年付原价1200元)
  • (专业型)共享48核256G内存(年付原价2400元)
    但是非常多的朋友购买后需要下载海外数据,所以我们紧急推出了《进阶型-海外》+ 《专业型-海外》,所以现在大家可以看到5款共享服务器啦:
  • 学习型-海外,共享24核64G内存,年付原价500
  • 进阶型-国内,共享36核128G内存,年付原价1200
  • 进阶型-海外,共享36核128G内存,年付原价1440
  • 专业型-国内,共享48核256G内存,年付原价2400
  • 专业型-海外,共享48核256G内存,年付原价3000
    但是呢,618的6.18折亏本大甩卖的活动肯定是没有啦,不过今天是8月8号,在广大粉丝的恳求下,我们仍然是要折扣活动,本来是想着打8.8折,但是感觉没啥力度,所以干脆就8折:
  • 学习型-海外,共享24核64G内存,8折抢购价 400
  • 进阶型-国内,共享36核128G内存,8折抢购价 960
  • 进阶型-海外,共享36核128G内存,8折抢购价 1152
  • 专业型-国内,共享48核256G内存,8折抢购价 1920
  • 专业型-海外,共享48核256G内存,8折抢购价 2400
    这样的活动,仍然是持续3天,下一次活动不知道是什么时候,早买早享受哈!
    当然了,如果你对服务器要求比较高,也可以选择独享,我有一个云筏-科研云限量开放的95折购买链接:https://my.cloudraft.cn/?u=A7BD26分享给您, 首次购买云服务器、云虚拟主机可享受95折优惠!(注意:下单的时候输入优惠码8FEAD8哦,即可享受折扣)
    如果你有了服务器,那么多个NGS组学实战视频你都可以follow啦:
  • 免费视频课程《RNA-seq数据分析》
  • 免费视频课程《WES数据分析》
  • 免费视频课程《ChIP-seq数据分析》
  • 免费视频课程《ATAC-seq数据分析》

    文末友情推荐

    要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160
    如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:

  • 数据挖掘学习班第5期(线上直播3周,马拉松式陪伴,带你入门),原价4800的数据挖掘全套课程, 疫情期间半价即可抢购。
  • 生信爆款入门-第7期(线上直播4周,马拉松式陪伴,带你入门),原价9600的生信入门全套课程,疫情期间3.3折即可抢购。
    如果你课题涉及到转录组,欢迎添加一对一客服:详见:你还在花三五万做一个单细胞转录组吗?
    号外:生信技能树知识整理实习生招募,长期招募,也可以简单参与软件测评笔记撰写,开启你的分享人生!另外:绝大部分生信技能树粉丝都没有机会加我微信,已经多次满了5000好友,所以我开通了一个微信好友,前100名添加我,仅需150元即可,3折优惠期机会不容错过哈。我的微信小号二维码在:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》

Comments are closed.