很多事情不一定有答案

很多交流群都有粉丝咨询文献的ngs数据下载问题,因为生信技能树在B站的绝大部分视频课程都是三五年前录制的,所以很多软件更新了,那个时候也不怎么流行conda和aspera高速下载!我那个时候也没有意识到在中国大陆的确的小伙伴使用sra-toolkit的prefetch命令下载sra数据文件居然是很慢!!!

不过,最近几年我的教程都是conda和aspera高速下载啦,但即使是这样,仍然是很多人反馈下载失败,有一些是Linux命令不熟悉,自己把代码写错,有一些是数据库下载源的问题,部分数据缺失是数据库的责任,并不是你的错!还有一些是网络问题,甚至是玄学,比如前两天可以,今天就不可以,或者说前面奋战了两个星期都失败,但是今天却无缘无故下载成功了!

这样的问题我也不好回答,因为我自己也遇到过这样的玄学!

安装自己的conda,每个用户独立操作

安装方法代码如下:

# 首先下载文件,20M/S的话需要几秒钟即可
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
# 接下来使用bash命令来运行我们下载的文件,记得是一路yes下去
bash Miniconda3-latest-Linux-x86_64.sh 
# 安装成功后需要更新系统环境变量文件
source ~/.bashrc

会看到如下所示的图:

image-20201227092253456

安装好conda后需要设置镜像。

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda
conda config --set show_channel_urls yes

接下来这个conda就可以任意创建环境,以及下载数据啦。如果你对于conda有什么不懂的,可以考虑加入我们的conda交流群!前提是大家具备Linux基础哦,比如看完了《生信技能树》和《生信菜鸟团》同步宣传了:Linux公益课2021的视频。

生信小成之conda交流群

我们邀请到了,简书conda教程单篇阅读量破40万的人气作者卖萌哥为咱们《生信技能树》和《生信菜鸟团》粉丝在钉钉群直播授课。直播是免费的哈,赶快下载钉钉软件加入吧,“Linux公益课(2021) 生物信息学”群的钉钉群号:33840083,下周六(2021-01-16)晚上八点开课哈。

同时我们提供一个微信交流群(钉钉软件我们并不是随时在线,不方便交流,钉钉仅仅是直播授课时候开启聊天),还是老规矩,18 元进群,一个简单的门槛,隔绝那些营销号!仅此而已,考虑清楚哦! 进群方式详见公众号推文:很多事情不一定有答案(但是可以有交流渠道)

使用conda安装aspera

代码如下:

conda create -n download 
conda activate download 
conda install -y -c hcc aspera-cli
conda install -y -c bioconda sra-tools
which ascp 
## 一定要搞清楚你的软件被conda安装在哪
ls -lh ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh

我们已经多次介绍过conda细节了,这里就不再赘述。

创建一个下载脚本,文件名是 step1-aspera.sh ,内容如下:

cat fq.txt |while read id
do
ascp -QT -l 300m -P33001 \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \
era-fasp@$id .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &

下载数据集:FUSCCTNBC 成功

Fudan University Shanghai Cancer Center Triple Negative Breast Cancer (FUSCCTNBC)

如下所示:

mkdir -p ~/public_data/FUSCCTNBC
cd ~/public_data/FUSCCTNBC
conda activate download 
nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &

要保证那个 ~/public_data/FUSCCTNBC 文件夹下面有 fq.txt文件,内容节选如下:

fasp.sra.ebi.ac.uk:/vol1/fastq/SRR769/007/SRR7696207/SRR7696207_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR769/007/SRR7696207/SRR7696207_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR851/003/SRR8517853/SRR8517853_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR851/003/SRR8517853/SRR8517853_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR851/004/SRR8517854/SRR8517854_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR851/004/SRR8517854/SRR8517854_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR851/005/SRR8517855/SRR8517855_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR851/005/SRR8517855/SRR8517855_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR851/006/SRR8517856/SRR8517856_1.fastq.gz

下载数据集:2020-Chinese-ccRCC

https://www.ebi.ac.uk/ena/browser/view/PRJNA596338 转录组

https://www.ebi.ac.uk/ena/browser/view/PRJNA596359 肿瘤外显子

如下所示:

mkdir -p ~/public_data/ccrcc
cd ~/public_data/ccrcc
conda activate download 
nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &

要保证那个 ~/public_data/ccrcc 文件夹下面有 fq.txt文件,内容节选如下:

fasp.sra.ebi.ac.uk:/vol1/fastq/SRR107/051/SRR10744251/SRR10744251_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR107/051/SRR10744251/SRR10744251_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR107/052/SRR10744252/SRR10744252_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR107/052/SRR10744252/SRR10744252_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR107/053/SRR10744253/SRR10744253_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR107/053/SRR10744253/SRR10744253_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR107/054/SRR10744254/SRR10744254_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR107/054/SRR10744254/SRR10744254_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR107/055/SRR10744255/SRR10744255_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR107/055/SRR10744255/SRR10744255_2.fastq.gz

诡异的是第一次失败,就是前两天,报错如下:

Session Stop (Error: Failed to open TCP connection for SSH)
ascp: Failed to open TCP connection for SSH, exiting.

Session Stop (Error: Failed to open TCP connection for SSH)
ascp: Failed to open TCP connection for SSH, exiting.

今天我再运行这个同样的脚本,一切都没有改变,但是诡异的是,就成功了!

有了这些ngs数据然后呢

当然是去follow我的B站免费NGS数据处理视频课程,已经组建了微信交流群的有下面这些:

Comments are closed.