阿里云生信配置攻略

之前我们生信菜鸟团已经发布的:购买入门级服务器免费送Linux直播培训服务 ,提到了可以购置一款《1核2G服务器》标准品,既可以练习Linux命令,也可以打搭建一个博客:五分钟搞定你的个人博客,还可以做图床,或者隧道。
因为再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理

  • 生信分析人员如何系统入门R(2019更新版)
  • 生信分析人员如何系统入门Linux(2019更新版)
    但是,这个超级便宜的服务器真的是配置只能做入门Linux命令的练习,根本就没办法做NGS数据分析,而能够做ngs数据处理的服务器一般来说起码得8核32G内存,硬盘1~5Tb,这个价格正常情况下一年就好几万了。非常的不划算,我们的云服务器交流群有朋友(cici)推荐了一个既省钱又体验超级配置的云服务器解决方案!

下面是cici的投稿

学Linux你可能真的需要一台服务器

习惯于Windows系统可视化界面的我们一听到Linux黑白屏就心生畏惧,多年以前二代测序刚兴起的时候尝试过在自己的台式机上装ubuntu和win双系统,最后以重装系统告终;前一阵子误入“歧途”,为了安装处理单细胞所需要的velocyto.R,在win10下折腾了一周的docker,最后因为找不到虚拟机的工作目录和本地实际目录的关联而告终。无意中发现自己的云端服务器上很久以前配置的有RStudio server ,直接在云端的Linux上顺利安装了这个velocyto.R,进而顺利跑完了那个单细胞RNA速率分析的项目,香,真香!
以下内容均为本人在师兄指导下使用阿里云云服务器ECS搭建平台并进行生信分析的心得体会,没有收到马爸爸一分钱的广告费,反而这一年贡献了将近2K RMB(目前还没找到能给报销的金主爸爸)。(话说一年2K,学了些知识,跑了些项目,个人觉得还算值,所以分享给大家。)
image-20200709105301787

首先向大家展示一下我现在的配置和费用情况:

image-20200709121358220
image-20200709121417580

然后教大家如何“薅羊毛”

step1. 纯新手建议关注阿里云试用中心

image-20200709122056984
上面是我刚访问他们网页截的图,前面4个企业用户专享的需要企业实名认证,新用户可以选后面两个“开发者专享”的试用,我刚点了一下,因为已经是老用户了,所以无法领取,新注册的可以试试。不管配置怎样,至少可以把Linux的基本操作学习一下,两周至一个月,也差不多上手了,省下了在自己电脑上折腾的时间和精力。(从我前面的截图上可以看到我的实例创建时间是去年八月底,我差不多七月份薅了阿里云一个月的羊毛。)(如果试用期结束还没有学会怎么办?出门右手边,到华为云、腾讯云家看看,羊肉贵不贵我不知道,羊毛应该都是有的,不用谢我,我叫lei feng。)

step2.购买自己的实例

阿里云服务器ECS自定义购买链接 ,我推荐大家选择“按量付费”,如果你跟我一样是初学者而且比较惜财的话(以下推荐均基于此假设),财大气粗的随意哈!
image-20200709132330298
地域及可用区:我推荐一是选择离你所在地实际距离比较近的,因为不同地域的实例之间内网互不相通,选择靠近你自己的地域,可降低网络时延、提高你的访问速度;再就是有优惠的,所以我到现在还是用的华北3(张家口)。
实例规格:选择够用的就行,因为是弹性配置,可以随时升降配,所以这个不是瓶颈,平衡个人需求与费用负担就可以了。建议一开始学的摸索阶段配置可以低一点,甚至选择最便宜的配置就行,我到现在也没搞懂通用型、计算型和内存型除了费用以外有啥实质上的区别。但是有一点需要强调,也就是我最开始学生信第一次很挫败的体会:我当时用的免费的单核的服务器,运行fastqc -t 8的时候总是报错,说内存不够,折腾了好久,都想放弃了,后来师兄指出问题所在,去掉-t 8这个线程参数就可以了,算是把我在崩溃的边缘捞了起来。给大家选个最便宜的演示:
image-20200709133919404
镜像:选默认的就行,我反正没怎么用过。据说重装系统、克隆配置的时候有用。
image-20200709135414091
存储:这块儿我要说道说道:首先这块儿你用不用它都是要扣费的,所以有很多道道在里面。系统盘,默认是40GiB,可以在20~500之间进行选择,这个系统盘相当于是你自己电脑的C盘,系统的安装、环境的配置以及参考基因组和索引的存放,都需要占用空间,以我自己用的为例,我的200GiB系统盘现在也就只剩余15%左右的空间了,有些软件和安装包装起来很看人品和网速的,我除了最开始重装过几回系统以外就再也没有重装了,从去年八月底至今,宁愿每小时7分钱的烧钱。下面有一个+增加一块数据盘,这个相当于你自己电脑的D盘、E盘,随意,根据需求,想买多少买多少。我一般要跑项目的时候就买个500GiB的,从SRR到fastq到后续的bam等等,都在这个盘上,一般跑一二十个SRR的项目都还吃得消。万一遇到比较吃内存占空间的项目可以向老师请教大概的资源消耗情况,然后进行升降配。
image-20200709134113971
公网带宽:我选择“按固定带宽”,因为考虑到需要下载的数据都是十几G、几十G的,按流量估计要破产了。但是刚又仔细瞄了一下按流量计费的规则,好像流入不算,只算流出,那是不是意味着我从数据库下载SRR和参考基因组文件不算流量,用Xftp从云平台下载文件到本地才算?这个我没有试过,有兴趣的同道可以交流交流。
image-20200709135857561
image-20200709140314132
系统配置:这里推荐选择“自定义密码”,设置密码之后可以通过Xshell登录服务器。
image-20200709144616271
image-20200709144812755
至此,自己的实例就购买好了,点击创建实例即可。0.551=0.35+0.00038x200+0.125,其中0.35+0.125开机才收费,停机不收费,停机仅收0.00038x200=0.076元/小时的费用。这个配置基本上够用一阵子了,如果不够用了,可以看下面的云盘挂载和卸载。

step3.云盘挂载

假如前面的配置空间不够用了,需要再挂载数据盘,可以按如下操作,为了节省费用,我这里以100GiB的数据盘进行演示,实际可根据自己的需求进行购买。
image-20200709141632864100GiB的费用果然只要200GiB的一半,阿里算数还是很精准的。
image-20200709145103263
如果云盘状态都是绿色的“使用中”就意味着都在计费了,如果有显示“待挂载”的云盘,需要点击右上角“挂载云盘”挂载到相应的实例上。
启动实例,复制公网IP至Xshell,用户名root,密码为前面设置的密码登录服务器:
image-20200709145733512

fdisk -l #可以看到绿色框框里面有个107.4GB的盘没有使用。
df -lh #此时看不到/dev/vdb这个数据盘
fdisk /dev/vdb #之后依次输入以下命令进行磁盘的分区和挂载
n
p
1
enter #即回车键
enter #即回车键
w

image-20200709150215732

mkdir /data/ #创建挂载目录
mkfs -t ext3 /dev/vdb1 #对该盘进行格式化
mount /dev/vdb1 /data/ #将该盘挂载到/data/目录下

image-20200709150638622
我没有去折腾开机自动挂载,所以每次启动云服务器之后都要运行mount /dev/vdb1 /data/进行挂载,感兴趣的同学可以自己研究一下开机自动挂载。

step4.云盘释放

如果一个项目跑下地暂时不用数据盘存储了,可以搜教程清空数据盘里的文件,然后点击“更多”这里的卸载:
image-20200709150940184
卸载之后查看该实例的云盘
image-20200709151106691
看样子这里好像没有那块100GiB的数据盘了,但是回到账户下面的“存储与快照”还是可以看到这块数据盘是“待挂载”状态:
image-20200709151353630
需要点击“更多”这里的“释放”才会彻底停止这块数据盘的计费。
image-20200709151533501
总之要多去自己的账户里面“云服务器ECS”目录下面看看,看看“实例与镜像”是不是你正在使用的系统盘和数据盘,去“存储与快照”下面看看“云盘”有没有未使用但仍在计费的,我最开始就默默地浪费掉了很多不该花的钱。

step5.关于nohup的一点提醒

因为这里选择的是按量计费,用或不用,费用相差还是蛮大的,如果想用nohup把程序放到后台运行,当然希望关掉自己的笔记本之后云端还能乖乖地跑,不然就是白花花的银子流跑了。所以,如果使用nohup的话,记得用exit退出Xshell,而不是直接叉掉,因为直接叉掉会导致nohup对应的进程被通知需要一起shutdown,云端服务器是不会在后台运行的,不信你试试!

step6.记得把阿里云的客服电话设为拦截

不要问我为什么,因为阿里云生怕你欠费,会不停地打电话催费的(因为我每次最多只充值200,qiong)。可以保留短信提醒。

最后推荐大家使用阿里云的app

因为阿里云的网页版设计的太复杂了,每次登录进去启动服务器(即“实例”)都要点击好多层才到达,所以建议在手机上装个阿里云的app,从“产品控制台”可以很容易找到“云服务器ECS”并进行启动和停止等操作,还可以监控CPU使用率、内网出入流量等数据,进而判断服务器是否按照你的命令在正常运行。
相当于新买了一台服务器,自己拥有至高无上的root权限,想怎么折腾就怎么折腾,大不了释放了重新再买再装,非常适合早期的折腾,一旦用顺手了就可以固定下来,真的很香!
祝愿大家都学有所获、学有所成,加油!
你会发现,生信技能树jimmy的1.3万篇教程,多个NGS组学实战视频你都可以follow啦:

Comments are closed.