04

生信人必学ftp站点之 dbsnp

这个数据库我也不想多解释了,也是host在NCBI上,不仅有常见的模式生物已经被研究过的所有variation位点信息,还有很多其它物种的数据,主站点是:ftp://ftp-trace.ncbi.nih.gov/snp/organisms/
人类是物种ID是9606,可以看到variation位点信息有基于hg19和hg38的两种下载方式,如果还有其它需求,可以自己用基因组坐标转换工具。在NCBI的snp页面也有对各种物种的variation位点信息记录文件的统计:http://www.ncbi.nlm.nih.gov/snp/   http://www.ncbi.nlm.nih.gov/SNP/同时也是NCBI做好的一个网页版查询工具,因为下载一个 variation位点信息记录文件 动辄就是十几个G,一般人也不会处理那个文件,不知道从里面应该如何提取需要的信息,这时候学习它的网页版查询工具也挺好的。

Continue reading

02

生信人必学ftp站点之1000genomes

千人基因组计划的重要性我也不想多说了,由于时间跨度比较长,最终的数据不只是一千人,最新版共有NA编号开头的1182个人,HG开头的1768个人!它的官方网站是:有一个ppt讲得很清楚如何通过官网做的data portal来下载数据:https://www.genome.gov/pages/research/der/ichg-1000genomestutorial/how_to_access_the_data.pdf 我不喜欢可视化的界面,我比较喜欢直接进入ftp自己翻需要的数据,千人基因组计划不仅仅有自己的ftp站点,而且在NCBI,EBI和sanger研究所里面也有数据源可以下载, 是非常丰富的生信入门资源!

Continue reading

02

生信人必学ftp站点之NCBI-GEO

NCBI的重要性我就不多说了,Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据!所有的数据均可以在ftp站点下载:ftp://ftp-trace.ncbi.nih.gov/geo/ Continue reading

21

Linux服务器基础知识

想了想,既然是菜鸟教程,那就索性再介绍点更基础的东西,基本上只要是大学毕业的都能看懂,不需要懂计算机了。首先讲讲linux服务器吧,因为生物信息也算是半个大数据分析,所以我们平常的办公电脑一般都是不能满足需求的,大部分实验室及公司都会自己配置好服务器给菜鸟们用,菜鸟们首先要拿到服务器的IP和高手给你的用户名和密码。

一般我们讲服务器,大多是linux系统,而我这里所讲的linux系统呢,特指ubuntu,其余的我懒得管了,大家也不要耗费无谓的时间纠结那些名词的不同!

登录到服务器有两种方法,一种是ssh,传输你的命令给服务器执行,另一种是ftp,和服务器交换文件。而ssh我们通常用putty,xshell等等。ftp呢,我们可以用winscp,xshell,所以我一直都用xshell,因为它两者都能搞定!

Xshell软件自行搜索下载,打开之后新建一个连接,然后登陆即可。

Linux服务器基础知识405

然后输入以下命令,可以查看服务器配置,包括cpu。内存,还有硬盘

cat /proc/cpuinfo |grep pro|wc -l

free -g

df -h

Linux服务器基础知识488

 

这个服务器配置好一点,有80个cpu,内存256G,硬盘有2个11T的,是比较成熟的配置。

Linux服务器基础知识536

 

这个是一个小型服务器。也就24个核,64G的内存,但是存储量有点小呀,其实可以随便花几百块钱买个1T的硬盘挂载上去的。

然后linux的其它命令大家就得自己去搜索一个个使用,然后熟悉,记牢,然后创新啦!

我随便敲几个我常用的吧: ls cd mkdir rm cp cat head tail more less diff grep awk sed grep perl 等等!

呀,突然间发现我才介绍了ssh的方法登陆服务器并且发送命令在服务器上面运行,下面贴图如何传输文件。一般xshell的菜单里面有绿的文件夹形式的标签就是打开ftp文件传输,这种可视化的软件,大家慢慢摸索吧!

Linux服务器基础知识830