生物信息学学者学习mysql之路

ulwvfje — Fri, 16 Oct 2015 10:49:20 +0000

我一直都知道mysql其实很有用的，哪怕是在bioinformatics领域。也断断续续的看过不少mysql教程，只是苦于没有机会应用。毕竟应用才是最好的学习方法，正好这些天需要用了，我就又梳理了一遍作为一个生物信息学学者，该如何学习mysql数据库。

先看中文教程：http://www.cnblogs.com/mr-wid/archive/2013/05/09/3068229.html

然后再搜搜一堆技巧

https://dev.mysql.com/doc/refman/5.1/en/counting-rows.html

http://www.w3schools.com/sql/sql_func_count.asp

https://dev.mysql.com/doc/refman/5.0/en/pattern-matching.html

http://hahaxiao.techweb.com.cn/archives/477.html

差不多就可以开始啦。

我们不拿数据库来做网页，所以需要的仅仅是查询公共数据库的数据，当然，一般人都会选择直接去网页可视化的查询，或者去ftp批量下载后自己写脚本来查询，我以前也是这样想的，所以感觉mysql没什么用，因为它能做的，我写一个脚本都能做到。但是任何事物能发展到如此流行的程度毕竟还是有它的优点的。

而在我看来，mysql的优点就是，不需要存储大量的文件信息，随查随用，如果我们想把数据库备份到本地，就要建立一大堆的文件夹，存放各种refgene信息呀，entrez gene信息呀，转录本，外显子等等各个文件夹，每个文件夹下面还有一堆文件，而且还要分物种存储，总之就是很麻烦，但是在数据库就不一样啦。

比如我们可以连接UCSC的数据库（前提是你的机器里面可以允许mysql这个命令，而且你可以联网）

mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A

就这么简单，你就用mysql远程登录了UCSC的数据库，可以show databases;或者use database hg19 ; 等等

里面有两百多个数据库，主要是多物种多版本，然后如果我们看hg19这个数据库，里面还有一万多个数据表，包含着hg19的全面信息。

还有很多其它的公共数据库可以练习
来自于：https://www.biostars.org/p/474/#9095

for example, I would cite:

UCSC http://genome.ucsc.edu/FAQ/FAQdownloads#download29
ENSEMBL http://uswest.ensembl.org/info/data/mysql.html
GO http://www.geneontology.org/GO.database.shtml#mirrors

1000 Genomes: since June 16, 2011: http://www.1000genomes.org/public-ensembl-mysql-instance

mysql -h mysql-db.1000genomes.org -u anonymous -P 4272

Flybase has direct access to its postgres chado database.
http://flybase.org/forums/viewtopic.php?f=14&t=114
hostname: flybase.org port: 5432 username: flybase password: no password database name: flybase
e.g. psql -h flybase.org -U flybase flybase

mysql -h database.nencki-genomics.org -u public
mysql -h useastdb.ensembl.org -u anonymous -P 5306

你都可以登录进去看看里面有什么，也可以练习练习mysql的语法，但是增删改查种的查是可以用的

然后我们可以用R或者perl或者Python来连接数据库，也是蛮好用的，我现在比较倾向于R

所以我就简单看了一下这个包的说明书，然后成功连接了

#Connect to the MySQL server using the command:

#mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A

#The -A flag is optional but is recommended for speed

library(RMySQL)

my.host="genome-mysql.cse.ucsc.edu";

my.port="";

my.user="genome";

my.password="";