生物信息学学者学习mysql之路

我一直都知道mysql其实很有用的，哪怕是在bioinformatics领域。也断断续续的看过不少mysql教程，只是苦于没有机会应用。毕竟应用才是最好的学习方法，正好这些天需要用了，我就又梳理了一遍作为一个生物信息学学者，该如何学习mysql数据库。

先看中文教程：http://www.cnblogs.com/mr-wid/archive/2013/05/09/3068229.html

然后再搜搜一堆技巧

https://dev.mysql.com/doc/refman/5.1/en/counting-rows.html

http://www.w3schools.com/sql/sql_func_count.asp

https://dev.mysql.com/doc/refman/5.0/en/pattern-matching.html

http://hahaxiao.techweb.com.cn/archives/477.html

差不多就可以开始啦。

我们不拿数据库来做网页，所以需要的仅仅是查询公共数据库的数据，当然，一般人都会选择直接去网页可视化的查询，或者去ftp批量下载后自己写脚本来查询，我以前也是这样想的，所以感觉mysql没什么用，因为它能做的，我写一个脚本都能做到。但是任何事物能发展到如此流行的程度毕竟还是有它的优点的。

而在我看来，mysql的优点就是，不需要存储大量的文件信息，随查随用，如果我们想把数据库备份到本地，就要建立一大堆的文件夹，存放各种refgene信息呀，entrez gene信息呀，转录本，外显子等等各个文件夹，每个文件夹下面还有一堆文件，而且还要分物种存储，总之就是很麻烦，但是在数据库就不一样啦。

比如我们可以连接UCSC的数据库（前提是你的机器里面可以允许mysql这个命令，而且你可以联网）

mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A

就这么简单，你就用mysql远程登录了UCSC的数据库，可以show databases;或者use database hg19 ; 等等

里面有两百多个数据库，主要是多物种多版本，然后如果我们看hg19这个数据库，里面还有一万多个数据表，包含着hg19的全面信息。

还有很多其它的公共数据库可以练习
来自于：https://www.biostars.org/p/474/#9095

for example, I would cite:

UCSC http://genome.ucsc.edu/FAQ/FAQdownloads#download29
ENSEMBL http://uswest.ensembl.org/info/data/mysql.html
GO http://www.geneontology.org/GO.database.shtml#mirrors

1000 Genomes: since June 16, 2011: http://www.1000genomes.org/public-ensembl-mysql-instance

mysql -h mysql-db.1000genomes.org -u anonymous -P 4272

Flybase has direct access to its postgres chado database.
http://flybase.org/forums/viewtopic.php?f=14&t=114
hostname: flybase.org port: 5432 username: flybase password: no password database name: flybase
e.g. psql -h flybase.org -U flybase flybase

mysql -h database.nencki-genomics.org -u public
mysql -h useastdb.ensembl.org -u anonymous -P 5306

你都可以登录进去看看里面有什么，也可以练习练习mysql的语法，但是增删改查种的查是可以用的

然后我们可以用R或者perl或者Python来连接数据库，也是蛮好用的，我现在比较倾向于R

所以我就简单看了一下这个包的说明书，然后成功连接了

#Connect to the MySQL server using the command:

#mysql --user=genome --host=genome-mysql.cse.ucsc.edu -A

#The -A flag is optional but is recommended for speed

library(RMySQL)

my.host="genome-mysql.cse.ucsc.edu";

my.port="";

my.user="genome";

my.password="";

my.db="hg19";

#there are 203 databases,such as hg18,hg38,mm9,mm10,ce10

con <- dbConnect(MySQL(), host=my.host, user=my.user,dbname=my.db)

dbListTables(con) # there are 11016 tables in this hg19 database;

是不是很简单呀，只有你认真的学习，其实这些应用的东西都还是蛮简单的。

下面这本书也比较好，就讲了R或者perl或者Python来连接数据库，很全面

http://bioinformatics.risha.me/category/mysql/

当然，如果想看mysql在bioinformatics方面的应用，下面还有很多学习资料

http://www.biomedcentral.com/1471-2105/11/342

http://bioinformatics.oxfordjournals.org/content/28/14/1947.full.pdf

https://rostlab.org/owiki/images/7/73/Protocol_goldberg.pdf

http://webdoc.nyumc.org/nyumc/files/sun-lab/attachments/CPBI.Ch9.Biol.DB.pdf

http://www.bsi.umn.edu/resources/perl3.pdf

http://www.cs.toronto.edu/~leijiang/ta/mie453/tutorial/tut5/

这个课程比较全面：Biological Databases in Bioinformatics (BioE 594)

http://bioinformatics.bioe.uic.edu/online/BioE594_db.shtml

进阶版还可以看看具体事例，GO数据库的设计：http://geneontology.org/page/lead-database-schema

从这个来看，python要比perl 好很多http://www.personal.psu.edu/iua1/courses/files/2010/week15.pdf

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

生物信息学学者学习mysql之路

2026年6月
一	二	三	四	五	六	日
« 九
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30