string | 生信菜鸟团

PPI本质上是根据一系列感兴趣的蛋白质或者基因（可以是几百个甚至上千个）来去PPI数据库里面找到跟这系列蛋白质或者基因的相互作用关系！

本次的主角是stringDB，顾名思义用得是大名鼎鼎的string数据库，

paper见：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4383874/

本来还以为需要自己上传自己的基因给这个数据库去做分析，没想到他们也开发了R包，主页见： http://www.bioconductor.org/packages/release/bioc/html/STRINGdb.html 而我比较喜欢用编程来解决问题，所以就学了一下这个包，非常好用！

它只需要一个3列的data.frame，分别是logFC,p.value,gene ID,就是标准的差异分析的结果。

然后用string_db$map函数给它加上一列是 string 数据库的蛋白ID，然后用string_db$add_diff_exp_color函数给它加上一列是color。

用string_db$plot_network函数画网络图，只需要 string 数据库的蛋白ID，如果需要给蛋白标记不同的颜色，需要用string_db$post_payload来把color对应到每个蛋白，然后再画网络图。

也可以直接用get_interactions函数得到所有的PPI数据，然后写入到本地，再导入到cytoscape进行画图

Continue reading →

string数据库是PPI领域里面最完备已经最受欢迎的数据库了。如果直接在谷歌里面搜索PPI，映入眼帘就是string的官网，它们的主页现在是html5啦，比较精美： http://string-db.org/

写的很霸气，近两亿的记录，不过一般大家只会关心一个物种，比如人，其实还不到一千万！

我们直接进入下载界面，找到人类的数据，人类的物种ID是9606.

需要一定许可才能下载完整版本，我这里测试最上面那个公开版本数据！

数据很简单，就是protein+protein+score，共八百多万行记录，记录着string数据库搜集的所有可能以及可信的蛋白相互作用！但是它的蛋白ID是ENSEMBL的ID，所以需要转换成基因的ID，才能被大多数人使用，因为大家的研究单位一般是基因，所以蛋白相互作用略等于基因相互作用。

基因ID转换，我推荐用org.Hs.eg.db这个R的包，很容易就可以实现的！

> tmp=toTable(org.Hs.egENSEMBLPROT)
> dim(tmp)
[1] 110916      2
> head(tmp)
  gene_id         prot_id
1       1 ENSP00000263100
2       1 ENSP00000470909
3       2 ENSP00000443302
4       2 ENSP00000323929
5       2 ENSP00000438599
6       2 ENSP00000445717

有约500多个蛋白ID是无法转换成对应的基因的，这个很正常，毕竟这种ID本来就不稳定，很多用着用着就失效了！

转换好之后就可以上传到数据库啦，然后可以供其它可视化或者分析程序使用！

一	二	三	四	五	六	日
« 九
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Tag Archives: string

用R的bioconductor里面的stringDB包来做PPI分析

下载最新的蛋白相互作用数据库-STRING