生信菜鸟团 » 论坛

生信技能树论坛诞生啦！！！

ulwvfje — Sat, 03 Sep 2016 08:55:58 +0000

在许多小伙伴的共同协作下，我们的第一个论坛-生信技能树，诞生啦！

论坛地址：http://www.biotrainee.com/forum.php

虽然大家都说论坛已经是过气的互联网产品了，但我对互联网行业懂的很少，其实当初做博客的时候就有人跟我说过类似的话，但我还是坚持做了，我觉得做得还挺成功的，所以我仍然决定坚持把这个论坛做下去。

博客有很多缺点，传播速度很慢，不利于检索分类文章，个人知识面有限，也没办法跟follower及时交流。而我们的论坛，就可以克服那几个缺点。

目前论坛会以博客合集的形式发展半年左右，等论坛出具起色之后再看看可以走什么样的路！

生信技能树创建于2016年8月，是中国第一家专注于生信知识体系完善、促进生信学习交流的论坛。我们通过收集国内外生信学习资源，邀请大神分享的领域专业知识，发布菜鸟的真实学习笔记，搭建生信技术人员联盟，从入门到进阶帮助每一位生信人。
我们的愿景是
弘扬分享的精神，播撒知识的种子；
邀请正在前进的你我他，共筑生信技能树的枝枝叶叶；
每一只菜鸟都会在这里成长，展翅翱翔、搏击长空！

论坛的最终目标：构建完善的生信技能树。
主要是依靠领域牛人产出文章，持续的干货产出；各位版主是中间层负责管理；菜鸟团QQ群成员是我们初期的用户。
主要运营逻辑：领域牛人+中间层+菜鸟用户；框架+内容产出；公众号推广；产生一定的文化及影响力，吸引志同道合的牛人一起参与论坛建设。
普通用户是论坛的受益者，他们在受益的同时也会为我们推广，但其本身并不依赖他们参与论坛建设，只希望他们可以在我们的论坛构建过程中提升自己，多学点对自己有用的东西！
希望领域牛人能主动联系论坛管理员团队，加入我们，一起完成这个理想！

作为论坛创始人，最期待的是看到团队成员的成长，以及随之而来的论坛稳健发展和各个版块内容的丰满。在带领团队和论坛成员完善生信技能树的同时，自己也收获前所未有的锻炼。希望自己不忘初心……

请原谅我编辑文字的能力很差，上面每一段分别由不同的小伙伴帮助我完成的~~~

如果想加入我们管理员团队，请先列出5个左右生信你认为最出名的博客，然后点评一下你最欣赏哪些板块。接着简单自我介绍一下自己的生信背景及能力，以及对职业发展的看法或者自己的人生追求。然后表述一下诚意。抱歉让你写这么多，最好是email给我，因为这个管理员很重要，经过我们合作以后大家也会成为朋友，所以我比较认真的考核。jmzeng1314@163.com

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

感谢大家对积极地参与到论坛的建设当中，现在论坛已经基本成型，正在逐步进入正常运营的状态。接下来，论坛的目标是进行生信知识体系完善、促进生信学习交流。对此，论坛会邀请大神分享的领域专业知识，但是论坛真正需要的建设者和参与者不是他们，而是处于入门和进阶的生信菜鸟，发布菜鸟的真实学习笔记才是重中之中。

### 敢于分享，乐人乐己
不要畏惧分享，认为自己是初学者，自己的笔记没有分享的价值。你错了，不分享怎么知道没有价值。每一位大神都是从初学者一步一步成长过来的，也许你在学习的时候会搜索到大神们在菜鸟阶段的生信博文，很感激他们没有羞于分享，让大家看到了他的学习过程。所以，花时间钻研任何一个领域，积极分享自己的学习笔记，是一个很好的学习方法，因为你真得懂了才能讲给别人听。

### 学会做笔记，合理规划
在每一个学习阶段，我们的老师都会强调做笔记的重要性。因为好记性不如烂笔头（现在各种优秀云笔记的出现真是一大福利）。那么到了研究生阶段还是工作阶段，做笔记依然很重要。你一定经历过，上个月弄明白的知识点，到了这个月，你已经忘了。没有做笔记的你只能从头搜索资料，再学习一遍。所以，没有做笔记的你，希望你能够尝试一下。
当然做分享这件事，会花费一些时间在整理学习笔记上面。但是，这个工作也是学习到一定阶段必需要做的，有助于个人知识体系的建立。所以，合理规划自己的学习计划很重要哦。

### 不要拖延，不要完美
不要拖延，要及时地同步分享自己的笔记，这样和你处于同一学习阶段的网友就可以相互交流学习，其他一些过来人亦可机遇你一些指点。完美主义的学习笔记可遇不可求，这当然很好。对于其他阅读者来说，这样光看一篇学习笔记，就可以把每个知识点弄得明明白白的。但是在初学阶段，这不值得鼓励，因为要学的东西太多，要抓重点学习。

生物医疗大数据高峰论坛参会笔记（全）

ulwvfje — Mon, 23 May 2016 11:24:58 +0000

呀，这是去年（2015）蹭的一个论坛，不记得是第几届了，反正是生物谷举办的，他们搞论坛已经成为一个产业了，非常挣钱的！我那时候还很认真的做了笔记，现在回过头来看看，他们好像讲的都很有道理，虽然我直到现在也用不上，不过我丝毫不担心。我一直拼命的学习各种知识，就是因为有着坚定的信念，所学的一切终将会有一天对我的人生有所帮助。

同济大学附属上海市第一妇幼保健院院长-段涛

1，该院去年接生约2.5万名婴儿，占2014年上海市出生人口的近九分之一。

2，中国2014年出生人口约1600万~2000万，相当于台湾或者澳大利亚的总人口，但是统计部、卫生部、公安部、民政部给的数据差异很大。

3,，卫生部用大数据做出医院排行信息，但是依靠的数据大多靠行政命令摊牌各个医院自行上报，可信度很低。就像曾经规定不能让医院的病人排队时间大于8分钟一样，荒唐。即使这样得到了大数据，也是mass in mass.

4、仅仅是关于糖尿病相关的APP就有超过一百个。

5、中国现在仅处于循证医学的初级阶段，大多数医生看病靠经验，而且很多时候靠的还是该医院该科室主任的经验。不够个性化。

6，过于依赖欧美发达国家的测试结果，比如OGTT标准（口服葡萄糖耐量试验），就只是一个美国医生招募了752名正常人口服100g葡萄糖，然后测量血糖值，并且还取整后得到的数据，极其的不准确。

7，即使循证医学也有不合适的地方，我们应该适当反对。现行药物大多数治疗方式对大多数病人都是无效的，大多数病人只是陪着在治疗。

8，现有医学以器官或者系统来区分疾病的种类，这样的分类方式期待有着革命化的变革，应该加入基因型的因素。

9，现今大部分的疾病都是靠人体的自身免疫来克服的，而非是针对性疗效。

10，精准医疗将改变医学统计学，临床流行病学，诊断体系，治疗方式。

11，该院拥有近5年孕产期所有的超声数据，约百万数据，以及她们的住院门诊病历信息，可以做很多分析，例如胎儿生长发育曲线模型等，寻求合作，有意者联系微信公众号, Dr_Duan_Tao

上海生物信息技术研究中心主任-李亦学

1，taxonomy of disease ，仍然是疾病分类的问题，需要更清晰更精确的分类方式。

2，医疗大数据个人来源（基因组-转录组-蛋白质组-代谢组-生理生化指标-病理数据），超500G数据

3，大数据的4个特点-数据量(Volume)、时效性(Velocity)、多样性(Variety)、可疑性(Veracity)

4，现在测人30X全基因组（100GB数据量）的价格，可以拿到6000-10000的底价。

5，人有30亿个碱基，两万两千多个基因，三十多万种蛋白，但是人与人之间的差异却仅仅只有不到六百万个碱基。

6，上海市政府要投入12个亿在大数据的竞争性领域（数据资源+计算资源），人才随便找，资源最重要。

7，中国生物信息数据资源短缺，主要被欧美国家组织掌控，包括NCBI,EBI,DDBJ，等等。

8，介绍了23andme的模式，99美金的低价，与药企合作开发药物设计，用的是OmniExpress-24 芯片，覆盖人的70多万个位点，一张芯片可以测12个人。

Medsci 张宝发

1，医疗大数据将从诊断、治疗、预后三个方面来改变医学模式。

2，最大的研究数据，1985-2012年间追踪记录的七千四百万的死亡数据。

3，医学模式正逐渐走向“4P”医学模式（4p medical model）：预防性（Preemptive）、预测性（Predictive）、个体化（Personalized）和参与性（participatory）

4，传统医学，是简单的因果推测，不合理的地方非常多。

5，即使大数据预测模型也并不完全正确，谷歌的流行病预测模型，通过关键词指数，尽管发布的时候准确性还算可以，运行了两年多无奈关闭。提醒了大数据陷进，数据并非越大越好。

6，三种建模思路（SEMMA,SA,CRISP-DM）,反正不懂。

7， Markov和Monte Carlo ,很重要，值得学习学习。

8，模型主要有很多挑战：非线性关系，变量的交互性，随机扰动等等

北大循证医学中心副主任-詹思延

1，ClinicalTrials网站追踪药物四期临床数据。

2，药品上市后数据收集的三个动力，国家法律规定，药物公司开发维护需要，其它公司参考对比需要。

3，额待解决的问题是术语标准化。

4，医疗保险数据库，各个地方政府的社保医保资料，可分析性非常强。

5，各个数据所有单位只需要遵循通用的数据模型，共享数据接口，及数据转换即可。

北京蛋白质组研究中心-朱云平

1，数据质量控制，数据整合，数据标准建立，国家应该出面来做，这样才能保障数据共享。

2，建立中国的生物信息中心。

3，国际大的生物信息学计划（HapMap，ENCODE，HEP Project，GWAS，COSMIC）

4，欧美生物信息数据中心NCBI,EBI,DDBJ

5，参与国家生物信息数据中心建设（基因组所，微生物所，北京大学，上海生物信息中心，药物基因组所，云计算平台，哈工大计算系）

6，基础数据完全公开，功能应用数据选择性公开

阿斯利康亚太研发信息总监-Jenny Wei

1，数据包括 forum/pharmacy database/lab test database/Insurance claims data /hospital/Digital health

2，亚太区（日，韩，台湾）对于生物医疗数据的基础建设都挺好的，唯独中国大陆，一塌糊涂。

3，Chinese EMR information extraction workflow 通过检索常用药物信息论坛来追踪药物副作用，text mining , 包括寻医问药、好大夫、抗癌之家、新浪微博等网站。

复旦大学附属肿瘤医院信息中心主任王奕

1，医疗信息来源（临床（病历，处方），科研，运营）

2，医疗信息数据量增长率48%，包括影像数据（高达80%），文本数据，语音数据

3，数据复杂度高，各个院系数据标准不统一，多数数据甚至结构化程度都很低。

4，传统数据分析方法（报表，类SQL，关键词检索），今年发展的分析技术（DBI，R，数据挖掘，机器学习，人工智能），未来（~~）

5，复旦大学附属肿瘤医院信息中心建立历程（2011-2016），KSHIS3.0，THIS4.0，THIS4.5，THIS EM1.0等大型医疗管理软件。

6，科研数据搜索系统（ClinBrain），电子数据采集系统EDC，医疗质量监控系统

7，临床知识系统，数据知识神经网络，疾病指南。

8，正在做精准医疗系统，仅涉及少量病种，正在与临床资料整合。

同济大学生命科学与技术学院教授刘琦

1，大数据分析与传统统计分析方法区别（总体vs样本，穷举vs采样，模糊vs精确）

2，big small data VS small big data 处理方法的区别。

3，做了药物重定位推荐系统，2012和2013年nature子刊均有发表把药物相关信息与public的GWAS数据联系起来重新定义药物的靶点信息。

4，A “web Ranking” model for drug virtual screening

5，RACS --> Ranking system of anti-cancer synergy

6，用到的public data包括（FDA,DrugBank，SIDER2，CTD，connectivity Map O2，PharmGKB，OMIN，HGMD）

北京大学人民医院院长助理刘帆

1，北京大学人民医院是国内信息化程度最高的医院，可达美国Himss评级的七级

2，院内信息系统包括5个domain，73个系统，几百个子系统。

3，仅2011年就有29个系统，98个子系统，322个数据接口，直到2013年才完成数据集成平台。

4，医疗大数据分析的挑战（缺乏主索引（身份证，健康卡，就诊卡，社保卡，病历本等等），术语不够标准化（72种术语字典））

5，病人隐私保护，HIPAA方法。

6，应该构建大数据生态圈（多组学数据，日常数据（可穿戴式设备），环境数据，临床数据，公共卫生数据），多种数据结合分析

7，数据云端迁移，灾难备份，仅北京大学人民医院就有>2000万个处方信息，342万患者信息，2.1亿条··记录，10亿次的什么什么，1亿的什么什么，4000万的什么什么，金山云，物理设备应该是800万，云端才50-100万每年，大大的节约了成本。

礼来（中国）研发有限公司IT总监

1，信息数据80%在文本之中，真正以数字的形式给出的很少。

2，我们要从keywords search 转为 Agile Text minning

3，text minning的基础参考自ontology，比较出名的有GO，DO

4，文本来源，pubmed数据库发表的文献的标题及摘要，网页爬虫还有临床数据

5，成功应用案例-礼来学术小助手，微信平台

万达信息股份有限公司黄晓琴

讲的太多，太复杂，不知道怎么总结

生信常用论坛bio-star里面所有帖子爬取

ulwvfje — Wed, 18 Mar 2015 13:11:54 +0000

生信常用论坛bio-star里面所有帖子爬取

这个是爬虫专题第一集，主要讲如何分析bio-star这个网站并爬去所有的帖子列表，及标签列表等等，前提是读者必须掌握perl，然后学习perl的LWP模块，可以考虑打印那本书读读，挺有用的！

http://seqanswers.com/ 这个是首页

http://seqanswers.com/forums/forumdisplay.php?f=18 这个共570个页面需要爬取

http://seqanswers.com/forums/forumdisplay.php?f=18&order=desc&page=1

http://seqanswers.com/forums/forumdisplay.php?f=18&order=desc&page=570

这个里面包围这很多对，

前五个对可以跳过，里面的内容不需要

这样就可以捕获到所有的目录啦！

首先我们看看如何爬去该论坛主页的板块构成，然后才进去各个板块里面继续爬去帖子。

接下来看进入各个板块里面爬帖子的代码，可以直接复制张贴使用的！

[perl]

use LWP::Simple;

use HTML::TreeBuilder;

use Encode;

use LWP::UserAgent;

use HTTP::Cookies;

my $tmp_ua = LWP::UserAgent->new; #UserAgent用来发送网页访问请求

$tmp_ua->timeout(15); ##连接超时时间设为15秒

$tmp_ua->protocols_allowed( [ 'http', 'https' ] ); ##只允许http和https协议

$tmp_ua->agent(

"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727;.NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)"

) ;

$base='https://www.biostars.org';

open FH_IN,"index.txt";

while () {

chomp;

@F=split;

open FH_OUT,">index-$F[1].txt";

$total_pages=int($F[2]/40)+1;

foreach (1..$total_pages){

my $url = URI->new("$F[0]/?");

my($sort,$page) = ("update",$_);#

$url->query_form(

'page' => $page,

'sort' => $sort,

);

&get_each_index($url,'FH_OUT');

print $url."\n";

}

sub get_each_index{

my ($url,$handle)=@_;

$response = $tmp_ua->get($url);

$html=$response->content;

my $tree = HTML::TreeBuilder->new; # empty tree

$tree->parse($html) or print "error : parse html ";

my @list_title=$tree->find_by_attribute('class',"post-title");

foreach (@list_title) {

my $title = $_->as_text();

my $ref = $_->find_by_tag_name('a')->attr('href');

print $handle "$base$href,$title\n";

}

[/perl]

这样就可以爬去帖子列表了

https://www.biostars.org/t/rna-seq rna 1573

https://www.biostars.org/t/R R 1309

https://www.biostars.org/t/snp snp 1268

等等```````````````````````````````````````````````````````````

帖子文件如下，在我的群里面共享了所有的代码及帖子内容，欢迎加群201161227，生信菜鸟团！