16

我是如何学习WGCNA分析

首先声明,我不会WGCNA分析,只是大概知道它会对大量样本(>8或者15)的表达矩阵进行统计学分析,然后把表达矩阵的基因找到一下基因集合,有一些基因集合大概是非常有意义的!

因为有朋友一直好奇,我是如何学习新的知识的,所以就趁这个机会,录制了3个视频,只是我的一个学习过程而已。感兴趣可以去链接:http://pan.baidu.com/s/1jIgBTzw 密码:yh42下载,但是最后一个视频录制过程中被打断了,所以我只好重新写了个文字版的,来补充解释一下。(如果你看视频,请先看那个必看!)

1

学习一个新的概念,新的分析方法,我首先是谷歌了一下这个关键词,找到两个非常赞的链接!

英文的那个,让我明白了WGCNA的步骤:

就是拿到表达矩阵,根据MAD来挑选top5000个基因的表达矩阵,然后用WGCNA的包构建共表达网络,检测每一个module是什么,有什么特性。接着把这些module跟个体结合起来。

Continue reading

十二 29

生信分析人员如何系统入门R?

R语言的重要性我也就不再赘述了,它不仅在生物信息数据处理中发挥着重要作用,也是其它主流数据处理人士的首选工具。现在非常多的半路出家自学生物信息学的小伙伴必须学而且有可能学的就是R,所以写一个R的系统性入门指导是非常有必要的。这本来应该是我下面的生信分析人员如何系统入门编程语言的姊妹篇的,但是因为时隔太久,我的感悟可能发生了变化,所以这个R跟前面的两个看起来总结指引模式不太一样的。

生信分析人员如何系统入门perl?

生信分析人员如何系统入门linux?

我作为老一辈的生信工程师,所以喜欢perl一点,排斥python,其实呢,我也稍微看过一些python的语法,个人认为R和python几乎是一模一样的。R的特点就是内置了大量的函数,基本上你认识的英文单词都可以是一个函数,即使不是,你也可以自定义为函数。搞清楚了函数和变量,就可以看懂大部分的R代码了。

下面是生信菜鸟团QQ群管理员赵云对这3种编程语言的心得体会!

python跟perl都是高级语言, 两个开发的目的不同, perl更面向过程一些,优势是严谨,快。 python主流面向对象编程, 这个跟R类似, 数据结构等方面有些不同,但可以互相调用。 实际上以上三者之间可以互相调用部分功能。python的语法并不是很严谨,个人感觉,越偏向自然语言的编程语言越通俗但不严谨,以上,是跟C比较的。

R本身起源于S语言,是主要针对统计的, 也是面向对象的, 本质上,,是把一个比excel功能强大的软件归零化成了命令行吧.excel高级应用也是要编程的, 所以R的初级应用可以当成是没有用户交互界面的excel,细心一点, 把示例代码都打对,当功能强大但不好使版的excel吧, 这样至少心理上不会畏难跟抵触.

内部集成的越多,用户需要做的越少, 你用C画个图累死你, 用python得写几行, R一行就行了!
PS:菜鸟发言,如有误导,概不负责!

Continue reading

十二 10

解决阿里云博客的虚拟主机升级问题

首先感谢生信菜鸟团的各个小伙伴的大力支持,在阿里云的2年免费虚拟主机到期之后,我成功了续费了,但是坑爹的阿里云居然把我的IP地址和用户名都给替换了,导致了一些莫名其妙的bug。
虽然只是warning,不影响网站访问,但实在是影响界面美观,如下:
1

Continue reading

十一 29

R来完成表达芯片分析全流程

包括如何从GEO下载数据,如何分组,两组直接如何找差异,差异基因如何去注释,包括GO/KEGG注释,还有特殊数据库,自定义数据库的注释,比如oncogene或者tumor suppress genes,TF的gene注释,还有GSEA软件的分析。
然后是对选择好的差异基因去string等PPI数据库拿到网络数据,在R或者cytoscape里面画网络图,然后是用MCODE插件和bioNet包来对网络找sub-network或者module,和hub genes。
就拿GSE42872 这个数据来做例子吧,希望听众具有基础R知识,了解什么是bioconductor,然后具有基础生物学知识,知道什么是基因,什么是表达,什么是通路,什么是富集,什么是注释。
总共10讲,每次半小时,每周3,4,6的晚上十一点开讲!
讲义的草稿如下,如果你能看懂草稿,能自己学会,就不用参加本次课程啦。
如果需要问我问题,就赶快找我申请加入交流群,提供本次培训的全套视频和代码!!!

Continue reading

十一 25

最终还是把博客的全半角中英文标点符合的bug解决了

已经有非常多的小伙伴跟我反映了直接拷贝我的代码无法运行的问题,其实报错的原因很简单,就是中英文标点的bug而已。所以我给大家的理由是不用那么懒,拷贝我的代码,我就是希望你们能手动敲打每一个命令,来熟练记忆使用。
其实,我没那么好心,我就是懒而已。因为这个博客是host在阿里云的免费服务器上面的,各种IP密码我懒得去记忆,就差不多忘记了。当初弄好了我就懒得管了,正好现在博客免费时期快到了,也就想把这个问题解决掉。

我很简单搜索了一下,http://shiyun1013.blog.163.com/blog/static/10774036201301824446708/ 需要连接我博客的ftp,去修改博客里面的文件,

<?php remove_filter('the_content','wptexturize'); ?>  正好看看这个标点符号被改变了吗?
好像还不错,以后大家就可以直接拷贝我的代码去运行啦!
下面是我登陆了ftp,发现以前用rmarkdown写的几个教程,感兴趣的小伙伴可以随便看看!

Continue reading

十一 25

kegg在线链接图的颜色设置

一般来说, 有了kegg的ID,就可以直接去官网查看具体的通路图片,但是需要把差异基因给标注上去,就有点麻烦了,我以前做过类似的工作,结果没有做笔记,这次相当于重新造了个轮子,好惨!
简单的KEGG图片,看下面的url:
如果要做下面的这个,上调基因用红色表示,下调基因用绿色表示:

Continue reading

十一 23

关于multiple mapping我想说的

很多时候,我们都要选取unique mapped的reads,尤其是在RNA-seq和CHIP-seq的时候,但是如何保留,各种教程都不一致,我稍微总结了一下,是因为使用的比对工具不一样导致的!但是主要都反应在sam文件的一系列tag里面~

首先对bwa来说,如果它遇到一个reads可以比对到参考基因在的多个序列,只会随机的选取一个位置来输出到sam文件,但是会加上一个tag是XS:I:<N>来告诉我们第二好的比对情况的比对得分是多少,bowtie也是一样。但是它们都有参数来决定是否只对每个reads输出一条信息,还是输出全部的信息,在bwa是-a的参数,在bowtie里面是-m参数。

但是bowtie2里面取消了这个参数,它们都必须用XS:I:<N>这个tag来挑选unique mapped的reads

但是如果是用hisat来比对的话,决定是否是唯一比对的却是NH这个tag信息。默认情况下一条reads可以输出多条比对结果。

我想起了再补充吧,其实应该找几个例子用IGV看看,就明白了,可是我暂时没有时间了,只是觉得这个很重要,就提一下。

 

十一 11

数据库批量注释不可盲目-annovar数据库错误

我对H3F3A这个基因做了两个突变的cellline,分别是G34V和K27M,现在知道这个基因在hg38上面的坐标是:

Genomic Location for H3F3A Gene
Chromosome:  1
Start:226,061,851 bp from pter  End:226,072,002 bp from pter
Size:10,152 bases    Orientation:Plus strand

然后我用samtools结合bcftools把该基因区域的snp位点call出来:

samtools mpileup -r chr1:226061851-226072001 -t "DP4" -ugf ~/reference/genome/hg38/hg38.fa  *sorted.bam | bcftools call -vmO z -o  H3F3A.vcf.gz

Continue reading

十一 10

一个基因在同一套基因组上面竟然有两个定位!

查了好久的bug,终于搞清楚问题所在了!因为要对基因进行reads计数,所以要拿到基因在基因组上面的染色体起始终止坐标,结果发现了个十分诡异的现象,很多基因有多个坐标,比如下面这个PTPRS 在hg38这个基因组版本,居然有两个定位,因为我是写程序格式化得到的坐标,所以我check了我的程序,http://www.biotrainee.com/thread-472-1-1.html  感兴趣的同学可以点开看看我的代码!

tmp
Continue reading

23

我挣大钱了?

最近跟一些志同道合的小伙伴们一起搭建了 生信技能树 的论坛,所以在社交上面加大了投入力度,认识了很多在生物信息学领域各个学习程度的同学,发现有些人问我的问题让哭笑不得,大意就是:我的生信菜鸟团博客有近四百篇文章,阅读10万+了,又是知乎上面的大V,现在又在建论坛,感觉生意很红火的样子,是不是挣了很多钱啊!

Continue reading

03

生信技能树论坛诞生啦!!!

在许多小伙伴的共同协作下,我们的第一个论坛-生信技能树,诞生啦!

论坛地址:http://www.biotrainee.com/forum.php

虽然大家都说论坛已经是过气的互联网产品了,但我对互联网行业懂的很少,其实当初做博客的时候就有人跟我说过类似的话,但我还是坚持做了,我觉得做得还挺成功的,所以我仍然决定坚持把这个论坛做下去。

博客有很多缺点,传播速度很慢,不利于检索分类文章,个人知识面有限,也没办法跟follower及时交流。而我们的论坛,就可以克服那几个缺点。 Continue reading

14

讨论-用高通量测序方法研究sepsis

估计很多小伙伴都没有听过sepsis,现在翻译成中文是脓毒病,很多人会把它与那个缺乏维他命C的败血症混淆,其实完全不一样,因为sepsis致死率非常高!

sepsis [ˈsepsɪs] ['sepsɪs]
n. 脓毒病; 脓毒疾;
[例句]This may be of value in the treatment of meningitis and sepsis.
这可能会在治疗脑膜炎和败血症上有一定价值。

Continue reading

14

我也想开个公司(下)

自从我写了那篇关于创业的想法的文章后,传送门:  我也想开个公司(上)  , 很多熟悉的朋友,还有不少陌生的朋友都给我来信,跟我讨论我的想法,尤其是几个海外的朋友特别热情,我们深度的讨论了创建自由职业者联盟的可行性,公司如何活下去,盈利点是什么,什么样的价值观才能铸就百年企业等各种话题,可能我们在创业这个领域都还是蹒跚学步的状态,但是大家的热心帮助让我很感动,这也坚定了我继续做知识传播者的想法。我这里简单分享一下我们讨论的几个公司战略方向,因为我还有四五年的博士生涯要度过,暂时无法全心全意的发展事业,如果有人看到了也想朝这个方向发展,我可以免费做咨询服务,我非常乐意看到有人能实现我的想法。 Continue reading

如果你希望我回答你的问题

Featured

最近有很多朋友咨询我关于生物信息学数据处理的各种问题,有通过QQ直接对话聊天的,或者在QQ群里at我的,或者在知乎上面给我发短信息的,还有给我的163邮箱发信的。怎么说呢,首先还是感谢大家对我的信任,愿意花时间来跟我交流生物信息学数据处理的相关技术,然后我要简单说明一下为什么有些时候我没有答复你,虽然可能对你来讲,我是没有礼貌或者是太傲气了,但是我在这个领域浸淫了这么久,虽然你愿意跟我交流,但是你们的很多问题对我来说要么是都是太小儿科了,简单的google就能解决,要么是太空泛了,我无从答起,甚至我也给不出正确答案,更多的是有些人压根不用心的提问,纯粹是耽误你我的时间,所以我觉得很有必要写这篇博客简单说明一下,什么情况下我会回答你的问题。(如果你的问题非常吸引人,下面你就不用看了,我一定会抢着回答你的!) Continue reading

04

跟师妹聊Exome-seq、ChIP-seq、RNA-seq之间的差异

最近学习CHIP-seq的分析流程,略有点心得,也跟以前掌握的WES和RNA-seq做了一些比较,趁跑步的时候跟师妹讨论了一下,正好师妹写了一篇博客来分享这个讨论结果,我也借此机会转载过来,分享给大家,算是借花献佛吧!师妹的博文是用markdown写作,我觉得大家应该直接看她的文章,写得条理清楚:Exome-seq、ChIP-seq、RNA-seq之间的差异 Continue reading

23

生物医疗大数据高峰论坛参会笔记(全)

呀,这是去年(2015)蹭的一个论坛,不记得是第几届了,反正是生物谷举办的,他们搞论坛已经成为一个产业了,非常挣钱的!我那时候还很认真的做了笔记,现在回过头来看看,他们好像讲的都很有道理,虽然我直到现在也用不上,不过我丝毫不担心。我一直拼命的学习各种知识,就是因为有着坚定的信念,所学的一切终将会有一天对我的人生有所帮助。

Continue reading

06

突变频谱探究mutation siganures

这也是对TCGA数据的深度挖掘,从而提出的一个统计学概念。文章研究了30种癌症,发现21种不同的mutation signature。如果理解了,就会发现这个其实蛮简单的,他们并不重新测序,只是拿已经有了的TCGA数据进行分析,而且居然是发表在nature上面!

研究了4,938,362 mutations from 7,042 cancers样本,突变频谱的概念只是针对于somatic 的mutation。一般是对癌症病人的肿瘤组织和癌旁组织配对测序,过滤得到的somatic mutation,一般一个样本也就几百个somatic 的mutation。

paper链接是:http://www.nature.com/nature/journal/v500/n7463/full/nature12477.html

从2013年提出到现在,已经有30种mutation siganures,在cosmic数据库有详细记录,更新见:http://cancer.sanger.ac.uk/cosmic/signatures
它的概念就是:根据突变上下文分成96类,然后每类突变的频率不一样画一个条形图,可视化展现。
mutation signature

Each signature is displayed according to the 96 substitution classification defined by the substitution class and sequence context immediately 3′ and 5′ to the mutated base. The probability bars for the six types of substitutions are displayed in different colours.
仔细看paper,还是蛮好理解的,自己写一个脚本就可以做这个分析了,前提是下载各个癌症的somatic mutation文件,一般是maf格式的,很多途径下载。
In principle, all classes of mutation (such as substitutions, indels, rearrangements) and any accessory mutation characteristic, for example, the sequence context of the mutation or the transcriptional strand on which it occurs, can be incorporated into the set of features by which a mutational signature is defined. In the first instance, we extracted mutational signatures using base substitutions and additionally included information on the sequence context of each mutation. Because there are six classes of base substitution—C>A, C>G, C>T, T>A, T>C, T>G (all substitutions are referred to by the pyrimidine of the mutated Watson–Crick base pair)—and as we incorporated information on the bases immediately 5′ and 3′ to each mutated base, there are 96 possible mutations in this classification. This 96 substitution classification is particularly useful for distinguishing mutational signatures that cause the same substitutions but in different sequence contexts.

很多癌症都发现了不止一种mutation signature,甚至高达6种,说明癌症之间差异还是蛮大的!
In most cancer classes at least two mutational signatures were observed, with a maximum of six in cancers of the liver, uterus and stomach. Although these differences may, in part, be attributable to differences in the power to extract signatures, it seems likely that some cancers have a more complex repertoire of mutational processes than others.
Most individual cancer genomes exhibit more than one mutational signature and many different combinations of signatures were observed
但是,我最后也没能绝对的界限是什么,因为总不能用肉眼来看每个突变频谱不一样吧?
The set of signatures will be updated in the future. This will include incorporating additional mutation types (e.g., indels, structural rearrangements, and localized hypermutation such as kataegis) and cancer samples. With more cancer genome sequences and the additional statistical power this will bring, new signatures may be found, the profiles of current signatures may be further refined, signatures may split into component signatures and signatures may be found in cancer types in which they are currently not detected.
分类会持续不断更新,随着更多的cancer type和样本加入,新的signature会被发现,现有的signature也可能会被重新定义,或者被分割成多个小的signature