• R来完成表达芯片分析全流程

    包括如何从GEO下载数据,如何分组,两组直接如何找差异,差异基因如何去注释,包括GO/KEGG注释,还有特殊数据库,自定义数据库的注释,比如oncogene或者tumor suppress genes,TF的gene注释,还有GSEA软件的分析。
    然后是对选择好的差异基因去string等PPI数据库拿到网络数据,在R或者cytoscape里面画网络图,然后是用MCODE插件和bioNet包来对网络找sub-network或者module,和hub genes。
    就拿GSE42872 这个数据来做例子吧,希望听众具有基础R知识,了解什么是bioconductor,然后具有基础生物学知识,知道什么是基因,什么是表达,什么是通路,什么是富集,什么是注释。
    总共10讲,每次半小时,每周3,4,6的晚上十一点开讲!
    讲义的草稿如下,如果你能看懂草稿,能自己学会,就不用参加本次课程啦。
    如果需要问我问题,就赶快找我申请加入交流群,提供本次培训的全套视频和代码!!!
    阅读全文
    作者:ulwvfje | 分类:杂谈-随笔 | 阅读:511 views | 标签:, , ,
  • 生信技能树论坛诞生啦!!!

    在许多小伙伴的共同协作下,我们的第一个论坛-生信技能树,诞生啦!

    论坛地址:http://www.biotrainee.com/forum.php

    虽然大家都说论坛已经是过气的互联网产品了,但我对互联网行业懂的很少,其实当初做博客的时候就有人跟我说过类似的话,但我还是坚持做了,我觉得做得还挺成功的,所以我仍然决定坚持把这个论坛做下去。

    博客有很多缺点,传播速度很慢,不利于检索分类文章,个人知识面有限,也没办法跟follower及时交流。而我们的论坛,就可以克服那几个缺点。

    阅读全文
    作者:ulwvfje | 分类:杂谈-随笔 | 阅读:518 views | 标签:,
    Comments Off
  • 如果你希望我回答你的问题

    最近有很多朋友咨询我关于生物信息学数据处理的各种问题,有通过QQ直接对话聊天的,或者在QQ群里at我的,或者在知乎上面给我发短信息的,还有给我的163邮箱发信的。怎么说呢,首先还是感谢大家对我的信任,愿意花时间来跟我交流生物信息学数据处理的相关技术,然后我要简单说明一下为什么有些时候我没有答复你,虽然可能对你来讲,我是没有礼貌或者是太傲气了,但是我在这个领域浸淫了这么久,虽然你愿意跟我交流,但是你们的很多问题对我来说要么是都是太小儿科了,简单的google就能解决,要么是太空泛了,我无从答起,甚至我也给不出正确答案,更多的是有些人压根不用心的提问,纯粹是耽误你我的时间,所以我觉得很有必要写这篇博客简单说明一下,什么情况下我会回答你的问题。(如果你的问题非常吸引人,下面你就不用看了,我一定会抢着回答你的!)

    阅读全文
    作者:ulwvfje | 分类:杂谈-随笔 | 阅读:543 views | 标签:
    Comments Off
  • 生信菜鸟养成手册

    生信菜鸟养成手册

    背景:生物小本,懂做一些分子实验,了解一些生物背景知识。

    目标:成为生信菜鸟,找到一份生物信息学相关的工作。

    1、计算机基础(linux+perl+R 或者 python+matlab)

    2、生信基础知识(测序+数据库+数据格式)

    3、生信研究领域(全基因组,全转录组,全外显子组,捕获目标区域测序)

    4、生信应用领域(肿瘤筛查,产前诊断,流行病学,个性化医疗)

    阅读全文
    作者:ulwvfje | 分类:杂谈-随笔 | 阅读:3,497 views
  • java版本GSEA软件的ES score图片的修改较新的文章

    首先要明白这个ES score图片里面的数据是什么,这样才能修改它,因为java是一个封闭打包好的软件,所以我们没办法在里面修改它没有提供的参数,运行完GSEA,默认输出的图就是下面这样: ES score 这个图片在发表的时候,就会发现其实蛮模糊的, 所以有可能需要自己重新制作这个图,那么就需要明白这个图后面的数据。 其 ...

    阅读全文
    作者:ulwvfje | 分类:R, 基础软件 | 阅读:19 views | 标签:, ,
  • GSEA的统计学原理试讲较新的文章

    GSEA这个java软件使用非常方便,只需要根据要求做好GCT/CLS格式的input文件就好了。我以前也写个用法教程: 用GSEA来做基因集富集分析 批量运行GSEA,命令行版本 但说到统计学原理,就有点麻烦了,我试着用自己的思路阐释一下: 假设芯片或者其它测量方法测到了2万个基因,那么这两万个基因在case和control组的差异度量 ...

    阅读全文
    作者:ulwvfje | 分类:基础软件, 生信基础 | 阅读:29 views | 标签:, , , ,
  • 吐血推荐snpedia数据库,非常丰富的snp信息记录较新的文章

    正好,我拿到了自己的全基因组测序数据,而前些天看到朋友圈推送的文章提到有研究表明STAT4上的rs7574865和HLA-DQ的 rs9275319是国人群中乙型肝炎病毒(HBV)相关肝细胞癌(HCC)遗传易感基因,我就想顺便看看自己在这两个位点的变异情况。一般的流程是先找完变异位点,然后用vep/snpEFF对变异位点进行注释,然后看看有没有这两个位点。但我仅仅是想查看这两个位点,所以我会根据它的rsID来找到它的基因组坐标,再直接call这个位置的变异情况。以前我都是用dnSNP来查看rsID的基因组坐标的,
    mkdir -p ~/annotation/variation/human/dbSNP
    cd ~/annotation/variation/human/dbSNP
    ## https://www.ncbi.nlm.nih.gov/projects/SNP/
    ## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh38p2/
    ## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/
    nohup wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz &
    wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz.tbi
    阅读全文
    作者:ulwvfje | 分类:基础数据库 | 阅读:17 views | 标签:, ,
  • hisat2+stringtie+ballgown

    早在去年九月,我就写个博文说 RNA-seq流程需要进化啦! http://www.bio-info-trainee.com/1022.html  ,主要就是进化成hisat2+stringtie+ballgown的流程,但是我一直没有系统性的讲这个流程,因为我觉真心木有用。我只用了里面的hisat来做比对而已!但是群里的小伙伴问得特别多,我还是勉为其难的写一个教程吧,你们之 ...

    阅读全文
    作者:ulwvfje | 分类:转录组软件 | 阅读:203 views | 标签:, , ,
  • cytoscape五步曲之二:在cytoscape里面生成网络图

    通过上一讲大家应该明白了,网络图是为了展现分子之间的连接关系的,并不是一定要用cytoscape来做,只需要根据连接关系给我们的所有点安排一个坐标,然后把相应的线连接起来即可!那么既然我们要学习cytoscape,肯定是要用cytoscape做好第一步,就是根据输入数据来做网络图。 可以先了解一下cytoscape定义好的输入数据 ...

    阅读全文
    作者:ulwvfje | 分类:基础软件 | 阅读:54 views | 标签:,
  • cytoscape五步曲之一:明白什么是网络图

    想了想还是写一个系列教程吧,问的朋友也太多了,主要是因为cytoscape跟python一样,经历了从2到3的进化阵痛过程,而且进化的面目全非了!!!很多人拿着2.x的说明书教程,视频,然后下载的却是3.x版本的cytoscape,真可怕!!! 已经从两万个芯片探测到的基因里面找到了近千个差异基因了,对它们做了GO/KEGG分析还是抓 ...

    阅读全文
    作者:ulwvfje | 分类:基础软件 | 阅读:48 views | 标签:,
  • cytoscape五步曲之三:安装各种插件

    软件安装我就不多说了,直接去官网下载即可,请务必下载3.x版本,我讲的是 最新版教程! 本次讲解如何给cytoscape安装插件,cytoscape本身是一个平台,学者可以在上面开发各种各样功能的插件实现不同的分析需求,类似于R语言这个平台,人们在上面安装包一样。R里面如何安装包我博客讲了4次,基本上看完的人都会懂。而cy ...

    阅读全文
    作者:ulwvfje | 分类:基础软件 | 阅读:43 views | 标签:,
  • 关于multiple mapping我想说的

    很多时候,我们都要选取unique mapped的reads,尤其是在RNA-seq和CHIP-seq的时候,但是如何保留,各种教程都不一致,我稍微总结了一下,是因为使用的比对工具不一样导致的!但是主要都反应在sam文件的一系列tag里面~ 首先对bwa来说,如果它遇到一个reads可以比对到参考基因在的多个序列,只会随机的选取一个位置来输出 ...

    阅读全文
    作者:ulwvfje | 分类:杂谈-随笔 | 阅读:27 views | 标签:, , ,
  • quantile normalization到底对数据做了什么?

    提到normalization很多人都烦了,几十种方法,而对于芯片或者其它表达数据来说,最常见的莫过于quantile normalization啦。那么它到底对我们的表达数据做了什么呢?首先要么要清楚一个概念,表达矩阵的每一列都是一个样本,每一行都是一个基因或者探针,值就是表达量咯。quantile normalization 就是对每列单独进行排序 ...

    阅读全文
    作者:ulwvfje | 分类:生信基础 | 阅读:26 views | 标签:, ,
  • 用R的bioconductor里面的stringDB包来做PPI分析

    PPI本质上是根据一系列感兴趣的蛋白质或者基因(可以是几百个甚至上千个)来去PPI数据库里面找到跟这系列蛋白质或者基因的相互作用关系!

    本次的主角是stringDB,顾名思义用得是大名鼎鼎的string数据库,
    本来还以为需要自己上传自己的基因给这个数据库去做分析,没想到他们也开发了R包,主页见: http://www.bioconductor.org/packages/release/bioc/html/STRINGdb.html 而我比较喜欢用编程来解决问题,所以就学了一下这个包,非常好用!
    它只需要一个3列的data.frame,分别是logFC,p.value,gene ID,就是标准的差异分析的结果。
    然后用string_db$map函数给它加上一列是 string 数据库的蛋白ID,然后用string_db$add_diff_exp_color函数给它加上一列是color。
    用string_db$plot_network函数画网络图,只需要 string 数据库的蛋白ID,如果需要给蛋白标记不同的颜色,需要用string_db$post_payload来把color对应到每个蛋白,然后再画网络图。
    也可以直接用get_interactions函数得到所有的PPI数据,然后写入到本地,再导入到cytoscape进行画图
    阅读全文
    作者:ulwvfje | 分类:基础数据库 | 阅读:33 views | 标签:, , ,
  • java环境变量的问题

    有篇文章提到了cytoscape,想着一直没用过这个神器对不起我生信大神的称号呀,就下载了准备安装,居然报错了,简直不可思议,因为一直以为它是java软件,一般不需要安装,结果是exe的,只是依赖于java,报错是EXE4J_JAVA_HOME, No JVM could be found on your system,这是个很常见的错误,我 简单搜索了解决方案https://wincrunch.com/exe4j-java-home-no-jvm-could-be-found-on-your-system/ 居然无效,但是里面有句话引起了我的注意,通常64位的window电脑的java是安装在Program Files 而不是Program Files (x86),这才是问题所在,我当初图简单,直接用了JDK来安装JRE,所以导致软件安装目录错误。有非常多的生物信息学软件都依赖与java,比如IGV,GSEA,cytoscape,一般来说window电脑安装好了java之后这些软件都挺好用的。那么关于java问题,我整理了3个:
    阅读全文
    作者:ulwvfje | 分类:生信基础 | 阅读:15 views | 标签:, ,