28

我测试了一下Jbrowse的安装及初步试用

前些天我们公众号元老,熊,投稿了关于Jbrowse的史上最全介绍,如下:

可能是最全的JBrowse基因浏览器介绍(请点击阅读)

发现下面文章的图片都挂掉了,请直接点击这个链接查看:http://mp.weixin.qq.com/s/P32LxR-cFPN3pw25ba5sIg,下面不用看了,反正没有图片了

这个现象很奇怪:博客和公众号,都是用的有道云分享出来的图片,结果博客里面的图片挂掉了,微信里面还有!

最为生物信息学痴的我当然不能错过,今天终于找到了空隙时间来体验一把!

全部体验报告如下:

Continue reading

15

我用rmarkdown写过的教程

用rmarkdown写教程真心非常方便,尤其是R语言相关的,比如一些R包的应用,或者一些可视化,或者一些统计,下面我简单列出一些我以前写过的,图文并茂,关键是还非常省心,不需要排版,不需要上传图片,整理图片。
一般来说看链接最后的文件名就知道这篇文章讲的是什么了:
首先是几个R包的讲解:
下面是一个统计学里面的逻辑分析的讲解
下面是一个表达矩阵的15个常见的可视化图形的制作:
02

生信菜鸟团对应的QQ群已经满了,请根据学习方向选择加入分群

生信各种组学群 554052300

WGS/WES/RNA-SEQ/CHIP-SEQ
单细胞转录组分析
de novo 组装(Trinity)
质控(MISO,fastqc,fastx,RSEM)
counts(HTseq,BEDtools,RNA-SeQC)
序列比对(BWA,GSNAP,TopHat,Hisat,Star,bowtie)
寻找差异基因(voom,DESeq,DESeq2,edgeR,BaySeq,SAMseq,)
富集分析(GOstats,GSEA,web-tools)
可变剪切
基因融合(SOAPfusion,FusionSeq, deFuse , TopHat-Fusion , FusionHunter , SnowShoes-FTD, chimerascan,FusionMap)
拷贝数变异检测
alle specific 表达差异
共表达网络
miRNA分析
病毒检测分析
其它注释

Continue reading

15

一个MeDIP-seq实战-超级简单-2小时搞定!

请不要直接拷贝我的代码,需要自己理解,然后打出来,思考我为什么这样写代码。
软件请用最新版,尤其是samtools等被我存储在系统环境变量的,考虑到读者众多,一般的软件我都会自带版本信息的!
我用两个小时,不代表你是两个小时就学会,有些朋友反映学了两个星期才 学会,这很正常,没毛病,不要异想天开两个小时就达到我的水平。

MeDIP-seq 跟ChIP-seq的分析手段是一模一样的,同理hMeDIP-seq,caMeDIP-seq等等,都没有本质上的区别,只是用的抗体不一样而已,请自行搜索基础知识,我只讲数据分析。

一个ChIP-seq实战-超级简单-2小时搞定!

一个RNA-seq实战-超级简单-2小时搞定!

Continue reading

06

scalpel软件找indel

Scalpel is available here: http://scalpel.sourceforge.net/
文章是: http://www.nature.com/nmeth/journal/v11/n10/full/nmeth.3069.html
很赞的工具!
软件说明书写的也比较详细:http://scalpel.sourceforge.net/manual.html
他提供了3种情况的找INDELs变异,我目前需要用的就是对我的全基因组测序数据来找,所以用single模式:
为了节省对计算资源的消耗,作者建议我单独对每条染色体分别处理。 Continue reading

06

不要想当然的使用生信软件,读文档,勤搜索!

最近在写一篇很有趣的文章,一张图说清楚wgs,wes,rna-seq,chip-seq的异同点!

需要用到一些测试数据,我准备拿17号染色体的40437407-40486397这约48Kb碱基区域来举例子,就需要把这个区域的bam提取出来。

我分别找了以前处理的wgs,wes,rna-seq,chip-seq公共数据,原始bam非常大,尤其是WGS的,45G的bam文件,所以只能抽取17号染色体的40437407-40486397这约48Kb碱基区域,以前我做mpileup或者其它都是用的-r 参数,所以我想当然的使用下面的代码: Continue reading

30

用谷歌搜索来使用ggplot2做可视化(下)

用谷歌搜索来使用ggplot2做可视化(下)

2017-01-30 jimmy 生信菜鸟团

我知道会有续集,但也没想到续集来得这么快!今天收到了一个生信技能树公众账号铁杆粉丝(我们之间有过9次邮件交流)的求助信,下面我们首先一起帮他解决一下碰到的问题。随后和大家分享一下可以提高搜索效率和准确率的Google搜索技巧。

 

Continue reading

30

如何通过Google来使用ggplot2可视化(上)

如何通过Google来使用ggplot2可视化

2017-01-29 jimmy 生信菜鸟团

今天是大年初二,这篇文章我只想传达一点:

没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的,如果有,请换个关键词继续Google!


第一部分

首先用两分钟的时间简单介绍一下R语言

因为这个语言是肉丝儿Ross Ihaka)和萝卜特Robert Gentleman)两个人1992年在S语言的基础上发明出来的开源语言,所以叫做R语言。这两个人是统计学教授出身,所以R语言在统计学方面有着纯正的血统!如果你平时的工作和统计相关,你好意思不会点R语言么?

 

Continue reading

24

一个标准的TCGA大文章应该做哪些数据?

很多人总是问我如何挖掘TCGA的数据,发文章!
可是他却连TCGA的数据是怎么来的都不知道,TCGA发了几十篇CNS大文章(自己测序的)了,每篇文章都有几百个左右的癌症样本的6种数据,这几年凑成了一万多个样本,都放在GDC里面可以任意下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型,driver mutation,假基因等新型研究领域)
那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据?
其实稍微仔细浏览几篇文章就明白了,套路也是存在的,https://tcga-data.nci.nih.gov/docs/publications/
我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧!

Continue reading

23

给初学者的忠告,不要拿一套垃圾数据入门!

垃圾数据对初学者的伤害真的很可怕!

最近在带一些朋友入门,想起了当年自己入门的各种凄惨惨戚戚!

碱基质量值很差,GC不平衡,还有接头,PCR重复也很多,kmer值也很诡异,时间都耗在QC上面了,结果几个月下来,你一个流程都没搞明白,各种查资料,还是在原地打转。 Continue reading

19

测序深度和GC含量的问题!【直播】我的基因组 47

在前面我们提到了用ChIP-seq的分析方法可视化了一下我的WGS数据,结果我们的测序深度分布居然是跟基因组的genomic feature相关的~~~
比如在TSS附近,就很明显看到了一个测序深度峰值,那么前面我们并没有给出直接的解答,而且简单的提了一下这是二代测序的特点,GC含量片段偏好性!
作为一个合格的生物信息学工程师,我当然要把这个理论用自己的代码和数据来亲身实践一遍~
我首先把全基因组的bam文件用mpileup模式输出,根据1000bp的窗口滑动来统计每个窗口的测到的碱基数,GC碱基数,测序总深度!
代码比较复杂,一般人可能理解不来的!

Continue reading

16

我是如何学习WGCNA分析

首先声明,我不会WGCNA分析,只是大概知道它会对大量样本(>8或者15)的表达矩阵进行统计学分析,然后把表达矩阵的基因找到一下基因集合,有一些基因集合大概是非常有意义的!

因为有朋友一直好奇,我是如何学习新的知识的,所以就趁这个机会,录制了3个视频,只是我的一个学习过程而已。感兴趣可以去链接:http://pan.baidu.com/s/1jIgBTzw 密码:yh42下载,但是最后一个视频录制过程中被打断了,所以我只好重新写了个文字版的,来补充解释一下。(如果你看视频,请先看那个必看!)

1

学习一个新的概念,新的分析方法,我首先是谷歌了一下这个关键词,找到两个非常赞的链接!

英文的那个,让我明白了WGCNA的步骤:

就是拿到表达矩阵,根据MAD来挑选top5000个基因的表达矩阵,然后用WGCNA的包构建共表达网络,检测每一个module是什么,有什么特性。接着把这些module跟个体结合起来。

Continue reading

10

一个ChIP-seq实战-超级简单-2小时搞定!

请不要直接拷贝我的代码,需要自己理解,然后打出来,思考我为什么这样写代码。
软件请用最新版,尤其是samtools等被我存储在系统环境变量的,考虑到读者众多,一般的软件我都会自带版本信息的!
我用两个小时,不代表你是两个小时就学会,有些朋友反映学了两个星期才 学会,这很正常,没毛病,不要异想天开两个小时就达到我的水平。
本次讲解选取的文章是为了探索PRC1,PCR2这样的蛋白复合物,不是转录因子或者组蛋白的CHIP-seq,请注意区别!
这是一个系列帖子,你可以先看:
文章是:RYBP and Cbx7 define specific biological functions of polycomb complexes in mouse embryonic stem cells
RYBP and Cbx7都是Polycomb repressive complex 1 (PRC1)的组分:
所以用脚本在ftp里面批量下载即可:
1

Continue reading

01

ngsplot辅助CHIP-seq数据分析-可视化

最近在忙一些chip-seq的数据分析项目,它的可视化展现比较复杂一点,自己写程序将会耗费挺长时间的,就想着利用现成的工具,前面试用了deeptools,挺好 的,但是有点慢,是python程序,如下:
现在换一个R程序,这个非常快速,而且绘图个人觉得稍微美观一点,大家也可以都试试看。
首先软件的github里面有源代码,然后作者还四处宣讲这个包的神奇之处,下面的ppt非常言简意赅的描述了它的功能和强大之处。

Continue reading

十二 30

一个RNA-seq实战-超级简单-2小时搞定!

请不要直接拷贝我的代码,需要自己理解,然后打出来,思考我为什么这样写代码。
软件请用最新版,尤其是samtools等被我存储在系统环境变量的,考虑到读者众多,一般的软件我都会自带版本信息的!
我用两个小时,不代表你是两个小时就学会,有些朋友反映学了两个星期才 学会,这很正常,没毛病,不要异想天开两个小时就达到我的水平。
转录组如果只看表达量真的是超级简单,真是超级简单,而且人家作者本来就测是SE50,这种破数据,也就是看表达量用的!
首先作者分析结果是:
1

Continue reading