生信菜鸟团 » 可视化

Bioconductor包chimeraviz嵌合RNA可视化

ulwvfje — Sat, 06 Jan 2018 09:41:26 +0000

Bioconductor包chimeraviz嵌合RNA可视化

高通量RNA测序已经能够更高效地检测融合转录本，但是融合检测的技术和相关软件通常产生高错误发现率。而一个自动整合RNA数据和已知基因组特征的可视化框架对于结果的检验是有帮助的。2017年发布的一个bioconductor包，chimeraviz就可以做到自动创建嵌合RNA可视化。

支持来自9种不同融合发现工具（deFuse、EricScript、InFusion、JAFFA、FusionCatcher、FusionMap、PRADA、SOAPfuse和STAR-FUSION）的输入。

官网教程

直接在bioconductor可以看到详细说明：https://bioconductor.org/packages/release/bioc/html/chimeraviz.html | HTML | R Script |

下载安装好该R包后，自带一系列的融合基因可视化的测试数据，文件如下：

  1.1K Oct 16 22:36 5267readsAligned.bam
   96B Oct 16 22:36 5267readsAligned.bam.bai
   22K Oct 16 22:36 FusionMap_01_TestDataset_InputFastq.FusionReport.txt
   37K Oct 16 22:36 Homo_sapiens.GRCh37.74.sqlite
   68K Oct 16 22:36 Homo_sapiens.GRCh37.74_subset.gtf
  1.9K Oct 16 22:36 PRADA.acc.fusion.fq.TAF.tsv
   32K Oct 16 22:36 UCSC.HG19.Human.CytoBandIdeogram.txt
   32K Oct 16 22:36 UCSC.HG38.Human.CytoBandIdeogram.txt
   16K Oct 16 22:36 defuse_833ke_results.filtered.tsv
  4.6K Oct 16 22:36 ericscript_SRR1657556.results.total.tsv
  1.7M Oct 16 22:36 fusion5267and11759reads.bam
   57K Oct 16 22:36 fusion5267and11759reads.bam.bai
  4.1K Oct 16 22:36 fusioncatcher_833ke_final-list-candidate-fusion-genes.txt
  2.1K Oct 16 22:36 infusion_fusions.txt
  4.3K Oct 16 22:36 jaffa_results.csv
  2.6K Oct 16 22:36 reads.1.fq
  2.6K Oct 16 22:36 reads.2.fq
  1.0K Oct 16 22:36 reads_supporting_defuse_fusion_5267.1.fq
  1.0K Oct 16 22:36 reads_supporting_defuse_fusion_5267.2.fq
  3.3K Oct 16 22:36 soapfuse_833ke_final.Fusion.specific.for.genes
  2.0K Oct 16 22:36 star-fusion.fusion_candidates.final.abridged.txt

可以看到，所支持的9种融合基因检测工具的示例结果都在这里了，比如我最喜欢的star-fusion的结果节选如下：

#FusionName JunctionReadCount   SpanningFragCount   SpliceType  LeftGene    LeftBreakpoint  RightGene   RightBreakpoint
THRA--AC090627.1    27  93  ONLY_REF_SPLICE THRA^ENSG00000126351.8  chr17:38243106:+    AC090627.1^ENSG00000235300.3    chr17:46371709:+
THRA--AC090627.1    5   93  ONLY_REF_SPLICE THRA^ENSG00000126351.8  chr17:38243106:+    AC090627.1^ENSG00000235300.3    chr17:46384693:+
ACACA--STAC2    12  51  ONLY_REF_SPLICE ACACA^ENSG00000132142.15    chr17:35479453:-    STAC2^ENSG00000141750.6 chr17:37374426:-
RPS6KB1--SNF8   10  43  ONLY_REF_SPLICE RPS6KB1^ENSG00000108443.9   chr17:57970686:+    SNF8^ENSG00000159210.5  chr17:47021337:-
TOB1--SYNRG 8   30  ONLY_REF_SPLICE TOB1^ENSG00000141232.4  chr17:48943419:-    SYNRG^ENSG00000006114.11    chr17:35880751:-
VAPB--IKZF3 4   46  ONLY_REF_SPLICE VAPB^ENSG00000124164.11 chr20:56964573:+    IKZF3^ENSG00000161405.12    chr17:37934020:-
ZMYND8--CEP250  2   44  ONLY_REF_SPLICE ZMYND8^ENSG00000101040.15   chr20:45852970:-    CEP250^ENSG00000126001.11   chr20:34078463:+
AHCTF1--NAAA    3   38  ONLY_REF_SPLICE AHCTF1^ENSG00000153207.10   chr1:247094880:-    NAAA^ENSG00000138744.10 chr4:76846964:-
VAPB--IKZF3 1   46  ONLY_REF_SPLICE VAPB^ENSG00000124164.11 chr20:56964573:+    IKZF3^ENSG00000161405.12    chr17:37944627:-
VAPB--IKZF3 1   46  ONLY_REF_SPLICE VAPB^ENSG00000124164.11 chr20:56964573:+    IKZF3^ENSG00000161405.12    chr17:37922746:-
STX16--RAE1 4   33  ONLY_REF_SPLICE STX16^ENSG00000124222.17    chr20:57227143:+    RAE1^ENSG00000101146.8  chr20:55929088:+

这些结果文件导入R里面统一用import系列函数，比如：

library(chimeraviz)

# Get reference to results file from deFuse
defuse833ke <- system.file(
  "extdata",
  "defuse_833ke_results.filtered.tsv",
  package="chimeraviz")

# Load the results file into a list of fusion objects
fusions <- importDefuse(defuse833ke, "hg19")

## ---- message = FALSE------------------------------------------------------
length(fusions)

基因组全局可视化

soapfuse833ke <- system.file(
  "extdata",
  "soapfuse_833ke_final.Fusion.specific.for.genes",
  package = "chimeraviz")
fusions <- importSoapfuse(soapfuse833ke, "hg38", 10)
# Plot!
plotCircle(fusions)

主要是一个环形图，如下：

红色条带-染色体内融合，蓝色条带-染色体间融合。

单独可视化某个融合事件


if(!exists("defuse833ke"))
  defuse833ke <- system.file(
    "extdata",
    "defuse_833ke_results.filtered.tsv",
    package = "chimeraviz")
fusions <- importDefuse(defuse833ke, "hg19", 1)
# Choose a fusion object
fusion <- getFusionById(fusions, 5267)
# Load edb
if(!exists("edbSqliteFile"))
  edbSqliteFile <- system.file(
    "extdata",
    "Homo_sapiens.GRCh37.74.sqlite",
    package="chimeraviz")
edb <- ensembldb::EnsDb(edbSqliteFile)
# bamfile with reads in the regions of this fusion event
if(!exists("fusion5267and11759reads"))
  fusion5267and11759reads <- system.file(
    "extdata",
    "fusion5267and11759reads.bam",
    package = "chimeraviz")
# Plot!
plotFusion(
  fusion = fusion,
  bamfile = fusion5267and11759reads,
  edb = edb,
  nonUCSC = TRUE)

## ---- echo = FALSE, message = FALSE, fig.height = 5, fig.width = 10, dev='png'----
# Plot!
plotFusion(
  fusion = fusion,
  bamfile = bamfile5267,
  edb = edb,
  nonUCSC = TRUE,
  reduceTranscripts = TRUE)

这个可视化比较复杂一点，需要融合基因的事件详情，包含两个融合基因的bam片段文件，以及参考基因组的数据库信息。

然后有两种展现方式，一种是基于转录本的融合情况，一种是基于基因

RCC1-HENMT1融合例子。

顶部：显示融合的染色体位置。支持断裂点（红色曲线）的discordant reads数10（其中split的6，spanning的4），注释的转录本及read数图。

用谷歌搜索来使用ggplot2做可视化（下）

ulwvfje — Mon, 30 Jan 2017 11:14:50 +0000

用谷歌搜索来使用ggplot2做可视化（下）

Original 2017-01-30 jimmy 生信菜鸟团

我知道会有续集，但也没想到续集来得这么快！今天收到了一个生信技能树公众账号铁杆粉丝（我们之间有过9次邮件交流）的求助信，下面我们首先一起帮他解决一下碰到的问题。随后和大家分享一下可以提高搜索效率和准确率的Google搜索技巧。

他的困惑

他遇到的问题很简单，就是我无法使ggplot2画出的曲线从坐标轴原点(0,0)出发，因为图像Y轴不是在(0,0)上，所以曲线不于Y轴贴合而是空出了一截，使得图片非常难看！

他还在邮件中补充道，根据我发的文章认真做了搜索，但是没有找到解决方案。

如何通过Google来使用ggplot2可视化 （请点击查看我前面是如何讲解的）

具体内容如下图所示：

我的搜索方法：

那么是不是真的如他所言，Google也找不到类似解决方案呢？

我在谷歌的搜索框中输入： ggplot y axis 0

然后摁下回车，就看到了下图的搜索结果

很明显前两个就是在解决他的问题，只需要用 scale_y_continuous(expand = c(0, 0)) 即可。
而且人家给出了测试代码：

df <- data.frame(x = 1:5, y = 1:5)library(ggplot2)
p <- ggplot(df, aes(x, y)) + geom_point()
p <- p + expand_limits(x = 0, y = 0)
p # not what you are looking forp + scale_x_continuous(expand = c(0, 0)) + scale_y_continuous(expand = c(0, 0))

你看一下加上scale_y_continuous(expand = c(0, 0)) 前后的图形变换情况，就明白它就是最好的解决方案！

当然，我在这里并不是想批评这位同学，大过年的，我无意批评谁。

相反，我还要自己检讨一下，发布用谷歌搜索来使用ggplot2做可视化(上)的时候，根据大家的反馈意见，我就知道那篇文章失败了，因为重点偏离了。我本意是想表达凡事都可以通过谷歌搜索来解决问题，可是字数太少，就把以前的ggplot2学习心得笔记放在文末假装自己做了很多工作！

这篇文章我本来应该讲如何来搜索，如何提炼问题，如何设置关键词，如何判别搜索结果的准确性。

可是我做不到，一方面是因为这个能力对我而言已经深入骨髓，近乎本能，另一方面是因为我的语言能力太差，一直看我博客的朋友应该知道，我所能分享的远不及我所会的，真的抱歉，我做不到！

常用Google搜索技巧

虽然很多东西只能意会不可言传，但我们还是在这里列出几个常用的Google搜索技巧，如果你可以熟练掌握一定会提高自己搜索问题的效率和准确性。

有没有Google搜不出来的问题

有，但是很少，或者说对于任何一个领域的初学者来说很少。

要知道，我们现在学的东西很多都已经诞生5—10年甚至更久了，而且每一个学习者之前不会谁比谁聪明多少。你在学习过程中遇到的问题，在如今的大牛还是初学者的时候很可能也遇到过，而且已经提问过。所以，当你搜不出来的时候很可能是因为你搜索的姿势不对。比如使用了中文，或者写了一长串无关痛痒的描述。

从另一个角度讲，如果你真的碰到了一个Google无法解决的问题，比如一个非常个性化的需求或者一个别人没有发现的bug，那你应该为自己庆幸，并且下定决心去解决它。这说明至少在这一个小方面，你已经走在了别人的前面。恭喜。

用双引号"搜索内容"进行精确搜索

很多时候，我们需要使用精确搜索，比如在进行一些常用软件安装或者使用的过程中会出现各种各样的报错，这时你把软件的报错信息用双引号括封装，后面再加上软件的名字和版本，Google就会进行精确的匹配搜索。很可能第一条搜索结果就是你要的。

用 -搜索内容 进行排除搜索

在一些情况下，一个主题词往往会和若干个内容关系密切。这时候我们希望明确排除某个我们不想要的内容。

给大家举个例子，比如搜索“直播我的基因组”，你可能会看到发布在“生信菜鸟团”博客上的内容，也可能看到“生信技能树”论坛里的内容，甚至还会看到很多盗版转发的内容。效果如下

但是如果我不想看到那些发布在生信菜鸟团博客的文章，你只需要这么做：直播我的基因组 -生信菜鸟团

然后神奇的事情就会发生

（发现了么，有不少网站似乎在盗版我们微信公众号的原创文章）

具体文档类型搜索

这个技巧当你在想要查找具体类型文档的时候非常有用。如你想要pdf版本的只需要在搜索内容的最后加上 filetype:pdf

指定网站搜索

对于码农而言 stackoverflow.com 是一个常用的网站，对于生物信息工作者来说biostar是一个非常好的论坛。如果我们想在某个特定的网站进行搜索的话，你可以在搜索内容之后加上site:****.com

例如，如果你在Google 里面直接搜索 ggplot y axis 0 site:stackoverflow.com 来解决我们上面提到的问题，你得到的答案就全部来自这个网站了。

善用相关推荐内容

当你开心地查到自己想要的答案，解决了自己的问题之后，在网站最下面的一些相关推荐通常也值得你去看看。比如我们通过搜索 “ggplot y axis 0” 解决了困惑，Google 还会给你一些大家都在搜索的类似问题。比如：

顺便学学怎么给坐标轴命名，怎么给文本配置颜色，不也是一件不错的事情么？

以上就是几个常用的搜索技巧。另外你也可以尝试一下，通过Google搜索如何正确的使用Google。

彩蛋：在Google里搜索 “zerg rush” 后，你的搜索结果会慢慢消失。另外，Google 的 doodles 都非常有趣，你也许可以在这个网站玩儿一年 https://www.google.com/doodles

写在最后：

我把自己定位成一个灯塔，引领在生信学海中挣扎的菜鸟们，告诉你们，前面就是希望，但我做不了舵手，没办法亲自渡你们出苦海！我愿意和你们一起努力！

如何通过Google来使用ggplot2可视化(上)

ulwvfje — Mon, 30 Jan 2017 11:13:10 +0000

如何通过Google来使用ggplot2可视化

Original 2017-01-29 jimmy 生信菜鸟团

今天是大年初二，这篇文章我只想传达一点：

没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的，如果有，请换个关键词继续Google！

第一部分

首先用两分钟的时间简单介绍一下R语言：

因为这个语言是肉丝儿（Ross Ihaka）和萝卜特（Robert Gentleman）两个人1992年在S语言的基础上发明出来的开源语言，所以叫做R语言。这两个人是统计学教授出身，所以R语言在统计学方面有着纯正的血统！如果你平时的工作和统计相关，你好意思不会点R语言么？

另外，在R语言的官网上，有这样一句话

One of R’s strengths is the ease with which well-designed publication-quality plots can be produced, including mathematical symbols and formulae where needed.

看明白了么盆友！

画图，画各种各样的图，画各种各样高逼格的图，画各种各样高逼格可以出版的图，是R语言自带的另一个光芒属性。如果你正在为如何画出各种好看的可视化图而苦恼，难道你不应该学习一点R语言么？

对了，如果你以为R语言的创造者肉丝儿和萝卜特是一对情侣（这里真的没有鱼香什么事），那你错了，因为他俩长这样！

第二部分

谈到画图，R语言里面有一个极其强大的工具，它是我们今天要谈论的主角：ggplot2

ggplot2 绘图作为R语言可视化阵营扛把子的地位是毋庸置疑的，我能与它结缘主要是因为自己本来没有正经地学过R语言，基础绘图里面多如繁星的参数调的我晕头转向。

正好看到一些公司的科研结题报告里面非常赞的图都是ggplot2出品的，就下定决心学一下。老规矩，先看点中文资料，接触最早是Y叔的ggplot系列，作为初学者入门指引绰绰有余了。把代码在R里面原样输出看看效果，把数据和代码和图形在脑海中形成连接，最后留在我心底的就只有映射这一核心思想。

我就明白我已经学会ggplot2的可视化了，虽然那时候的我画一个完整完美的图仍旧是各种磕磕碰碰，但并不影响我已经掌握了它的精髓。

两年多过去了，本身工作中需要我亲自来画图的机会非常少，所以我的可视化能力毫无进展，甚至有小幅度后退。最近在做直播我的基因组系列，完全是一个人要把一个团队的分析要点全部hold住，对我本身也是一个不小的考验。

前面的科研常规流程，包括下载各种公共数据，下载安装常见的软件，跑流程是我习以为常的事情。但作为自己的基因组，我的探索肯定不能像以往做科研项目那样浅尝辄止，马马虎虎的交差（希望老板不要看到）。我开始一步步地探索以前未接触的，懒得接触的，错过的细节知识点。而展现知识点给读者最重要的环节就是可视化。

今时不同往日，我木有手下，得亲自上阵。

一篇一篇文献地读
一个细节一个细节地搜索
一行代码一行代码地敲
一个参数一个参数地调整
一个问题一个问题地求助。

大家由最近的直播我的基因组45—55讲应该可以看得出来，可视化方面我的确很弱，但我还是想分享一下自己是如何通过google来使用ggplot做可视化的！(如果你ggplot已经小成请略过后面的内容，新年快乐.jpg)

下面的每张图我都是通过搜索做出来的，因为此时的我ggplot2语法已经忘光了。(请务必亲自把我给出的关键词输入到google自己搜索一遍，我给出的链接复制到浏览器用心看一遍，不要以为就只有看个手机版的就能学会我的学习方法)

比如画X,Y变量(测序深度和GC含量)的散点图需要添加回归曲线，标记回归方程。

【直播】我的基因组47:测序深度和GC含量的关系

我在Google里面是这样搜索的：

add regression line to scatter plot in rggplot2

http://www.cookbook-r.com/Graphs/Scatterplots_(ggplot2)/

http://stackoverflow.com/questions/7549694/ggplot2-adding-regression-line-equation-and-r2-on-graph

然后我只看了这两个链接而已，就得到了自己想要的图！

比如画多个分组变量(SNV和INDEL的het,hom)的条形图，并且标记每个变量的数值，还有修改图例，重新排序！

【直播】我的基因组54：把我的variation跟dbSNP数据库相比较

change legend in r ggplot2

http://www.cookbook-r.com/Graphs/Legends_(ggplot2)/

http://stackoverflow.com/questions/14622421/how-to-change-legend-title-in-ggplot-density

add values for bar plot in R ggplot

http://stackoverflow.com/questions/6644997/showing-data-values-on-stacked-bar-chart-in-ggplot2

http://stackoverflow.com/questions/11653268/adding-labels-to-ggplot-bar-chart

再比如画人的22+X+Y染色体的测序深度的分布！

链接【直播】我的基因组51:画全基因范围内的染色体reads覆盖度图

chromosome coverage r ggplot2

http://stackoverflow.com/questions/14629607/long-vector-plot-coverage-plot-in-r

https://www.biostars.org/p/18954/

还有GO的分类富集分析结果图，或者火山图，或者其它：

go structure enrichment results r ggplot2

https://cran.r-project.org/web/packages/GOplot/vignettes/GOplot_vignette.html

https://arxiv.org/ftp/arxiv/papers/1602/1602.07103.pdf

基本上生物信息学所有常见的图在Google里面都可以找到现成的代码！

如果你跟我一样，只是想达到目的，那就Google好了。如果你需要创造新的可视化，彻底走向可视化这条路就有点麻烦了，你可能需要看大量的书籍，比如上面我们Google结果经常出现的《cookbook R》 和 《ggplot2 elegant graphics for data analysis》就是很优秀的。

不过，如果你们点进去看了我画的都是些什么东西，就明白，不要学我！我只会修改别人的代码画图而已，如果你要彻底掌握可视化，请移步去Y叔的博客！

GitHub 网址 http://guangchuangyu.github.io/

或者关注他的公众号

第三部分

这一部分是我和本文编辑学习ggplot2 的一小部分总结，如果你想看全部总结可以加生信菜鸟团QQ群下载 Word 版本。

什么，群号是啥？文末告诉你，先好好看文章。

关于R绘图的基本知识：

R语言目前比较常用的有三大绘图系统

基本绘图系统（Base Plotting System）
Lattice绘图系统（Lattice Plotting System）
ggplot2绘图系统（ggplot2 Plotting System）

其中，基本绘图系统调用绘图函数graphics包，其中包括 plot/hist/lines/text等命令，每次你调用一个函数都会启用一个图形设备并在该设备上直接绘图。

而Lattice绘图系统相对高级一些，它会调用lattice包，其中包括 xyplot/histogram/stripplot/dotplot等命令，如果你使用 panel函数，还可以控制每个面板内的绘图。

最高级的当属ggplot2。

在ggplot2中，你首先利用 qplot()完成类似于基本绘图系统中 plot的操作，参数包括 geom/asethetics等；随后你可以利用 ggplot()这个核心实现 qplot()所无法实现得功能，它开创性的在R语言绘图中增加了图层的概念（如果你熟悉PS应该对图层不陌生）。

关于ggplot2，下面的内容很重要！

首先必须练习几个基本图形来了解它映射的思想。

散点图、直方图、条形图、密度图、箱线图。

然后加载包及数据集，选取一个小量数据集来做分析，测试数据如下：

各种属性映射由 ggplot()函数执行，只需要加一个图层，比如 geom_point()告诉ggplot2要画散点，于是所有的属性都映射到散点上。

geom_point()完成的就是几何对象的映射，ggplot2提供了各种几何对象映射，如 geom_histogram用于直方图， geom_bar用于画柱状图， geom_boxplot用于画箱式图等等。

不同的几何对象，要求的属性会有些不同，这些属性也可以在几何对象映射时提供。(属性就是需要google的，除非你全部熟记它们！)

内置图形函数

1.散点图

ggplot(data = small, mapping = aes(x =carat, y = price, shape=cut, colour=color))+geom_point()`

或者是

ggplot(small) +geom_point(aes(x=carat, y=price, shape=cut,colour=color))

aes里面的就是映射，根据 cut的不同选取不同形状的点，根据 color来画不同颜色的点，可以在 ggplot里面映射，也可以在几何对象里面映射

2.直方图

ggplot(small)+geom_histogram(aes(x=price,fill=cut), position="fill")

直方图只需要一个数据，自动分组来得到X,Y轴变量，直方图把连续型的数据按照一个个等长的分区（bin）来切分，然后计数，画柱状图

3.条形图

以上两个等价(这里缺图，我懒得上传了)

ggplot()+geom_bar(aes(x=c(LETTERS[1:3]),y=1:3),stat="identity")

条形图只有自定义Y轴，然后用 stat="identity"才是真正意义上的条形图。

4.密度函数图

ggplot(small)+geom_density(aes(x=price,colour=cut))
ggplot(small)+geom_density(aes(x=price,fill=clarity))

密度函数图，数据和映射和直方图是一样的，唯一不同的是几何对象， geom_histogram告诉 ggplot要画直方图，而 geom_density则说我们要画密度函数图，也是同样的把连续型的数据按照一个个等长的分区（bin）来切分，然后计数，画曲线。

5.箱式图

ggplot(small)+geom_boxplot(aes(x=cut,y=price,fill=color))

总共有5种 cut，每个 cut下面都有7种 color，所以会形成35个箱子！

上传图片太麻烦了，大过年的我就不浪费时间了。上面的代码大家拿到R里面直接复制粘贴就可以直接运行出图的！

如果ggplot2只是有这39个内置图形函数那就太没意思了，每个映射都是可以细化调整的，包括X,Y轴，颜色，大小等具体的熟悉，只是需要时间来熟练使用！

统计变换（Statistics）

ggplot(small, aes(x=carat,y=price))+geom_point()+scale_y_log10()+stat_smooth()

这里， aes所提供的参数，就通过 ggplot提供，而不是提供给 geom_point，因为 ggplot里的参数，相当于全局变量， geom_point()和 stat_smooth()都知道x,y的映射，如果只提供给 geom_point()，则相当于是局部变量， geom_point知道这种映射，而 stat_smooth不知道，当然你再给 stat_smooth也提供x,y的映射，不过共用的映射，还是提供给 ggplot好。

统计变换是非常重要的功能，我们可以自己写函数，基于原始数据做某种计算，并在图上表现出来，也可以通过它改变geom_xxx函数画图的默认统计参数。

坐标系统（Coordinante）

坐标系统控制坐标轴，可以进行变换，例如XY轴翻转，笛卡尔坐标和极坐标转换，以满足我们的各种需求。

坐标轴翻转由 coord_flip()实现

ggplot(small)+geom_bar(aes(x=cut,fill=cut))+coord_flip()

而转换成极坐标可以由 coord_polar()实现：

ggplot(small)+geom_bar(aes(x=factor(1),fill=cut))+coord_polar(theta="y")
ggplot(small)+geom_bar(aes(x=factor(1),fill=cut))
ggplot(small)+geom_bar(aes(x=factor(1),fill=cut))+coord_polar(theta='y')
#就是饼图
#这个bar图是统计cut的各个因子出现的次数，来作为Y轴。

合并画多个饼图

ggplot(new_a,aes(x ="",y=V3,fill=V2)) +geom_bar(width = 3, stat="identity")+coord_polar("y")+ facet_wrap(type~V1)+theme(text=element_text(face='bold'))

以及风玫瑰图(windrose)

ggplot(small)+geom_bar(aes(x=clarity,fill=cut))+coord_polar()

主题

ggplot2提供一些已经写好的主题，比如 theme_grey()为默认主题，我经常用的 theme_bw()为白色背景的主题，还有 theme_classic()主题，和R的基础画图函数较像。

还有二维密度图

ggplot(diamonds, aes(carat, price))+stat_density2d(aes(fill = ..level..), geom="polygon")+scale_fill_continuous(high='darkred',low='darkgreen')
#其中..level..是生成的变量

好了，这篇诚意之作就写到这里，再次祝大家新年快乐！

欢迎把文章分享给你身边的朋友！

如果想知道如何科学上网，也可以加群请教哦~

生信菜鸟团QQ群：201161227 （所剩名额不多，请提高手速）

文：Jimmy & 一只思考问题的熊

校对编辑：一只思考问题的熊

ngsplot辅助CHIP-seq数据分析-可视化

ulwvfje — Sun, 01 Jan 2017 02:18:17 +0000

最近在忙一些chip-seq的数据分析项目，它的可视化展现比较复杂一点，自己写程序将会耗费挺长时间的，就想着利用现成的工具，前面试用了deeptools，挺好的，但是有点慢，是python程序，如下：

deeptools辅助CHIP-seq数据分析-可视化

现在换一个R程序，这个非常快速，而且绘图个人觉得稍微美观一点，大家也可以都试试看。

首先软件的github里面有源代码，然后作者还四处宣讲这个包的神奇之处，下面的ppt非常言简意赅的描述了它的功能和强大之处。

github: https://github.com/shenlab-sinai/ngsplot

ppt:http://jura.wi.mit.edu/bio/education/hot_topics/ngsplot/ngsplot_Apr2014.pdf

example:https://drive.google.com/drive/folders/0B1PVLadG_dCKN1liNFY0MVM1Ulk

安装超级简单啦，只需要去Google的云盘里下载软件和测试数据咯

cd ~/biosoft

mkdir ngsplot && cd ngsplot

## download by yourself :https://drive.google.com/drive/folders/0B1PVLadG_dCKN1liNFY0MVM1Ulk

tar -zxvf ngsplot-2.61.tar.gz

tar zxvf ngsplot.eg.bam.tar.gz ## 测试数据非常给力，清楚的说明了，CHIP-seq数据分析-可视化需要什么样的数据。

cp ../ngsplot/example/config.example.txt ./ ## 在后面的测试代码需要用

echo 'export PATH=/home/jianmingzeng/biosoft/ngsplot/ngsplot/bin:$PATH' >>~/.bashrc

echo 'export NGSPLOT=/home/jianmingzeng/biosoft/ngsplot/ngsplot' >>~/.bashrc

source ~/.bashrc

## 需要你的服务器安装好R，并且你自己手动安装好这几个包。

install.packages("doMC", dep=T)

install.packages("caTools", dep=T)

install.packages("utils", dep=T)

source("http://bioconductor.org/biocLite.R")

biocLite( "BSgenome" )

biocLite( "Rsamtools" )

biocLite( "ShortRead" )

使用非常简单，看懂ngs.plot.r的用法即可，一个命令就出图了，如果这个出图不满意，就用replot.r重新选择参数绘制一个新的图！

前提是自己下载好了基因组文件，本软件自带hg19，其余的基因组有：https://github.com/shenlab-sinai/ngsplot/wiki/SupportedGenomes ，但是都放在Google云盘里面，所以需要翻墙才能下载的： https://drive.google.com/drive/folders/0B1PVLadG_dCKNEsybkh5TE9XZ1E

测序数据如下：

有了这些测试数据，而且软件里面还自带了测试代码：

ngs.plot.r -G hg19 -R tss -C hesc.H3k4me3.1M.bam -O k4.test

ngs.plot.r -G hg19 -R tss -C config.example.txt -O encode1M.k4k27

如果需要对多个bam文件画图，就根据作者定义的规则来设置好config.example.txt 文件即可

如果你对上面的图不满意，可以用replot.r 来重新根据上面的参数来画图。

replot.r prof -I k4.test.zip -O k4.replot -SE 0 -MW 9 -H 0.3

replot.r heatmap -I encode1M.k4k27.zip -O k4k27.replot -GO hc -RR 80

除了以tss来画图，还可以根据genebody或者其它： tss, tes, genebody, exon, cgi, enhancer, dhs or bed

ngs.plot.r -G hg19 -R genebody -F rnaseq -C hesc.RNAseq.1M.bam -O encode1M.rnaseq

ngs.plot.r -G hg19 -R tss -C hesc.H3k4me3.1M.bam:hesc.Input.500K.bam -O k4vsInp

轻轻松松get到作者的意图，然后拿自己的数据就可以做同样的分析图片了！

当然，如果你领悟力比较差，慢慢读人家的github上面的readme吧，实在是太简单了，我都不知道需要我讲什么。

而且运行速度还特快！

当然，也可能是它这个测试文件本来就很小的原因。

The genome files can be found in this Google drive folder: ngs.plot genome folder. A list of the available genomes is listed in this Wiki: SupportedGenomes. A brief list is here (not all): "human (hg18, hg19), chimpanzee (panTro4), rhesus macaque (rheMac2), mouse (mm9, mm10), rat (rn4, rn5), cow (bosTau6), chicken (galGal4), zebrafish (Zv9), drosophila (dm3), Caenorhabditis elegans (ce6, ceX), Saccharomyces cerevisiae (sacCer2, sacCer3), Schizosaccharomyces pombe (Asm294), Arabidopsis thaliana (TAIR10), Zea mays (AGPv3), rice (IRGSP-1.0)".

生物信息数据分析文章就是看图写作文

ulwvfje — Wed, 28 Dec 2016 07:14:39 +0000

首先是从测试原始数据里面得到汇总数据

然后把各种统计汇总数据可视化成图表

最后根据图表来写作文即可。

来源：Genome-wide Mapping of HATs and HDACs Reveals Distinct Functions in Active and Inactive Genes

http://www.sciencedirect.com/science/article/pii/S0092867409008411

比如下面这个图，就是CHIP-seq的数据，比对后根据全基因组的所有基因的区域范围内的reads密度的总结：

故事该怎么写呢？

首先看图例：

A. Profiles of HATs binding across 5’ gene ends, 3’ gene ends and gene body regions of the 1000 most active, intermediately active and least active genes were examined using ChIP-Seq.txStart: transcription start site. txEnd: transcription end site.

B. Profiles of HATs binding across intergenic (5kb away from any gene) or promoter (defined

as +/− 1kb surrounding TSS) DNase HS sites. DNase HS sites were obtained from (Boyle et

al., 2008).

作者做了5个HATs基因的CHIP-seq数据，根据上面的图，可以把它们分成3组，分别是CBP and p300，PCAF (p300/CBP associated factor) and GCN5，MOF and Tip60，它们虽然都是蛋白质的乙酰化酶，但是它们的CHIP-seq数据表现不一致，仔细看上图就明白了。为什么不一致，就需要解释，解释就需要有生物学背景，比如CBP and p300结构上高度同源，前人研究也表明主要是参与转录起始。而PCAF (p300/CBP associated factor) and GCN5是另外一组的高度同源，前人研究参与转录延伸。最后的MOF and Tip60是MYST family of HATs，跟上面的HATs不大一样，前人研究表明它们参与的功能特别多样性，所以在基因上面的结合密度跟其它不一样。最后再扯一扯它们在其它物种的功能如何如何，跟人类比较一下如何如何。再找几个已有的CHIP-seq数据交叉验证一下，再说一下自己也做实验随机验证了一些，因为高通量测序毕竟不是金标准。

下面这张图是把CHIP-seq数据的reads密度和基因的表达量关联起来，也很简单。

故事该怎么写呢?

首先看图例：

C. Correlation between HAT binding and gene expression levels. Genes were grouped to 100

gene (one dot in the figure) sets according to expression level. The HAT binding level in

promoter region was calculated for the same 100 gene sets. The y-axis indicates the HAT

binding level and the x-axis indicates the expression level.

D. Correlation between HAT binding and RNA Pol II binding levels among the 100 gene sets

grouped according to expression levels as defined in panel C. The y-axis indicates the HAT

binding level and the x-axis indicates the Pol II level.

E. Correlation between HAT binding and histone acetylation levels among the 100 gene sets

grouped according to expression levels as defined in panel C. The acetylation level was

calculated by pooling all reads for 18 histone acetylations mapped previously (Wang et al.,

2008). The y-axis indicates the HAT binding level and the x-axis indicates the acetylation level.

图例就很复杂了，但是信息量很少。就是根据转录组数据把基因分区段，不同表达水平的基因组它们的对应的基因的CHIP-seq数据的密码如何，很简单的一个相关图。就是为了说明它们跟基因的表达水平是正相关的。其实表达水平就是polyII的结合密度，也可以看看polyII的结合密度跟这些CHIP-seq的IP的结合密度看看相关性，也能说明同样的结论。

此文的作者把HATs系列酶都做了CHIP-seq数据，同时也把HDACs系列酶也做了CHIPseq数据！~~~

一般人入门生物信息学的时候问题都集中在如何得到可绘图的数据，因为绘图很简单，哪怕是不会R语言，在excel也能做。至于后面的看图写作文，主要是考验生物学底蕴了。

最后说一下下面这个图：

A. Distribution profiles of HDAC6, Tip60, Pol II and H3K36me3 across the active genes were

plotted. The left y-axis indicates tag densities for HDAC6, Tip60 and Pol II. The right axis

indicates tag densities for H3K36me3.

这个没什么好说的了，很明显HATs和HDACs和polyII都是一样的pattern，都代表着转录激活，跟H3K36me6的pattern有显著区别。这个现象很新颖，很有趣，再扯一堆生物学意义就好，为什么HATs和HDACs和polyII都是一样的pattern呢？给自己的假设和猜想。前提是要有生物学背景知识。

而且，如何得到这样的绘图的数据，讲起来就比较复杂了。

用网页版工具ChIPseek来可视化CHIP-seq的peaks结果

ulwvfje — Thu, 07 Jul 2016 12:56:10 +0000

一般做完一个CHIP-seq测序，如果实验设计没有问题，测序质量也OK的话，很容易了根据序列call到符合要求的peaks，或者可以去很多文章或者roadmap里面下载到非常多有意义的peaks文件，一般是BED格式文件，这是就需要对这些peaks进行各种各样的注释以及可视化了，此时不得不强烈推荐一款网页版工具，是台湾学者开发的ChIPseek：

该工具首页就show了8张图片，就说明了该软件的功能：http://chipseek.cgu.edu.tw/index_show.py

该工具本质是就是后台调用 HOMER 和BEDTools, 这两个软件，使得那些不会编程的生物学家可以更方便快捷的理解自己的CHIP-seq结果，功能包括：

annotate the peaks
link to UCSC genome browser
provide pie charts, histograms and bar charts for peak location distribution
apply filter criteria by peak length to get a subset of peaks
apply filter criteria by distance to nearest TSS to get a subset of peaks
apply filter criteria by location of the peaks
apply filter criteria by list(s) of genes
apply filter criteria by GO terms
apply filter criteria by KEGG pathway annotations
compare two datasets
compare dataset with ENCODE transcription factor dataset
identify enriched motif
plot peaks on chromosome ideograms
allow users to download figures or tables

大部分功能自己写脚本也能实现，我就不多说了。

使用方法非常简单：

首先进入分析界面：http://chipseek.cgu.edu.tw/analysis_form.php

然后上传自己想要分析的peaks文件

比如GSE50177里面的GSE50177_RAW.tar：http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177

我拿了四个peaks文件测试了一下：

提交任务后，文件就会上传，然后网页会给一个job ID号，如果你是在一个月之内看到这篇文章，你可以直接拿我的ID号去看结果，不需要自己上传自己的文件了，当然，你肯定是需要分析自己的peaks结果的。

ChIPseek is annotating your file(s).

This page will automatically refresh every 60 seconds.

Alternatively, You may use the job ID: 1467890358.407 to visit ChIPseek latter.

一会儿就可以看到结果了，因为网页版工具的服务器容量有限，所以这个结果一个月内是有效的。

http://chipseek.cgu.edu.tw/main_menu.py?job_id=1467890358.407

GSM1278641_Xu_MUT_rep1_BAF155_MUT (a total of 6733 peaks) (Download all annotation results)

GSM1278643_Xu_MUT_rep2_BAF155_MUT (a total of 3625 peaks) (Download all annotation results)

GSM1278645_Xu_WT_rep1_BAF155 (a total of 10987 peaks) (Download all annotation results)

GSM1278647_Xu_WT_rep2_BAF155 (a total of 5225 peaks) (Download all annotation results)

把每个文件的每个peaks都注释了，而且提供带链接的下载结果，tab分割的纯文本文件，用excel打开可能看起来舒服一点

还有4个可视化图片是我们可能会比较感兴趣的：

Peak location (pie chart)

Peak location (bar chart)

Distance to TSS

Peak length distribution

以及它可以把我们上传的bed格式peaks区域文件转为fasta序列 Peak sequences

本质是根据坐标从参考基因组里面提取序列而已，我把所有的序列都下载下来了，可以用来直接做motif查找

$ ls -lh *fasta

-rw-r–r– 1 Jimmy 197121 18M Jul 7 19:40 GSM1278641_Xu_MUT_rep1_BAF155_MUT_sequence.fasta

-rw-r–r– 1 Jimmy 197121 9.9M Jul 7 19:38 GSM1278643_Xu_MUT_rep2_BAF155_MUT_sequence.fasta

-rw-r–r– 1 Jimmy 197121 26M Jul 7 19:41 GSM1278645_Xu_WT_rep1_BAF155_sequence.fasta

-rw-r–r– 1 Jimmy 197121 14M Jul 7 19:41 GSM1278647_Xu_WT_rep2_BAF155_sequence.fasta

自学CHIP-seq分析第九讲~CHIP-seq可视化大全

ulwvfje — Thu, 07 Jul 2016 12:53:47 +0000

讲到这里，我们的自学CHIP-seq分析系列教程就告一段落了，当然，我会随时查漏补缺，根据读者的反馈来更新着系列教程。其实可视化这已经是一个比较复杂的方向了，不仅仅是针对于CHIP-seq数据。可视化本身是发文章的先决条件，而让人一目了然图片也说明了数据分析人员对数据本身的理解。我这里就列出一些目录和一些工具，和ppt。这个主要靠大家自学了，而且我博客空间有限，就不上传一大堆图片了，大家随便找一些经典的paper里面都会有很多可视化分析。

首先强烈推荐两个网页版工具，针对找到的peaks可视化:

http://chipseek.cgu.edu.tw/

http://bejerano.stanford.edu/great/public/html/

然后再推荐一个哈佛刘小乐实验室出品的软件，也是专门为了作图http://liulab.dfci.harvard.edu/CEAS/usermanual.html

还有一个java工具：也可以可视化CHIP-seq的peaks结果EXPANDER (EXpression Analyzer and DisplayER) is a java-based tool for analysis of gene expression data.http://acgt.cs.tau.ac.il/expander/help/ver7.0Help/html/Input_Data_.htm

然后来随意上传一张图片吧

然后我所了解的图片大概有下面这些，都是有专门的软件，甚至自己写脚本也可以做的：

peaks长度分布柱状图

每个peak的测序情况可视化(IGV,sushi)

测序reads在全基因组各个染色体的分布(Chromosome ideograms)

reads相对基因位置分布统计

peaks相对基因位置分布统计

reads在基因组位置分布统计（染色体分开作图）

peaks在基因组位置分布统计（染色体分开作图）

统计peaks在各种基因组区域(基因上下游，5,3端UTR，启动子，内含子，外显子，基因间区域，microRNA区域)分布情况，条形图和饼图均可

Peak与转录起始位点距离的分析（曲线图和热图）

Average ChIP-Seq Gene Profile

ChIP-Seq Browser Tracks with Peak Calling

visualizes how ChIP regions are distributed over the genome along with their scores or peak heights.

可视化比较whole tiled or mappable regions + whole regions 这两种区域在全基因组各个染色体的百分比（百分比横向条形图）以及在各种genomic features的分布（百分比条形图）

display the average ChIP enrichment signals around TSS and TTS of genes, respectively（一般会把基因分成TOP10%，BOTTOM10%和ALL）

Since exon and intron lengths highly vary from gene to gene, CEAS groups exons (or introns) into multiple classes by length 看它们上面的 ChIP enrichment signals 分布情况

the average ChIP signal profiles on top 10 % , middle 10 %, and bottom 10 % of expressed genes

最后总结一下

其实有个国外的哥们也写过类似的自学教程：

一个实际的CHIP-seq数据分析例子： http://www.biologie.ens.fr/~mthomas/other/chip-seq-training/

CHIP-seq pipeline :　http://www.slideshare.net/COST-events/chipseq-data-analysis

然后大家一定要看这个ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia. http://www.ncbi.nlm.nih.gov/pubmed/22955991