一 30

用谷歌搜索来使用ggplot2做可视化（下）

Posted on 2017年1月30日 by ulwvfje

用谷歌搜索来使用ggplot2做可视化（下）

Original 2017-01-30 jimmy 生信菜鸟团

我知道会有续集，但也没想到续集来得这么快！今天收到了一个生信技能树公众账号铁杆粉丝（我们之间有过9次邮件交流）的求助信，下面我们首先一起帮他解决一下碰到的问题。随后和大家分享一下可以提高搜索效率和准确率的Google搜索技巧。

Continue reading →

一 30

如何通过Google来使用ggplot2可视化(上)

Posted on 2017年1月30日 by ulwvfje

如何通过Google来使用ggplot2可视化

Original 2017-01-29 jimmy 生信菜鸟团

今天是大年初二，这篇文章我只想传达一点：

没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的，如果有，请换个关键词继续Google！

第一部分

首先用两分钟的时间简单介绍一下R语言：

因为这个语言是肉丝儿（Ross Ihaka）和萝卜特（Robert Gentleman）两个人1992年在S语言的基础上发明出来的开源语言，所以叫做R语言。这两个人是统计学教授出身，所以R语言在统计学方面有着纯正的血统！如果你平时的工作和统计相关，你好意思不会点R语言么？

Continue reading →

一 24

一个标准的TCGA大文章应该做哪些数据？

Posted on 2017年1月24日 by ulwvfje

很多人总是问我如何挖掘TCGA的数据，发文章！

可是他却连TCGA的数据是怎么来的都不知道，TCGA发了几十篇CNS大文章(自己测序的)了，每篇文章都有几百个左右的癌症样本的6种数据，这几年凑成了一万多个样本，都放在GDC里面可以任意下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型，driver mutation，假基因等新型研究领域)

那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据？

其实稍微仔细浏览几篇文章就明白了，套路也是存在的，https://tcga-data.nci.nih.gov/docs/publications/

我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧！

Continue reading →

一 23

给初学者的忠告，不要拿一套垃圾数据入门！

Posted on 2017年1月23日 by ulwvfje

垃圾数据对初学者的伤害真的很可怕！

最近在带一些朋友入门，想起了当年自己入门的各种凄惨惨戚戚！

碱基质量值很差，GC不平衡，还有接头，PCR重复也很多，kmer值也很诡异，时间都耗在QC上面了，结果几个月下来，你一个流程都没搞明白，各种查资料，还是在原地打转。 Continue reading →

一 19

测序深度和GC含量的问题！【直播】我的基因组 47

Posted on 2017年1月19日 by ulwvfje

在前面我们提到了用ChIP-seq的分析方法可视化了一下我的WGS数据，结果我们的测序深度分布居然是跟基因组的genomic feature相关的~~~
比如在TSS附近，就很明显看到了一个测序深度峰值，那么前面我们并没有给出直接的解答，而且简单的提了一下这是二代测序的特点，GC含量片段偏好性！
作为一个合格的生物信息学工程师，我当然要把这个理论用自己的代码和数据来亲身实践一遍~
我首先把全基因组的bam文件用mpileup模式输出，根据1000bp的窗口滑动来统计每个窗口的测到的碱基数，GC碱基数，测序总深度！
代码比较复杂，一般人可能理解不来的！

Continue reading →

一 16

我是如何学习WGCNA分析

Posted on 2017年1月16日 by ulwvfje

首先声明，我不会WGCNA分析，只是大概知道它会对大量样本(>8或者15)的表达矩阵进行统计学分析，然后把表达矩阵的基因找到一下基因集合，有一些基因集合大概是非常有意义的！

因为有朋友一直好奇，我是如何学习新的知识的，所以就趁这个机会，录制了3个视频，只是我的一个学习过程而已。感兴趣可以去链接：http://pan.baidu.com/s/1jIgBTzw 密码：yh42下载，但是最后一个视频录制过程中被打断了，所以我只好重新写了个文字版的，来补充解释一下。(如果你看视频，请先看那个必看！)

学习一个新的概念，新的分析方法，我首先是谷歌了一下这个关键词，找到两个非常赞的链接！

https://bioconductor.org/packages/devel/bioc/vignettes/CVE/inst/doc/WGCNA_from_TCGA_RNAseq.html

http://cdmd.cnki.com.cn/Article/CDMD-10403-1014055937.htm

英文的那个，让我明白了WGCNA的步骤：

就是拿到表达矩阵，根据MAD来挑选top5000个基因的表达矩阵，然后用WGCNA的包构建共表达网络，检测每一个module是什么，有什么特性。接着把这些module跟个体结合起来。

Continue reading →

一 12

一个RNA-seq的反思

Posted on 2017年1月12日 by ulwvfje

熟悉我的人都知道RNA-seq是我的拿手好戏啦！

但是，今天处理了一个公共数据，比对率低的惊人！

是测序数据质量不好？

难道grcm38与mm10有差别？

还是比对工具的默认参数不行？

请看下去，看看老司机是如何翻车的！

Continue reading →

一 12

备忘录- Universal Human Reference RNA sample (HUR)-样本列表

Posted on 2017年1月12日 by ulwvfje

大家不要点击，我把这个博客当做笔记本的，这个知识点对你们几乎木有用的！

Universal Human Reference RNA 似乎是agilent公司的，包含了10个不同的人类细胞系！roadmap对这些样本测了RNA-seq，我以后课题可能会用得着。

列表如下： Continue reading →

一 12

CBX7在ESC里面重要作用发现史

Posted on 2017年1月12日 by ulwvfje

MicroRNA Regulation of Cbx7 Mediates a Switch of Polycomb Orthologs during ESC Differentiation

http://www.sciencedirect.com/science/article/pii/S1934590911005856

这篇文章就是做了CBX7的perturbation实验。

Continue reading →

一 10

一个ChIP-seq实战-超级简单-2小时搞定！

Posted on 2017年1月10日 by ulwvfje

请不要直接拷贝我的代码，需要自己理解，然后打出来，思考我为什么这样写代码。

软件请用最新版，尤其是samtools等被我存储在系统环境变量的，考虑到读者众多，一般的软件我都会自带版本信息的！

我用两个小时，不代表你是两个小时就学会，有些朋友反映学了两个星期才学会，这很正常，没毛病，不要异想天开两个小时就达到我的水平。

本次讲解选取的文章是为了探索PRC1，PCR2这样的蛋白复合物，不是转录因子或者组蛋白的CHIP-seq，请注意区别！

这是一个系列帖子，你可以先看：

一个表达芯片数据处理实例

一个RNA-seq实战-超级简单-2小时搞定！

WES（七）看de novo变异情况

【直播】我的基因组22：用IGV查看具体某个位点是否变异

文章是：RYBP and Cbx7 define specific biological functions of polycomb complexes in mouse embryonic stem cells

https://www.ncbi.nlm.nih.gov/pubmed/23273917

RYBP and Cbx7都是Polycomb repressive complex 1 (PRC1)的组分：

数据都在：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42466

所以用脚本在ftp里面批量下载即可：

ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311

Continue reading →

一 01

ngsplot辅助CHIP-seq数据分析-可视化

Posted on 2017年1月1日 by ulwvfje

最近在忙一些chip-seq的数据分析项目，它的可视化展现比较复杂一点，自己写程序将会耗费挺长时间的，就想着利用现成的工具，前面试用了deeptools，挺好的，但是有点慢，是python程序，如下：

deeptools辅助CHIP-seq数据分析-可视化

现在换一个R程序，这个非常快速，而且绘图个人觉得稍微美观一点，大家也可以都试试看。

首先软件的github里面有源代码，然后作者还四处宣讲这个包的神奇之处，下面的ppt非常言简意赅的描述了它的功能和强大之处。

github: https://github.com/shenlab-sinai/ngsplot

ppt:http://jura.wi.mit.edu/bio/education/hot_topics/ngsplot/ngsplot_Apr2014.pdf

example:https://drive.google.com/drive/folders/0B1PVLadG_dCKN1liNFY0MVM1Ulk

Continue reading →