Scalpel is available here: http://scalpel.sourceforge.net/
文章是： http://www.nature.com/nmeth/journal/v11/n10/full/nmeth.3069.html
很赞的工具！
软件说明书写的也比较详细：http://scalpel.sourceforge.net/manual.html
他提供了3种情况的找INDELs变异，我目前需要用的就是对我的全基因组测序数据来找，所以用single模式：
为了节省对计算资源的消耗，作者建议我单独对每条染色体分别处理。 Continue reading →

二 06

不要想当然的使用生信软件，读文档，勤搜索！

Posted on 2017年2月6日 by ulwvfje

最近在写一篇很有趣的文章，一张图说清楚wgs,wes,rna-seq,chip-seq的异同点！

需要用到一些测试数据，我准备拿17号染色体的40437407-40486397这约48Kb碱基区域来举例子，就需要把这个区域的bam提取出来。

我分别找了以前处理的wgs,wes,rna-seq,chip-seq公共数据，原始bam非常大，尤其是WGS的，45G的bam文件，所以只能抽取17号染色体的40437407-40486397这约48Kb碱基区域，以前我做mpileup或者其它都是用的-r 参数，所以我想当然的使用下面的代码： Continue reading →

一 30

用谷歌搜索来使用ggplot2做可视化（下）

Posted on 2017年1月30日 by ulwvfje

用谷歌搜索来使用ggplot2做可视化（下）

Original 2017-01-30 jimmy 生信菜鸟团

我知道会有续集，但也没想到续集来得这么快！今天收到了一个生信技能树公众账号铁杆粉丝（我们之间有过9次邮件交流）的求助信，下面我们首先一起帮他解决一下碰到的问题。随后和大家分享一下可以提高搜索效率和准确率的Google搜索技巧。

Continue reading →

一 30

如何通过Google来使用ggplot2可视化(上)

Posted on 2017年1月30日 by ulwvfje

如何通过Google来使用ggplot2可视化

Original 2017-01-29 jimmy 生信菜鸟团

今天是大年初二，这篇文章我只想传达一点：

没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的，如果有，请换个关键词继续Google！

第一部分

首先用两分钟的时间简单介绍一下R语言：

因为这个语言是肉丝儿（Ross Ihaka）和萝卜特（Robert Gentleman）两个人1992年在S语言的基础上发明出来的开源语言，所以叫做R语言。这两个人是统计学教授出身，所以R语言在统计学方面有着纯正的血统！如果你平时的工作和统计相关，你好意思不会点R语言么？

Continue reading →

一 24

一个标准的TCGA大文章应该做哪些数据？

Posted on 2017年1月24日 by ulwvfje

很多人总是问我如何挖掘TCGA的数据，发文章！

可是他却连TCGA的数据是怎么来的都不知道，TCGA发了几十篇CNS大文章(自己测序的)了，每篇文章都有几百个左右的癌症样本的6种数据，这几年凑成了一万多个样本，都放在GDC里面可以任意下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型，driver mutation，假基因等新型研究领域)

那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据？

其实稍微仔细浏览几篇文章就明白了，套路也是存在的，https://tcga-data.nci.nih.gov/docs/publications/

我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧！

Continue reading →

一 23

给初学者的忠告，不要拿一套垃圾数据入门！

Posted on 2017年1月23日 by ulwvfje

垃圾数据对初学者的伤害真的很可怕！

最近在带一些朋友入门，想起了当年自己入门的各种凄惨惨戚戚！

碱基质量值很差，GC不平衡，还有接头，PCR重复也很多，kmer值也很诡异，时间都耗在QC上面了，结果几个月下来，你一个流程都没搞明白，各种查资料，还是在原地打转。 Continue reading →

一 19

测序深度和GC含量的问题！【直播】我的基因组 47

Posted on 2017年1月19日 by ulwvfje

在前面我们提到了用ChIP-seq的分析方法可视化了一下我的WGS数据，结果我们的测序深度分布居然是跟基因组的genomic feature相关的~~~
比如在TSS附近，就很明显看到了一个测序深度峰值，那么前面我们并没有给出直接的解答，而且简单的提了一下这是二代测序的特点，GC含量片段偏好性！
作为一个合格的生物信息学工程师，我当然要把这个理论用自己的代码和数据来亲身实践一遍~
我首先把全基因组的bam文件用mpileup模式输出，根据1000bp的窗口滑动来统计每个窗口的测到的碱基数，GC碱基数，测序总深度！
代码比较复杂，一般人可能理解不来的！

Continue reading →

一 16

我是如何学习WGCNA分析

Posted on 2017年1月16日 by ulwvfje

首先声明，我不会WGCNA分析，只是大概知道它会对大量样本(>8或者15)的表达矩阵进行统计学分析，然后把表达矩阵的基因找到一下基因集合，有一些基因集合大概是非常有意义的！

因为有朋友一直好奇，我是如何学习新的知识的，所以就趁这个机会，录制了3个视频，只是我的一个学习过程而已。感兴趣可以去链接：http://pan.baidu.com/s/1jIgBTzw 密码：yh42下载，但是最后一个视频录制过程中被打断了，所以我只好重新写了个文字版的，来补充解释一下。(如果你看视频，请先看那个必看！)

学习一个新的概念，新的分析方法，我首先是谷歌了一下这个关键词，找到两个非常赞的链接！

https://bioconductor.org/packages/devel/bioc/vignettes/CVE/inst/doc/WGCNA_from_TCGA_RNAseq.html

http://cdmd.cnki.com.cn/Article/CDMD-10403-1014055937.htm

英文的那个，让我明白了WGCNA的步骤：

就是拿到表达矩阵，根据MAD来挑选top5000个基因的表达矩阵，然后用WGCNA的包构建共表达网络，检测每一个module是什么，有什么特性。接着把这些module跟个体结合起来。

Continue reading →

一 12

一个RNA-seq的反思

Posted on 2017年1月12日 by ulwvfje

熟悉我的人都知道RNA-seq是我的拿手好戏啦！

但是，今天处理了一个公共数据，比对率低的惊人！

是测序数据质量不好？

难道grcm38与mm10有差别？

还是比对工具的默认参数不行？

请看下去，看看老司机是如何翻车的！

Continue reading →

一 12

备忘录- Universal Human Reference RNA sample (HUR)-样本列表

Posted on 2017年1月12日 by ulwvfje

大家不要点击，我把这个博客当做笔记本的，这个知识点对你们几乎木有用的！

Universal Human Reference RNA 似乎是agilent公司的，包含了10个不同的人类细胞系！roadmap对这些样本测了RNA-seq，我以后课题可能会用得着。

列表如下： Continue reading →

一 12

CBX7在ESC里面重要作用发现史

Posted on 2017年1月12日 by ulwvfje

MicroRNA Regulation of Cbx7 Mediates a Switch of Polycomb Orthologs during ESC Differentiation

http://www.sciencedirect.com/science/article/pii/S1934590911005856

这篇文章就是做了CBX7的perturbation实验。

Continue reading →

一 10

一个ChIP-seq实战-超级简单-2小时搞定！

Posted on 2017年1月10日 by ulwvfje

请不要直接拷贝我的代码，需要自己理解，然后打出来，思考我为什么这样写代码。

软件请用最新版，尤其是samtools等被我存储在系统环境变量的，考虑到读者众多，一般的软件我都会自带版本信息的！

我用两个小时，不代表你是两个小时就学会，有些朋友反映学了两个星期才学会，这很正常，没毛病，不要异想天开两个小时就达到我的水平。

本次讲解选取的文章是为了探索PRC1，PCR2这样的蛋白复合物，不是转录因子或者组蛋白的CHIP-seq，请注意区别！

这是一个系列帖子，你可以先看：

一个表达芯片数据处理实例

一个RNA-seq实战-超级简单-2小时搞定！

WES（七）看de novo变异情况

【直播】我的基因组22：用IGV查看具体某个位点是否变异

文章是：RYBP and Cbx7 define specific biological functions of polycomb complexes in mouse embryonic stem cells

https://www.ncbi.nlm.nih.gov/pubmed/23273917

RYBP and Cbx7都是Polycomb repressive complex 1 (PRC1)的组分：

数据都在：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42466

所以用脚本在ftp里面批量下载即可：

ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP017/SRP017311

Continue reading →

一 01

ngsplot辅助CHIP-seq数据分析-可视化

Posted on 2017年1月1日 by ulwvfje

最近在忙一些chip-seq的数据分析项目，它的可视化展现比较复杂一点，自己写程序将会耗费挺长时间的，就想着利用现成的工具，前面试用了deeptools，挺好的，但是有点慢，是python程序，如下：

deeptools辅助CHIP-seq数据分析-可视化

现在换一个R程序，这个非常快速，而且绘图个人觉得稍微美观一点，大家也可以都试试看。

首先软件的github里面有源代码，然后作者还四处宣讲这个包的神奇之处，下面的ppt非常言简意赅的描述了它的功能和强大之处。

github: https://github.com/shenlab-sinai/ngsplot

ppt:http://jura.wi.mit.edu/bio/education/hot_topics/ngsplot/ngsplot_Apr2014.pdf

example:https://drive.google.com/drive/folders/0B1PVLadG_dCKN1liNFY0MVM1Ulk

Continue reading →

十二 30

一个RNA-seq实战-超级简单-2小时搞定！

Posted on 2016年12月30日 by ulwvfje

请不要直接拷贝我的代码，需要自己理解，然后打出来，思考我为什么这样写代码。

软件请用最新版，尤其是samtools等被我存储在系统环境变量的，考虑到读者众多，一般的软件我都会自带版本信息的！

我用两个小时，不代表你是两个小时就学会，有些朋友反映学了两个星期才学会，这很正常，没毛病，不要异想天开两个小时就达到我的水平。

转录组如果只看表达量真的是超级简单，真是超级简单，而且人家作者本来就测是SE50，这种破数据，也就是看表达量用的！

首先作者分析结果是：

Continue reading →

十二 29

生信分析人员如何系统入门python？

Posted on 2016年12月29日 by ulwvfje

呵呵，说了我不用！

你们看： http://www.biotrainee.com/thread-379-1-1.html 这个吧，下面是我摘抄的

Continue reading →

十二 29

生信分析人员如何系统入门R？

Posted on 2016年12月29日 by ulwvfje

R语言的重要性我也就不再赘述了，它不仅在生物信息数据处理中发挥着重要作用，也是其它主流数据处理人士的首选工具。现在非常多的半路出家自学生物信息学的小伙伴必须学而且有可能学的就是R，所以写一个R的系统性入门指导是非常有必要的。这本来应该是我下面的生信分析人员如何系统入门编程语言的姊妹篇的，但是因为时隔太久，我的感悟可能发生了变化，所以这个R跟前面的两个看起来总结指引模式不太一样的。

生信分析人员如何系统入门perl？

生信分析人员如何系统入门linux？

我作为老一辈的生信工程师，所以喜欢perl一点，排斥python，其实呢，我也稍微看过一些python的语法，个人认为R和python几乎是一模一样的。R的特点就是内置了大量的函数，基本上你认识的英文单词都可以是一个函数，即使不是，你也可以自定义为函数。搞清楚了函数和变量，就可以看懂大部分的R代码了。

下面是生信菜鸟团QQ群管理员赵云对这3种编程语言的心得体会！

python跟perl都是高级语言，两个开发的目的不同， perl更面向过程一些，优势是严谨，快。 python主流面向对象编程，这个跟R类似，数据结构等方面有些不同，但可以互相调用。实际上以上三者之间可以互相调用部分功能。python的语法并不是很严谨，个人感觉，越偏向自然语言的编程语言越通俗但不严谨，以上，是跟C比较的。

R本身起源于S语言，是主要针对统计的，也是面向对象的，本质上，，是把一个比excel功能强大的软件归零化成了命令行吧.excel高级应用也是要编程的，所以R的初级应用可以当成是没有用户交互界面的excel，细心一点，把示例代码都打对，当功能强大但不好使版的excel吧，这样至少心理上不会畏难跟抵触.

内部集成的越多，用户需要做的越少，你用C画个图累死你，用python得写几行， R一行就行了！

PS:菜鸟发言，如有误导，概不负责！

Continue reading →