05

文献阅读笔记-对肿瘤细胞系进行药物筛查

我看到一篇nature medicine文章里面提到了这个对肿瘤细胞系进行药物筛查文章链接:https://www.nature.com/nm/journal/v21/n6/full/nm.3855.html

首先,肿瘤细胞系是:

We assembled a panel of 14 patient-derived DIPG cell cultures, created using neurosphere and adherent models and obtained from both biopsy and autopsy samples (Fig. 1a), representing the breadth of DIPG cell cultures available worldwide at the initiation of the study. Continue reading

05

文献阅读笔记-2014-K27M-H3.3-DIPG

DIPG和 adult glioblastomas (GBMs) 很大区别,不应该用同样的治疗方式。

测序策略是:

We integrated deep sequencing analysis of 36 tumor-normal pairs (20 whole-genome sequencing (Illumina HiSeq 2000) and 16 whole-exome sequencing (Applied Biosystems SOLiD 5500xl)) with comprehensive methylation (28 DIPGs; Illumina Infinium450k methylation array), copy number (45 DIPGs; Affymetrix SNP6.0) and expression (35 DIPGs; Illumina HT-12 v4) data (Supplementary Table 1).  Continue reading

05

文献阅读笔记-2013-H3K27me3 and K27M mutation

这篇文章是Received 29 March 2013, Revised 9 August 2013, Accepted 4 October 2013, Available online 31 October 2013

同时还有17 MAY 2013一篇science文章提到了K27M mutant影响了PRC2活性

we performed IHC for H3K27me3 in a large cohort of pHGGs with known H3F3A mutation status (n = 104).

Strikingly, all K27M mutant pHGGs (n = 21) showed a strong reduction of overall H3K27me3 levels.

这篇文章就这一个目的,抢这个热点。
Continue reading

05

文献阅读笔记-2012–Hotspot Mutations GBM

这篇文章最重要的观点是甲基化用来给GBM分组,分成了6组,至于突变什么的,随便讲了讲,反正数据也不给下载。

We identified six epigenetic and biological GBM subgroups displaying distinct global DNA methylation patterns, which harbor unique hotspot mutations, DNA copy-number alterations, and transcriptomic patterns.

分组如下: Continue reading

05

文献阅读笔记,2012-Driver mutations-GBM

主要是做测序

To decipher the molecular pathogenesis of paediatric GBM, we undertook a comprehensive mutation analysis in protein-coding genes by performing whole-exome sequencing (WES) on 48 well-characterized paediatric GBMs, including 6 patients for whom we had matched non-tumour (germline) DNA.

只有6个患者有NT配对样本,用来找somatic的mutation,结果发现其中4个患者就有H3F3A的突变,但是H3F3A本身是非常保守的,所以这个现象值得研究。

to our knowledge no human disorders have specifically been associated with mutations in histones, including H3.3

所以才扩大了WES测序样本数量。 Continue reading

28

我测试了一下Jbrowse的安装及初步试用

前些天我们公众号元老,熊,投稿了关于Jbrowse的史上最全介绍,如下:

可能是最全的JBrowse基因浏览器介绍(请点击阅读)

发现下面文章的图片都挂掉了,请直接点击这个链接查看:http://mp.weixin.qq.com/s/P32LxR-cFPN3pw25ba5sIg,下面不用看了,反正没有图片了

这个现象很奇怪:博客和公众号,都是用的有道云分享出来的图片,结果博客里面的图片挂掉了,微信里面还有!

最为生物信息学痴的我当然不能错过,今天终于找到了空隙时间来体验一把!

全部体验报告如下:

Continue reading

我用rmarkdown写过的教程

Featured

用rmarkdown写教程真心非常方便,尤其是R语言相关的,比如一些R包的应用,或者一些可视化,或者一些统计,下面我简单列出一些我以前写过的,图文并茂,关键是还非常省心,不需要排版,不需要上传图片,整理图片。

一般来说看链接最后的文件名就知道这篇文章讲的是什么了:

Continue reading

02

生信菜鸟团对应的QQ群已经满了,请根据学习方向选择加入分群

生信各种组学群 554052300

WGS/WES/RNA-SEQ/CHIP-SEQ
单细胞转录组分析
de novo 组装(Trinity)
质控(MISO,fastqc,fastx,RSEM)
counts(HTseq,BEDtools,RNA-SeQC)
序列比对(BWA,GSNAP,TopHat,Hisat,Star,bowtie)
寻找差异基因(voom,DESeq,DESeq2,edgeR,BaySeq,SAMseq,)
富集分析(GOstats,GSEA,web-tools)
可变剪切
基因融合(SOAPfusion,FusionSeq, deFuse , TopHat-Fusion , FusionHunter , SnowShoes-FTD, chimerascan,FusionMap)
拷贝数变异检测
alle specific 表达差异
共表达网络
miRNA分析
病毒检测分析
其它注释

Continue reading

一个MeDIP-seq实战-超级简单-2小时搞定!

Featured

请不要直接拷贝我的代码,需要自己理解,然后打出来,思考我为什么这样写代码。
软件请用最新版,尤其是samtools等被我存储在系统环境变量的,考虑到读者众多,一般的软件我都会自带版本信息的!
我用两个小时,不代表你是两个小时就学会,有些朋友反映学了两个星期才 学会,这很正常,没毛病,不要异想天开两个小时就达到我的水平。

MeDIP-seq 跟ChIP-seq的分析手段是一模一样的,同理hMeDIP-seq,caMeDIP-seq等等,都没有本质上的区别,只是用的抗体不一样而已,请自行搜索基础知识,我只讲数据分析。

一个ChIP-seq实战-超级简单-2小时搞定!

一个RNA-seq实战-超级简单-2小时搞定!

Continue reading

06

scalpel软件找indel

Scalpel is available here: http://scalpel.sourceforge.net/
文章是: http://www.nature.com/nmeth/journal/v11/n10/full/nmeth.3069.html
很赞的工具!
软件说明书写的也比较详细:http://scalpel.sourceforge.net/manual.html
他提供了3种情况的找INDELs变异,我目前需要用的就是对我的全基因组测序数据来找,所以用single模式:
为了节省对计算资源的消耗,作者建议我单独对每条染色体分别处理。 Continue reading

06

不要想当然的使用生信软件,读文档,勤搜索!

最近在写一篇很有趣的文章,一张图说清楚wgs,wes,rna-seq,chip-seq的异同点!

需要用到一些测试数据,我准备拿17号染色体的40437407-40486397这约48Kb碱基区域来举例子,就需要把这个区域的bam提取出来。

我分别找了以前处理的wgs,wes,rna-seq,chip-seq公共数据,原始bam非常大,尤其是WGS的,45G的bam文件,所以只能抽取17号染色体的40437407-40486397这约48Kb碱基区域,以前我做mpileup或者其它都是用的-r 参数,所以我想当然的使用下面的代码: Continue reading

30

用谷歌搜索来使用ggplot2做可视化(下)

用谷歌搜索来使用ggplot2做可视化(下)

2017-01-30 jimmy 生信菜鸟团

我知道会有续集,但也没想到续集来得这么快!今天收到了一个生信技能树公众账号铁杆粉丝(我们之间有过9次邮件交流)的求助信,下面我们首先一起帮他解决一下碰到的问题。随后和大家分享一下可以提高搜索效率和准确率的Google搜索技巧。

 

Continue reading

30

如何通过Google来使用ggplot2可视化(上)

如何通过Google来使用ggplot2可视化

2017-01-29 jimmy 生信菜鸟团

今天是大年初二,这篇文章我只想传达一点:

没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的,如果有,请换个关键词继续Google!


第一部分

首先用两分钟的时间简单介绍一下R语言

因为这个语言是肉丝儿Ross Ihaka)和萝卜特Robert Gentleman)两个人1992年在S语言的基础上发明出来的开源语言,所以叫做R语言。这两个人是统计学教授出身,所以R语言在统计学方面有着纯正的血统!如果你平时的工作和统计相关,你好意思不会点R语言么?

 

Continue reading

24

一个标准的TCGA大文章应该做哪些数据?

很多人总是问我如何挖掘TCGA的数据,发文章!
可是他却连TCGA的数据是怎么来的都不知道,TCGA发了几十篇CNS大文章(自己测序的)了,每篇文章都有几百个左右的癌症样本的6种数据,这几年凑成了一万多个样本,都放在GDC里面可以任意下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型,driver mutation,假基因等新型研究领域)
那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据?
其实稍微仔细浏览几篇文章就明白了,套路也是存在的,https://tcga-data.nci.nih.gov/docs/publications/
我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧!

Continue reading

23

给初学者的忠告,不要拿一套垃圾数据入门!

垃圾数据对初学者的伤害真的很可怕!

最近在带一些朋友入门,想起了当年自己入门的各种凄惨惨戚戚!

碱基质量值很差,GC不平衡,还有接头,PCR重复也很多,kmer值也很诡异,时间都耗在QC上面了,结果几个月下来,你一个流程都没搞明白,各种查资料,还是在原地打转。 Continue reading

19

测序深度和GC含量的问题!【直播】我的基因组 47

在前面我们提到了用ChIP-seq的分析方法可视化了一下我的WGS数据,结果我们的测序深度分布居然是跟基因组的genomic feature相关的~~~
比如在TSS附近,就很明显看到了一个测序深度峰值,那么前面我们并没有给出直接的解答,而且简单的提了一下这是二代测序的特点,GC含量片段偏好性!
作为一个合格的生物信息学工程师,我当然要把这个理论用自己的代码和数据来亲身实践一遍~
我首先把全基因组的bam文件用mpileup模式输出,根据1000bp的窗口滑动来统计每个窗口的测到的碱基数,GC碱基数,测序总深度!
代码比较复杂,一般人可能理解不来的!

Continue reading

16

我是如何学习WGCNA分析

首先声明,我不会WGCNA分析,只是大概知道它会对大量样本(>8或者15)的表达矩阵进行统计学分析,然后把表达矩阵的基因找到一下基因集合,有一些基因集合大概是非常有意义的!

因为有朋友一直好奇,我是如何学习新的知识的,所以就趁这个机会,录制了3个视频,只是我的一个学习过程而已。感兴趣可以去链接:http://pan.baidu.com/s/1jIgBTzw 密码:yh42下载,但是最后一个视频录制过程中被打断了,所以我只好重新写了个文字版的,来补充解释一下。(如果你看视频,请先看那个必看!)

1

学习一个新的概念,新的分析方法,我首先是谷歌了一下这个关键词,找到两个非常赞的链接!

英文的那个,让我明白了WGCNA的步骤:

就是拿到表达矩阵,根据MAD来挑选top5000个基因的表达矩阵,然后用WGCNA的包构建共表达网络,检测每一个module是什么,有什么特性。接着把这些module跟个体结合起来。

Continue reading