01

我会学习R的bookdown,因为这个博客

当然,我是先搜索到了R的bookdown,再看到他到博客的,http://www.pzhao.org/zh/
很佩服博主,不仅仅是因为他r语言玩的很溜,更重要的是是他的人生经历。
大家直接去他的博客浏览哈,我也会跟着学习的。
bookdown的详细介绍见使用手册。他的使用体验写成了三篇帖子:

Continue reading

05

文献阅读笔记-DIPG里面的Super-enhancers可能是治疗靶点

背景:
Diffuse intrinsic pontine glioma (DIPG) is a universally fatal pediatric cancer.
A histone-3 K27M mutation affects ∼80% of DIPGs and drives aberrant transcription.

早在2015年的83个药物对14个DIPG细胞系的筛选实验中,就发现哪怕是效果最好的multi-HDAC inhibitor panobinostat也会被某些DIPG细胞系产生耐药性。(http://www.biotrainee.com/thread-1599-1-1.htmlContinue reading

05

文献阅读笔记-对肿瘤细胞系进行药物筛查

我看到一篇nature medicine文章里面提到了这个对肿瘤细胞系进行药物筛查文章链接:https://www.nature.com/nm/journal/v21/n6/full/nm.3855.html

首先,肿瘤细胞系是:

We assembled a panel of 14 patient-derived DIPG cell cultures, created using neurosphere and adherent models and obtained from both biopsy and autopsy samples (Fig. 1a), representing the breadth of DIPG cell cultures available worldwide at the initiation of the study. Continue reading

05

文献阅读笔记-2013-H3K27me3 and K27M mutation

这篇文章是Received 29 March 2013, Revised 9 August 2013, Accepted 4 October 2013, Available online 31 October 2013

同时还有17 MAY 2013一篇science文章提到了K27M mutant影响了PRC2活性

we performed IHC for H3K27me3 in a large cohort of pHGGs with known H3F3A mutation status (n = 104).

Strikingly, all K27M mutant pHGGs (n = 21) showed a strong reduction of overall H3K27me3 levels.

这篇文章就这一个目的,抢这个热点。
Continue reading

05

文献阅读笔记-2012–Hotspot Mutations GBM

这篇文章最重要的观点是甲基化用来给GBM分组,分成了6组,至于突变什么的,随便讲了讲,反正数据也不给下载。

We identified six epigenetic and biological GBM subgroups displaying distinct global DNA methylation patterns, which harbor unique hotspot mutations, DNA copy-number alterations, and transcriptomic patterns.

分组如下: Continue reading

05

文献阅读笔记,2012-Driver mutations-GBM

主要是做测序

To decipher the molecular pathogenesis of paediatric GBM, we undertook a comprehensive mutation analysis in protein-coding genes by performing whole-exome sequencing (WES) on 48 well-characterized paediatric GBMs, including 6 patients for whom we had matched non-tumour (germline) DNA.

只有6个患者有NT配对样本,用来找somatic的mutation,结果发现其中4个患者就有H3F3A的突变,但是H3F3A本身是非常保守的,所以这个现象值得研究。

to our knowledge no human disorders have specifically been associated with mutations in histones, including H3.3

所以才扩大了WES测序样本数量。 Continue reading

02

生信菜鸟团对应的QQ群已经满了,请根据学习方向选择加入分群

生信各种组学群 554052300

WGS/WES/RNA-SEQ/CHIP-SEQ
单细胞转录组分析
de novo 组装(Trinity)
质控(MISO,fastqc,fastx,RSEM)
counts(HTseq,BEDtools,RNA-SeQC)
序列比对(BWA,GSNAP,TopHat,Hisat,Star,bowtie)
寻找差异基因(voom,DESeq,DESeq2,edgeR,BaySeq,SAMseq,)
富集分析(GOstats,GSEA,web-tools)
可变剪切
基因融合(SOAPfusion,FusionSeq, deFuse , TopHat-Fusion , FusionHunter , SnowShoes-FTD, chimerascan,FusionMap)
拷贝数变异检测
alle specific 表达差异
共表达网络
miRNA分析
病毒检测分析
其它注释

Continue reading

06

不要想当然的使用生信软件,读文档,勤搜索!

最近在写一篇很有趣的文章,一张图说清楚wgs,wes,rna-seq,chip-seq的异同点!

需要用到一些测试数据,我准备拿17号染色体的40437407-40486397这约48Kb碱基区域来举例子,就需要把这个区域的bam提取出来。

我分别找了以前处理的wgs,wes,rna-seq,chip-seq公共数据,原始bam非常大,尤其是WGS的,45G的bam文件,所以只能抽取17号染色体的40437407-40486397这约48Kb碱基区域,以前我做mpileup或者其它都是用的-r 参数,所以我想当然的使用下面的代码: Continue reading

16

我是如何学习WGCNA分析

首先声明,我不会WGCNA分析,只是大概知道它会对大量样本(>8或者15)的表达矩阵进行统计学分析,然后把表达矩阵的基因找到一下基因集合,有一些基因集合大概是非常有意义的!

因为有朋友一直好奇,我是如何学习新的知识的,所以就趁这个机会,录制了3个视频,只是我的一个学习过程而已。感兴趣可以去链接:http://pan.baidu.com/s/1jIgBTzw 密码:yh42下载,但是最后一个视频录制过程中被打断了,所以我只好重新写了个文字版的,来补充解释一下。(如果你看视频,请先看那个必看!)

1

学习一个新的概念,新的分析方法,我首先是谷歌了一下这个关键词,找到两个非常赞的链接!

英文的那个,让我明白了WGCNA的步骤:

就是拿到表达矩阵,根据MAD来挑选top5000个基因的表达矩阵,然后用WGCNA的包构建共表达网络,检测每一个module是什么,有什么特性。接着把这些module跟个体结合起来。

Continue reading

十二 29

生信分析人员如何系统入门R?

R语言的重要性我也就不再赘述了,它不仅在生物信息数据处理中发挥着重要作用,也是其它主流数据处理人士的首选工具。现在非常多的半路出家自学生物信息学的小伙伴必须学而且有可能学的就是R,所以写一个R的系统性入门指导是非常有必要的。这本来应该是我下面的生信分析人员如何系统入门编程语言的姊妹篇的,但是因为时隔太久,我的感悟可能发生了变化,所以这个R跟前面的两个看起来总结指引模式不太一样的。

生信分析人员如何系统入门perl?

生信分析人员如何系统入门linux?

我作为老一辈的生信工程师,所以喜欢perl一点,排斥python,其实呢,我也稍微看过一些python的语法,个人认为R和python几乎是一模一样的。R的特点就是内置了大量的函数,基本上你认识的英文单词都可以是一个函数,即使不是,你也可以自定义为函数。搞清楚了函数和变量,就可以看懂大部分的R代码了。

下面是生信菜鸟团QQ群管理员赵云对这3种编程语言的心得体会!

python跟perl都是高级语言, 两个开发的目的不同, perl更面向过程一些,优势是严谨,快。 python主流面向对象编程, 这个跟R类似, 数据结构等方面有些不同,但可以互相调用。 实际上以上三者之间可以互相调用部分功能。python的语法并不是很严谨,个人感觉,越偏向自然语言的编程语言越通俗但不严谨,以上,是跟C比较的。

R本身起源于S语言,是主要针对统计的, 也是面向对象的, 本质上,,是把一个比excel功能强大的软件归零化成了命令行吧.excel高级应用也是要编程的, 所以R的初级应用可以当成是没有用户交互界面的excel,细心一点, 把示例代码都打对,当功能强大但不好使版的excel吧, 这样至少心理上不会畏难跟抵触.

内部集成的越多,用户需要做的越少, 你用C画个图累死你, 用python得写几行, R一行就行了!
PS:菜鸟发言,如有误导,概不负责!

Continue reading

十二 10

解决阿里云博客的虚拟主机升级问题

首先感谢生信菜鸟团的各个小伙伴的大力支持,在阿里云的2年免费虚拟主机到期之后,我成功了续费了,但是坑爹的阿里云居然把我的IP地址和用户名都给替换了,导致了一些莫名其妙的bug。
虽然只是warning,不影响网站访问,但实在是影响界面美观,如下:
1

Continue reading

十一 29

R来完成表达芯片分析全流程

包括如何从GEO下载数据,如何分组,两组直接如何找差异,差异基因如何去注释,包括GO/KEGG注释,还有特殊数据库,自定义数据库的注释,比如oncogene或者tumor suppress genes,TF的gene注释,还有GSEA软件的分析。
然后是对选择好的差异基因去string等PPI数据库拿到网络数据,在R或者cytoscape里面画网络图,然后是用MCODE插件和bioNet包来对网络找sub-network或者module,和hub genes。
就拿GSE42872 这个数据来做例子吧,希望听众具有基础R知识,了解什么是bioconductor,然后具有基础生物学知识,知道什么是基因,什么是表达,什么是通路,什么是富集,什么是注释。
总共10讲,每次半小时,每周3,4,6的晚上十一点开讲!
讲义的草稿如下,如果你能看懂草稿,能自己学会,就不用参加本次课程啦。
如果需要问我问题,就赶快找我申请加入交流群,提供本次培训的全套视频和代码!!!

Continue reading

十一 25

最终还是把博客的全半角中英文标点符合的bug解决了

已经有非常多的小伙伴跟我反映了直接拷贝我的代码无法运行的问题,其实报错的原因很简单,就是中英文标点的bug而已。所以我给大家的理由是不用那么懒,拷贝我的代码,我就是希望你们能手动敲打每一个命令,来熟练记忆使用。
其实,我没那么好心,我就是懒而已。因为这个博客是host在阿里云的免费服务器上面的,各种IP密码我懒得去记忆,就差不多忘记了。当初弄好了我就懒得管了,正好现在博客免费时期快到了,也就想把这个问题解决掉。

我很简单搜索了一下,http://shiyun1013.blog.163.com/blog/static/10774036201301824446708/ 需要连接我博客的ftp,去修改博客里面的文件,

<?php remove_filter('the_content','wptexturize'); ?>  正好看看这个标点符号被改变了吗?
好像还不错,以后大家就可以直接拷贝我的代码去运行啦!
下面是我登陆了ftp,发现以前用rmarkdown写的几个教程,感兴趣的小伙伴可以随便看看!

Continue reading

十一 25

kegg在线链接图的颜色设置

一般来说, 有了kegg的ID,就可以直接去官网查看具体的通路图片,但是需要把差异基因给标注上去,就有点麻烦了,我以前做过类似的工作,结果没有做笔记,这次相当于重新造了个轮子,好惨!
简单的KEGG图片,看下面的url:
如果要做下面的这个,上调基因用红色表示,下调基因用绿色表示:

Continue reading

十一 23

关于multiple mapping我想说的

很多时候,我们都要选取unique mapped的reads,尤其是在RNA-seq和CHIP-seq的时候,但是如何保留,各种教程都不一致,我稍微总结了一下,是因为使用的比对工具不一样导致的!但是主要都反应在sam文件的一系列tag里面~

首先对bwa来说,如果它遇到一个reads可以比对到参考基因在的多个序列,只会随机的选取一个位置来输出到sam文件,但是会加上一个tag是XS:I:<N>来告诉我们第二好的比对情况的比对得分是多少,bowtie也是一样。但是它们都有参数来决定是否只对每个reads输出一条信息,还是输出全部的信息,在bwa是-a的参数,在bowtie里面是-m参数。

但是bowtie2里面取消了这个参数,它们都必须用XS:I:<N>这个tag来挑选unique mapped的reads

但是如果是用hisat来比对的话,决定是否是唯一比对的却是NH这个tag信息。默认情况下一条reads可以输出多条比对结果。

我想起了再补充吧,其实应该找几个例子用IGV看看,就明白了,可是我暂时没有时间了,只是觉得这个很重要,就提一下。

 

十一 11

数据库批量注释不可盲目-annovar数据库错误

我对H3F3A这个基因做了两个突变的cellline,分别是G34V和K27M,现在知道这个基因在hg38上面的坐标是:

Genomic Location for H3F3A Gene
Chromosome:  1
Start:226,061,851 bp from pter  End:226,072,002 bp from pter
Size:10,152 bases    Orientation:Plus strand

然后我用samtools结合bcftools把该基因区域的snp位点call出来:

samtools mpileup -r chr1:226061851-226072001 -t "DP4" -ugf ~/reference/genome/hg38/hg38.fa  *sorted.bam | bcftools call -vmO z -o  H3F3A.vcf.gz

Continue reading

十一 10

一个基因在同一套基因组上面竟然有两个定位!

查了好久的bug,终于搞清楚问题所在了!因为要对基因进行reads计数,所以要拿到基因在基因组上面的染色体起始终止坐标,结果发现了个十分诡异的现象,很多基因有多个坐标,比如下面这个PTPRS 在hg38这个基因组版本,居然有两个定位,因为我是写程序格式化得到的坐标,所以我check了我的程序,http://www.biotrainee.com/thread-472-1-1.html  感兴趣的同学可以点开看看我的代码!

tmp
Continue reading

23

我挣大钱了?

最近跟一些志同道合的小伙伴们一起搭建了 生信技能树 的论坛,所以在社交上面加大了投入力度,认识了很多在生物信息学领域各个学习程度的同学,发现有些人问我的问题让哭笑不得,大意就是:我的生信菜鸟团博客有近四百篇文章,阅读10万+了,又是知乎上面的大V,现在又在建论坛,感觉生意很红火的样子,是不是挣了很多钱啊!

Continue reading