看到文章 PLoS Genet. 2016 ,提到了 CpG island methylator phenotype (CIMP) subtype Continue reading
Category Archives: 未分类
菜鸟团周一数据挖掘专场-第一期
第一批学徒已经出师,他们的作业如下:
- TP53突变型和TP53野生型BRCA病人的差异分析结果 https://mp.weixin.qq.com/s/Phu-MxA0d079HdtBWTHbWg Continue reading
不明白为什么一个错要出现多次
第二次出现的错误
踩过坑,才足够刻骨铭心!
这里正好推荐一下这个视频:https://www.bilibili.com/video/av28813815/?p=9
跑完一个RNA-SEQ项目,下意识的看了看bam文件大小,还有最后的文库统计情况,发现非常的诡异,首先是bam文件大小就很奇特: Continue reading
标准科研文章
[TOC]
背景知识
adeno-CRPC 和 NEPC区别
两个细胞系:
- LNCaP,人前列腺癌细胞LNCaP克隆FGC是从一位50岁白人男性(血型B+)的左锁骨淋巴结针刺活检中分离,该患者经确诊为前列腺癌转移。
- PC3 Continue reading
癌症相关突变只有不到4成会转录
在发表于2012的nature上关于104个TNBC病人的多组学队列的研究 RNA-seq数据与基因组/外显子组数据的比较显示,在转录组序列中仅观察到36%的经验证的体细胞SNV ,统计表格如下: Continue reading
100篇泛癌研究文献解读目录列表
为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达) Continue reading
9个CRC病人的75个肿瘤部位的多组学看异质性
日本研究团队关于CRC肿瘤内部异质性的文章 PLoS Genet. 2016 ,在肿瘤内部异质性方向,这个研究不算早,但是多组学(WES,甲基化芯片和拷贝数芯片)是一个亮点,样本量也不错,但是发表在这个杂志让我比较惊讶,可能是他们不太在乎影响因子吧。 Continue reading
WGCNA的输入矩阵到底是什么格式
虽然我们全国巡讲课程并不讲解WGCAN内容,因为时间的确有限,短短的3天要传授给大家R语言,linux还有RNA-seq数据分析实战,希望给大家打造好的基础成为合格的生信工程师,但是我们公众号有数不胜数的高级分析教程,比如WGCNA,有了基础的大家看教程就容易很多。今天收到生信技能树201908北京站学员提问,问题描述是: Continue reading
学徒复现WGCNA文章图表
生信技能树学徒培养到现在已经正式走过了一个年头,不知道这个风雨飘摇的业务还能持续多久,一个月的时间说长也不长,能在我的陪伴下走到WGCNA环节的学徒其实不多,因为要学linux和R基础,还有4大NGS组学,大量知识点其实是学徒培养结束后漫长的数据分析生涯再接再厉。 Continue reading
TCIA的28免疫细胞比例
本质上是使用发表在 Nat Methods. 2015 May;的CIBERSORT算法,对TCGA数据库的RNA-seq数据,计算并构建了一个数据库网页工具: The Cancer Immunome Atlas (https://tcia.at/) Continue reading
RNA-seq数据不仅仅是表达量
RNA-seq数据毫无疑问是目前NGS领域被使用最频繁的了,但是大部分科研人员对它的理解,还停留在表达量层面,尤其是基于基因的表达量,无非就是分组,然后走差异分析这样的统计学检验,绘制火山图和差异基因热图,上下调的通路。
先不说大家对RNA-seq数据的标准分析是否一定是对的,这样的简陋的分析其实是对数据的暴殄天物! Continue reading
IRX2基因对NPC的预后
发表在Int J Clin Exp Pathol 2018;文章:Up-regulation of the IRX2 gene predicts poor prognosis in nasopharyngeal carcinoma
仅仅是医院收集了病人的随访时间,检测其中一个感兴趣基因的表达量,这样的汇总数据统计就可以发文章。 Continue reading
GSVA其实就是pathway级别的差异分析
差异分析相信大家应该是都没有问题了,就是跟着我在生信技能树的教程走,当然也会有一些小细节需要注意,在 你确定你的差异基因找对了吗? 我很好的示范了部分细节。 Continue reading
gpl16699平台的探针注释到基因名
最开始分享过芯片探针注释到基因名的3种方法:
- 1金标准当然是去基因芯片的厂商的官网直接去下载
- 2一种是直接用bioconductor的包
- 3一种是从NCBI里面下载文件来解析
见原文 Continue reading
GEO数据挖掘技术可以应用到表达芯片也可以是转录组测序
GEO数据挖掘技巧,基本上该分享的都在B站和GitHub了,目录如下: Continue reading
CIBERSORT根据LM22来分类
发表在 Nat Methods. 2015 May;的文章,至今(2019-10-14)引用已经近1000啦,提出了一个非负矩阵分解的算法CIBERSORT根据LM22来计算不同类型细胞的比例。 Continue reading
最新版针对RNA-seq数据的GATK找变异流程
RNA-seq标准分析,我们已经讲解的太多了,表达矩阵到差异分析等下游生物学注释都没有啥新颖之处,融合基因和可变剪切算是出彩的地方,如果加上GATK找变异流程就更棒了,反正都使用了star软件进行序列比对拿到bam文件了。 Continue reading
最好用的融合基因查找工具终于正式发表了
就是STAR-fusion啦,它可以直接基于STAR比对好的bam文件来做分析,而大多数其它融合基因查找工具,需要从fastq文件开始,不太方便。之前我在生信技能树公众号介绍过它,那个时候发表该工具的文章是:STAR-Fusion: Fast and Accurate Fusion Transcript Detection from RNA-Seq 在biorxiv预印本: Continue reading
组织特异性转录本
最近一直在推送转录本差异相关的教程,见:每月一生信流程之rnaseqDTU(差异转录本) 扩充了大家对RNA-seq数据的理解,而且也指出来了,严格意义上的转录本定量其实是不容易的,对于二代测序来说:转录本定量本来就不是一件容易的事情 看留言,大家都深有同感! Continue reading
转录本定量本来就不是一件容易的事情
gtf文件大家都了解,基因或者外显子的坐标相对独立,但是转录本很不一样,同一个基因的不同转录本共用外显子,这样的话它们的坐标其实很多都是overlap的,这样,我们的二代测序的100bp或者150bp的reads就无法判定它到底属于哪一个转录本!(这个时候全长转录组测序(iso-seq)可能是更好的选择) Continue reading