最近七月份学徒们在集中做单细胞联系,其中一个学徒很不幸,拿到了单个10x样品的项目,纯粹的就是一个普通的黑色素瘤细胞系的测序,四千多个细胞而已。理论上是非常的均一,没办法跟以前的肿瘤研究的单细胞数据的第一次分群的通用规则: Continue reading
创造示例数据并且同步讲解绘图技巧的资源推荐
大家应该是看过了无数R绘图技巧代码,各种R包介绍。我们基本上不写这方面,主要是因为早就过了需要美图引流的阶段,分享自己实践过程的真实代码经验比一味地翻译画图博客和文档好很多。 Continue reading
你是喜欢错落有致还是竖立排列
最近遇到了很烦人的事情,就是一口气做了三百多个单细胞转录组项目(主要是GEO上面的),然后代码一直在修正和完善,尤其是可视化。并不是说自己要创造什么炫酷的可视化方式,以前我们做了一个投票:[可视化单细胞亚群的标记基因的5个方法] Continue reading
大鼠单细胞标记基因特异性咋样
在单细胞交流群看到有小伙伴分享了文献:《Caloric Restriction Reprograms the Single-Cell Transcriptional Landscape of Rattus Norvegicus Aging》这个里面的单细胞研究整理了常见的大鼠这个物种的单细胞亚群的标记基因,列表如下: Continue reading
大样本量多分组表达量矩阵分析你难道没想到单细胞吗?
前面我们演示了:泛癌分析时候的大样本量多分组建议选择tSNE而不是PCA,整合全部的33种癌症的仅仅是蛋白质编码基因的表达量矩阵,进行降维聚类分群可以看到并不是严格的各个癌症泾渭分明。 Continue reading
带临床信息的肿瘤突变maf文件分析维度更多
上次我们分享了 指定病人的指定基因的突变全景瀑布图,主要是讲解了maftools这个包的个性化操作,这个教程里面我们仅仅是使用了 TCGA-Clinical Data Resource (CDR) Outcome 文件里面的病人肿瘤类型,其实里面有丰富的临床信息。而带临床信息的肿瘤突变maf文件分析维度更多。 Continue reading
蛋白质互作关系(PPI)数据库你还在使用string吗?
- 蛋白质互作网络(Protein-Protein Interaction Networks,PPI)是由蛋白通过彼此之间的相互作用构成,来参与生物信号传递、基因表达调节、能量和物质代谢及细胞周期调控等生命过程的各个环节。 Continue reading
都2021了仍然有人转录组走tophat加cufflinks流程
我在2015年逛biostar论坛的时候,看到了这样的表述:
Tophat 首次被发表已经是6年前<img class="wp-more-tag mce-wp-more" title="阅读更多…" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" alt="" data-wp-more="more" data-mce-resize="false" data-mce-placeholder="1" data-mce-src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7">
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍,hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍
kallisto同样不需要比对,速度比sailfish还要提高5倍!!!
当时各路大神就建议大家抛弃传统的tophat加cufflinks流程,毕竟其作者都说它过时了,起码可以替换成为:hisat2+stringtie+ballgown流程啊!
又是六年过去了
还有人跟我讨论tophat加cufflinks流程,让我非常郁闷,而且对方还拿出来了最新文献,是:《The oncogene AAMDC links PI3K-AKT-mTOR signaling with metabolic reprograming in estrogen receptor-positive breast cancer》,链接是:https://www.nature.com/articles/s41467-021-22101-7
整个研究都是围绕 Adipogenesis associated Mth938 domain containing (AAMDC) 这个基因 。里面有转录组测序数据,在 GSE92893 and GSE123740. 可以看到这两个数据其实相差五年:
所以作者自己也是有两套流程,针对早期数据,走tophat加cufflinks流程。但是针对最近的数据,走salmon和DESeq2流程,完全是两码事!
如果你现在还推荐大家使用tophat加cufflinks流程来处理转录组数据,就有点过分了!
如果你看到有人还在使用tophat加cufflinks流程来处理转录组数据,也不要急于嘲讽,有可能是他们的数据本来就是五六年前的,或者给他们服务的公司仍然是使用过时的流程而已。
多次差异分析难道就需要多个火山图吗?
差异分析,大家都喜欢两个分组的比较,但实际科研项目,往往是比这复杂,多达十几个甚至几十个分组也不稀奇。昨天的教程:多分组的差异分析只需要合理设置design矩阵即可,我们展示了无论多少个分组,都可以很方便的进行差异分析。 Continue reading
表达量何须以基因为单位
单细胞转录组下游的降维聚类分群这样的基础操作相信大家应该是都没有问题了,参考前面的例子:人人都能学会的单细胞聚类分群注释 ,只需要你有一个基于基因的表达量矩阵的分析。 Continue reading
不是maf格式的somatic突变数据就没办法读入到maftools了么
疫情期间发布了《肿瘤基因测序数据分析》课程,:
不同癌症的差异难道大于其与正常对照差异吗?
前面的教程:[大样本量多分组表达量矩阵分析你难道没想到单细胞吗](https://mp.weixin.qq.com/s/p2oYAgG-LO9yLGx1r3i9zQ),提到了我们整合全部的33种癌症的仅仅是蛋白质编码基因的表达量矩阵,进行降维聚类分群可以看到并不是严格的各个癌症泾渭分明。而去还别出心裁的引入了单细胞经典seurat流程,进行降维聚类分群。 Continue reading
把单细胞表达量矩阵换一个单位
一般来说单细胞表达量矩阵都是以基因为单位,我们可以很容易走常规的降维聚类分群并且合理的进行生物学命名,比如我们对官方 pbmc3k 例子,跑标准代码: Continue reading
癌症居然有如此多种(是时候开启pan-cancer数据挖掘模式)
看到了交流群有人提问某个癌症,看起来并不是TCGA的33种,我就搜索了一下,找到了 https://www.cancer.gov/types 这个宝藏网页,确实没想到癌症居然这么多种。 Continue reading
2014年测了近600样品的转录组芯片但是仅发表在 PLoS One
最近逛GEO,居然发现了一个神奇的数据, 在:(accession number GSE50832). 之所以说它神奇,是因为它关联的文章是 PLoS One 2014;9(8):e106131. PMID: 25171249, 标题是:《Gene expression profiling reveals epithelial mesenchymal transition (EMT) genes can selectively differentiate eribulin sensitive breast cancer cells》。因为它这个数据集样本量超级大,使用的是最经典的芯片,Affymetrix Human Genome U133 Plus 2.0 Array,做了近600样品。
因为涉及到3个不同的癌症细胞系,所以这个数据集可以拆分成为下面的3个 :
GSE50811 Breast cancer cell lines treated with eribulin and paclitaxel
GSE50830 Endometrial cancer cell lines treated with eribulin and paclitaxel
GSE50831 Ovarian cancer cell lines treated with eribulin and paclitaxel
这600样品的转录组芯片,总共是67个细胞系,对照和2种处理,各自3个重复,如下所示:
- 27 breast, 19 endometrial, and 21 ovarian cancer cell lines treated with eribulin and paclitaxel.
非常诡异的是,作者这里主要是关心 signature genes were up-regulated for eribulin treatment as compared to paclitaxel , 使用的阈值是 p values and fold-changes (p<0.01 and FC>1.5), 3种癌症细胞系,得到了如下所示的韦恩图交集结果:
差异分析相信大家都不陌生了,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可; - 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
但是作者这样的分析简直是对数据的莫大浪费啊!
3个分组的两两之间差异分析
总是有粉丝询问3个分组的两两之间差异分析如何弄这样的问题,其实“师傅领进门,修行在个人”,我们讲解了方法并且给予的全部的学习资源,理论上后续应该是大家各凭本事,做好自己的科研。 Continue reading
你的单细胞数据里面能区分出来4种树突细胞吗
我们做肿瘤研究的单细胞数据,一般来说会选择初步很粗狂的定义大的细胞亚群,比如我常用的 第一次分群是通用规则是: Continue reading
25张图带你玩转表达量差异分析思路
最近看到了很多借助 单细胞水平的不同细胞亚群的差异来解释以前的传统转录组混合各种细胞亚群的样品差异的文章, 如下所示: Continue reading
95元每年的云服务器配2021的Linux公益课最香
细心的朋友们应该是早就发现了,咱们《生信技能树》的公益课130个小时视频更新啦,而且统一搭配了颜值超高的封面图,诚意满满的吸引你前往学习哦! Continue reading
2021第一期生信入门微信群答疑精选200题
原文链接:https://docs.qq.com/doc/DSFdmRGR0SWhMTmNI
-
备注:Q-Question,A-Answer,T-Teacher,S-Student。 Continue reading