18

带临床信息的肿瘤突变maf文件分析维度更多

上次我们分享了 指定病人的指定基因的突变全景瀑布图,主要是讲解了maftools这个包的个性化操作,这个教程里面我们仅仅是使用了 TCGA-Clinical Data Resource (CDR) Outcome 文件里面的病人肿瘤类型,其实里面有丰富的临床信息。而带临床信息的肿瘤突变maf文件分析维度更多。 Continue reading

18

都2021了仍然有人转录组走tophat加cufflinks流程

我在2015年逛biostar论坛的时候,看到了这样的表述:

Tophat 首次被发表已经是6年前<img class="wp-more-tag mce-wp-more" title="阅读更多…" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" alt="" data-wp-more="more" data-mce-resize="false" data-mce-placeholder="1" data-mce-src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7">
Cufflinks也是五年前的事情了
Star的比对速度是tophat的50倍,hisat更是star的1.2倍。
stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。
Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一
Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM
Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍
kallisto同样不需要比对,速度比sailfish还要提高5倍!!!

当时各路大神就建议大家抛弃传统的tophat加cufflinks流程,毕竟其作者都说它过时了,起码可以替换成为:hisat2+stringtie+ballgown流程啊!

又是六年过去了

还有人跟我讨论tophat加cufflinks流程,让我非常郁闷,而且对方还拿出来了最新文献,是:《The oncogene AAMDC links PI3K-AKT-mTOR signaling with metabolic reprograming in estrogen receptor-positive breast cancer》,链接是:https://www.nature.com/articles/s41467-021-22101-7
整个研究都是围绕 Adipogenesis associated Mth938 domain containing (AAMDC) 这个基因 。里面有转录组测序数据,在 GSE92893 and GSE123740. 可以看到这两个数据其实相差五年:
image-20210808170022686
所以作者自己也是有两套流程,针对早期数据,走tophat加cufflinks流程。但是针对最近的数据,走salmon和DESeq2流程,完全是两码事!
如果你现在还推荐大家使用tophat加cufflinks流程来处理转录组数据,就有点过分了!
如果你看到有人还在使用tophat加cufflinks流程来处理转录组数据,也不要急于嘲讽,有可能是他们的数据本来就是五六年前的,或者给他们服务的公司仍然是使用过时的流程而已。

18

不同癌症的差异难道大于其与正常对照差异吗?

 

前面的教程:[大样本量多分组表达量矩阵分析你难道没想到单细胞吗](https://mp.weixin.qq.com/s/p2oYAgG-LO9yLGx1r3i9zQ),提到了我们整合全部的33种癌症的仅仅是蛋白质编码基因的表达量矩阵,进行降维聚类分群可以看到并不是严格的各个癌症泾渭分明。而去还别出心裁的引入了单细胞经典seurat流程,进行降维聚类分群。 Continue reading

25

2014年测了近600样品的转录组芯片但是仅发表在 PLoS One

最近逛GEO,居然发现了一个神奇的数据, 在:(accession number GSE50832). 之所以说它神奇,是因为它关联的文章是 PLoS One 2014;9(8):e106131. PMID: 25171249, 标题是:《Gene expression profiling reveals epithelial mesenchymal transition (EMT) genes can selectively differentiate eribulin sensitive breast cancer cells》。因为它这个数据集样本量超级大,使用的是最经典的芯片,Affymetrix Human Genome U133 Plus 2.0 Array,做了近600样品。
因为涉及到3个不同的癌症细胞系,所以这个数据集可以拆分成为下面的3个 :

GSE50811 Breast cancer cell lines treated with eribulin and paclitaxel
GSE50830 Endometrial cancer cell lines treated with eribulin and paclitaxel
GSE50831 Ovarian cancer cell lines treated with eribulin and paclitaxel

这600样品的转录组芯片,总共是67个细胞系,对照和2种处理,各自3个重复,如下所示: