17

在R语言里面apply和for还是有区别的

最近整理我GitHub代码,发现了之前一个批量生存分析代码是有问题的,因为不同基因表达量分组后,没有道理所有基因出图的P值不变,更诡异的是,lapply内部变量不识别,一定要外部变量。

为了给大家讲清楚这个故事,我创造了测试数据和代码,你们可以打开电脑的R语言开始表演啦! Continue reading

17

一个矩阵除以向量会发生什么

在做表达矩阵的counts值作为RPKM的时候发现的这个知识点细节问题, 因为矩阵需要每一个样本除以它各自的文库大小,然后呢,每个基因又需要除以各自的基因长度。

所以呢,我们的表达矩阵,其实是需要除以两个长度不一的向量,而且方向不一样,一个是按照行来除以,一个是按照列来除以,我最后写的代码是: Continue reading

17

公共数据库告诉你为什么在癌症里面研究CD24

免疫检查点抑制剂是现在临床和科研热点,其中免疫检查点基因通过双信号机制调控肿瘤微环境中最主要的免疫细胞,T淋巴细胞的免疫应答活性而发挥作用。这些分子主要分为两类:

  • 一类是免疫球蛋白(immune globulin, Ig)超家族
  • 另一类是肿瘤坏死因子(tumor necrosis factor,TNF)配体/受体对。 Continue reading
17

外国的生信技能树转录组教程

同样是写教程,特别羡慕英语为母语国家的知识分享者,写出来的教程很容易变成SCI文章,比如我一直大力推崇的Griffith两兄弟(Obi and Malachi Griffith),他们就把转录组数据处理教程发表了: Obi L. Griffith . 2015. Informatics for RNA-seq: A web resource for analysis on the cloud. PLoS Comp Biol. 而且一直在持续更新! Continue reading

17

双重高斯分布拟合

高斯分布在自然界非常常见,中心极限定理很好的说明了它,但事情往往不是那么地纯粹,很多时候我们得到的结果里面会混入两个截然不同的样本数据集,虽然它们各自都是高斯分布,但是它们的均值和方差都不一样,如果拿到的是它们的混合数据,就不能简单的使用一个高斯拟合来处理它了。 Continue reading

17

使用SNFtool包整合多组学数据进行病人分组

大家都喜欢整合多组学数据,实际上目前大多数研究都是拿其中一种组学数据来对样本进行分类,然后查看病人分组后另外一种组学的差异情况。再其次,就是整合多组学数据对样本统一分组。

案例介绍

看到文章 Integrative analysis of the inter-tumoral heterogeneity of triple-negative breast cancer 针对137个TNBC病人的3种数据,进行挑选后,各自进入NMF聚类:
Continue reading

16

生信分析人员如何系统入门R(2019更新版)

五年前作为一个初出茅庐的菜鸟生信工程师苦于没有专业交流社群,遂自建了生信菜鸟团QQ群和博客,一点一滴积累了数万人气,进而和若干圈内好友组建了生信技能树联盟,三年前的直播生物信息学编程活动细节还历历在目,QQ群微信群记账录制视频忙的不亦乐乎,因此产生了编程语言系统入门系列教程,如下: Continue reading

16

生存分析时间点问题

以前下载TCGA数据,喜欢使用UCSC的XENA数据库, 全部数据在:https://xenabrowser.net/datapages/ 这个时候有两个数据源,需要区分开来;