十二 29

一句代码完成lasso回归

数据挖掘的本质是把基因数量搞小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。

Continue reading

十二 29

小RNA建库测序后的数据分析-实例讲解

我在B站有一个microRNA测序数据分析实战演练,主要是从ebi下载,项目号是Project: PRJNA486534,共11个小RNA建库测序后样本的数据分析。但还是得找其它练习题给大家作为课程配套练习。看到一个发表于:Plasma extracellular RNA profiles in healthy and cancer patients. Sci Rep 2016 Jan 20;6:19413. PMID: 26786760,研究者纳入192人,涉及到3种癌症:

  • 100 colon cancer
  • 36 prostate cancer
  • 6 pancreatic cancer patients
  • 50 healthy individuals
    Continue reading
十二 29

侠之大者,为老数据接盘

写在前面

在几乎所有模式植物转录组测序技术都做烂的今天,始终有一些植物因为种种原因鲜有问津。例如小麦,就像是开在奢侈品商场的黄焖鸡:有钱的人未必瞧得上,没钱的也压根就不会去光顾。不过这么多年过去了,总有那么几个祖传数据躺在NCBI的数据库里供人挖掘,比如今天这个PRJNA293629。
Continue reading

十二 29

细胞通讯分析的背景知识

一般来说,建议大家直接读原汁原味的综述,比如2020年11月9日,Erick Armingol等在 Nature Reviews Genetics上发表了一篇综述《Deciphering cell–cell interactions and communication from gene expression》,我看到了解读:从基因表达解读细胞之间的相互作用和交流,读了一下发现确实超级适合作为细胞通讯分析的背景知识学习材料。
Continue reading

十二 29

我从500多个专辑里面精选了这3个参加评选

前段时间,腾讯的云+社区找到了我,纯粹的技术交流渠道,认可我在大数据方向孜孜不倦的创造。希望我尝试一下他们的新功能:《阅读清单》,有点类似于专辑。因为这七八年我写了1.3万篇教程,很多都是零零散散的笔记,但也有不少是成系统的,估摸着有500多个专辑,全部整理起来工作量太大了。为了应付这个《阅读清单》评审工作,我从500多个专辑里面精选了这3个参加评选,希望《生信技能树》的粉丝们能支持我!

Continue reading

十二 29

什么时候细胞周期的分类作用大于细胞类型呢

众所周知,在肿瘤单细胞数据里面,对恶性细胞来说,病人的分类作用是远大于细胞类型的,不过其实肿瘤恶性细胞也说不出什么确切的细胞类型,目前仅仅是根据TCGA的bulk转录组数据进行分子分型。但是对免疫细胞或者其它并不恶性的单细胞来说呢,细胞类型的作用是远大于病人的个体异质性的。如下所示:
Continue reading