01

使用aPEAR来增强clusterProfiler的GSEA分析结果

前些天我在 生物学功能注释三板斧,提到了简单的超几何分布检验,复杂一点可以是gsea和gsva,更复杂一点的可以是DoRothEA和PROGENy类似的打分。

其中 GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,但是GO数据库 注释通常包括三个方面的信息:分子功能(Molecular Function)、细胞组分(Cellular Component)和生物过程(Biological Process)。而前面我们演示了:使用topGO增强你的GO数据库注释结果的可视化,是超几何分布检验的结果的可视化,主要是展示GO数据库的有向无环图结构。接下来我们聊聊使用clusterProfiler的GSEA方法针对GO数据库进行注释后的结果的可视化,所以是需要大家自己提前弄清楚GSEA方法和超几何分布检验方法的区别哦! Continue reading

01

生信技能树一日游套餐

最近是又搞文章数据分析的图表复现文字版教程,也有视频号的直播互动,详见:殊路同归的关键单细胞亚群鉴定算法,但是阅读量就是起不来。

我可能是悟了,其实大家感兴趣的应该是我本人,过去的七八年间一百多个实习生都有自己的生物信息学笔记公众号都在日更产出知识点,在知识输出这方面我其实并不是我早期的实习生了。而且现在没办法继续培养实习生,我的办公室就空下来了,之前是预留的生信共享办公室出租,也是无人问津,想了想可能是因为基本上很难有人下定决心换一个城市生活和工作。 Continue reading

01

生信本科毕业后年薪五十万但能跳过这份月薪1000的实习吗

因为“众所周知”的原因,我们持续了五六年的实习生培养计划从此落幕了,但是这个事件让小红书走入了我的视线。隔三差五就打开看看里面的关于生物信息学学习和就业市场的真实分享,其中一个小伙伴(河北大学的2019届生信专业本科毕业生)分享了他最近五年的职场进阶之路,就是从研究所再到上市公司再到朝气蓬勃的小公司……
蛮有意思的,让我看到了十年前的我,也是大四就去帝都实习半年那个时候差一点就牺牲在2013的全城雾霾,也是工作三四年就年薪差不多30万了,不过我没有选择继续去涨工资到年薪50万而是蹉跎了七年在尝试科研路。 Continue reading

01

生物学功能注释三板斧

生物学功能注释是对特定的数量(几十个或者几百个)基因或蛋白的合集的功能进行描述和分类的过程。GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是两个常用的生物学功能注释数据库,科学家通常是使用来超几何分布检验这个统计学算法做富集分析,即通过比较实际观察到的基因集合(几十个或者几百个)中特定功能或通路的基因数量与随机期望的数量来判断其是否富集。 Continue reading

01

生物信息学软件工具的大致分类

生物信息学领域涉及到大量的不同种类的数据的分析和处理工作,因此这个领域就必然产生许多不同类型的软件工具,比如处理DNA、RNA、蛋白质序列等不同层面的数据。但是我们这里并不想按照组学种类来对生物信息学软件工具进行分类,因为不同组学经常是有软件是交叉的,比如fastqc软件就可以针对不同ngs组学数据进行质量控制。我这里把生物信息学软件工具按照使用难易程度的大致分成3类: Continue reading

01

如果R代码一定要访问github链接导致运行失败

最近测试了immunedeconv包,首先它在github上面,所以本身就很难安装:

# deconvolution_methods
# https://github.com/omnideconv/immunedeconv
# remotes::install_github("omnideconv/immunedeconv")

library(immunedeconv)
library(tidyverse)
library(tidymodels)

然后我在运行immunedeconv包里面的mcp_counter时候,发现它需要访问一个在github的文本文件:

res.mcp <- deconvolute(expr, 'mcp_counter')

那肯定是会报错:

# genes = read.table(curl:::curl("https://raw.githubusercontent.com/ebecht/MCPcounter/master/Signatures/genes.txt")
# Could not resolve host: raw.githubusercontent.com

然后chatGPT给我了两个解决方案,通过BioinfoArk提供的中国区chatGPT查询Continue reading

01

完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析

一个月前( 2023-12-01 )的学徒作业:任意癌症的任意基因突变与否分组后的转录组测序的差异分析,陆陆续续收到了一些反馈,有马拉松授课学员的也有学徒实习生的,发现虽然说给大家指明了数据分析结题思路,但大家仍然是千奇百怪的错误。总体上就5个步骤,大家可以错十几处: Continue reading

01

认识Seurat的空间单细胞对象结构

前面我们提到了空间单细胞约等于10x技术,就比较方便理解,虽然说也有其它空间单细胞技术可以产出各式各样的数据。详见:10x的空间单细胞文件格式详解

但是对初学者来说,重要的是如何把不同技术产出的表达量矩阵导入到R或者Python这样的编程语言环境里面。今天我们来介绍的是在R语言里面的最流行的Seurat的单细胞流程,第一步就是理解Seurat的空间单细胞对象结构。值得注意的是我们接下来(2023年12月30日之后)的教程都是基于Seurat的V5版本哦: Continue reading

01

能从源头解决数据分析的瑕疵吗

前面我们在推文:数据分析有错误并不可怕,造假才不可饶恕 提到了这个新鲜出炉( 2023年12月5日)的cell期刊的文章单细胞转录组数据分析环节是有一些瑕疵的。

首先是在 单细胞水平这样的细胞比例变化可靠吗 已经提到了两个分组的单细胞亚群比例变化问题,很大程度上受到了离群点的影响。另外就是总体上这个cell期刊的文章的降维聚类分群后的拿到的各个亚群的特异性高表达量的基因列表就不常见,但是如果仅仅是使用作者提供的矩阵文件那么就很难搞清楚问题出在哪里,所以我们还是从单细胞转录组的测序数据开始: Continue reading

01

能把你服务器跑坏的r代码其实很简单

我们一直都有一个很简单的服务器共享业务,详见:生物信息学江湖的开创性产品-共享服务器。因为是同一个机器给很多人错峰使用,所以过去的五年一直运行的蛮好。

但是有一些代码本身有问题,所以也确实是有一些时候会造成整个服务器奔溃,比如一个小伙伴跑一个简单的动态预测模型代码,详见: Continue reading