31

搞孟德尔随机化热点的小伙伴数据分析能力有点弱啊

看到了《生信菜鸟团》公众号组建了一个孟德尔随机化的交流群,大家热火朝天的推荐各种学习资源和公众号合集。

其中有一个资源是最新的(2023年10月)NC文章《Genome-wide association analysis of plasma lipidome identifies 495 genetic associations》里面的数据在GWAS catalog ,里面的索引号是 GCST90277238-GCST90277416,但是这个公众号的小伙伴却不知道该如何批量下载, 或者说发现规律去写代码,而且手动整理好全部的链接后下载然后把它当做是宝贝来宣传。。。。 Continue reading

31

肿瘤单细胞转录组的第一层次降维聚类分群

前些天在《生信技能树》的微信视频号做了一个肿瘤单细胞转录组的数据分析直播,文章是:《Delineating the dynamic evolution from preneoplasia to invasive lung adenocarcinoma by integrating single-cell RNA sequencing and spatial transcriptomics》详见:换一个分析策略会导致文章的全部论点都得推倒重来吗

主要的分析就是第一层次降维聚类分群,然后大概认识一下有什么亚群,以及比例差异情况,最后就是把每个亚群都细分一下做同样的分析即可。 Continue reading

31

导师是如何让你废掉的

前面我们指出来了如何避坑那些已经废掉了的在读硕博士,详见:这5种博士千万不要招进课题组

因为人是环境的产物,有一些情况下其实废掉了的在读硕博士本性并不坏,也并不是说完全的烂泥扶不上墙,有可能是其导师或者课题组氛围出了问题,也是需要避坑。接下来我们主要是参考:《院士谈博士避坑:这10种导师千万不要选》,来源:中国教育报 ,作者:杨卫。指出来了导师应当遵守的“十戒”,作为导师的指导原则,如下所示 : Continue reading

31

当算法和肉眼冲突了肿么办

通常情况下,如果大家提问说他们对自己的“照猫画虎”的生物信息学数据分析结果的准确性不确定的时候,我们会让他可视化后部分结果然后肉眼判断。因为为算法通常是给出来一个统计学指标,而我们高通量数据的分析通常是批量做大量的数据统计,会有大量的结果产生,这个其实就呼应了昨天的视频号直播: 生信分析和实验结果哪个更可靠(我和y叔的回答),y叔提到了因为存在大量的生物信息学初学者,他们对数据分析的认识不足导致数据分析出错误也会造成生信分析的不准确性。。。

比如,差异分析后一般来说有成百上千个上下调基因,如果对一个具 Continue reading

31

单细胞亚群的命名策略决定了不同的研究很难统一(都是癌症成纤维吗)

昨天我们介绍了2023年5月某院士团队发表在顶刊的文章:《Epithelial cells activate fibroblasts to promote esophageal cancer development》。详见:肿瘤相关成纤维单细胞亚群的iCAF和myCAF迷思,从大伙的留言可以看出来可能是误解了我的本意。我并没有批评把肿瘤相关成纤维(Cancer-Associated Fibroblasts,CAFs)区分成为了 iCAF和myCAF的命名方式。
众所周知,单细胞亚群的命名策略有三种: Continue reading

31

单细胞水平这样的细胞比例变化可靠吗

前面我们在推文:数据分析有错误并不可怕,造假才不可饶恕 提到了这个新鲜出炉( 2023年12月5日)的cell期刊的文章单细胞转录组数据分析环节有一些值得探讨的地方,比如第一层次降维聚类分群后的亚群的生物学命名,就发现很多特异性高表达的基因并不主流,而且很多主流基因是缺失的。
更麻烦的是因为文献里面的两个分组每个组内都是3个样品而已,而文章大家结论缺依赖于这个单细胞水平的细胞比例变化。其实早期(2018-2021时候)单细胞转录组费用居高不下,所以绝大部分情况下大家做两个分组,每个组内也就是三五个样品而已。这样的话两个分组之间的不同单细胞亚群的比例差异其实往往是需要最后使用流式细胞等价格相对低廉的实验技术去扩大样品队列去验证一下。 Continue reading

31

单细胞水平的肿瘤异质性

早期的单细胞转录组课题只需要做到图谱解释程度即可,就是第一层次降维聚类分群后不停地细分亚群。甚至不需要有精细的课题设计,反正拿到了单细胞转录组表达量矩阵就可以跑代码,无所谓样品是否有分组。
后期单细胞领域卷起来了,纯粹的图谱肯定是没有新意啦,或者说海量的公共的单细胞转录组数据已经可以无限制任何人免费获取,这样的话大家要想分析出不一样的地方,就需要想办法给没有课题设计的项目找到分组信息!
比如之前是可能是多个同类型癌症病人的单细胞,但是癌症病人是有分子分型或者临床分期或者病理区分的,或者有预后信息,抽烟喝酒与否的生活习惯差异,就有了后续分析的可能性。如果完全都没有,其实还可以通过数据本身的特征给它分组,比如单细胞水平的肿瘤异质性就是其中一个很好的点。 Continue reading

31

空间单细胞转录组数据分析教程当然是看10x官网啊

因为单细胞分辨率的空间转录组测序—-Visium HD全球发布,我们也可以开始拿正眼瞧一下这个空间单细胞转录组技术啦!作为数据分析人员,我们其实关心的是它产出什么样的数据,然后下游数据分析分析(统计可视化),以及如何更好的配合生命科学领域研究者赋予它科研意义! Continue reading

31

单细胞第一步:认识和读取不同格式的单细胞转录组数据

做单细胞转录组数据数据分析的第一步是载入表达量矩阵文件到R或者Python这样的编程环境里面,而我们主推的就是基于R语言的Seurat流程,它可以使用Read10X读取3个文件。

但是Read10X读取3个文件还得注意版本,而且必须保证3个文件名字完全一样,如果是最新版,应该是如下所示的: Continue reading

31

单细胞差异分析之pseudobulk的3种实现方法

之前分享了:单细胞层面的表达量差异分析到底如何做,提到了pseudobulks方法,因为找各个单细胞亚群特异性高表达量基因(FindAllMarkers函数)以及两个亚群针对性差异分析(FindMarkers函数)都不符合需求,所以才有pseudobulks的流行。之前我们在《单细胞天地》公众号分享过一个文献 ,解读在:https://cloud.tencent.com/developer/article/1901064 Continue reading

31

从2023的世界范围内的生物信息学十大进展看中国的

最近看到朋友圈好多人在转发这个《Top 10 Advances in Bioinformatics in 2023》,我看了看其实相当于是10个综述或者说是10个方向,并不是具体的某个发现或者某个技术。之前我们推送过《中国生物信息学十大进展》评选活动,该起始于2018,但是2023的还没有公布。我仍然是照例把这两个都 贴在文末,看看大家能不能预测一下刚刚过去的2023的可能会被评选出的《中国生物信息学十大进展》会有哪些。 Continue reading

31

初试Seurat的V5版本

虽然我们一再强调:假如你不喜欢最新版的Seurat包的单细胞理念,大家完全是可以选择降级这个Seurat。主要是因为很多初学者拿到了大量的基于V4版本Seurat的教程会手足无措,其实很容易迁移。所以我们也在学员们的催促下转向了Seurat的V5版本,详见:从零开始配置R编程语言软件环境,而且是在视频号有直播回放,详见: Continue reading

31

表达量芯片的代码当然是可以移植到转录组测序数据分析

前面我们分享了:时间序列转录组多次差异分析以及时序分析,这里面的开头是三分组的转录组测序数据,但是后面代码演示的时候是不同时间点处理的肿瘤细胞系表达量芯片数据。

因为代码是收费的,所以需要简单的回复一下读者的提问,就是大家感兴趣这个代码到底该如何移植到转录组测序数据分析,而且读者给出来了一个案例,就是2020的文章《Transcriptomic profiling across the nonalcoholic fatty liver disease spectrum reveals gene signatures for steatohepatitis and fibrosis》,它对应的数据集是:GSE135251,在其页面可以看到是216 snap frozen liver biopsies, comprising 206 NAFLD cases with different fibrosis stages and 10 controls were studied.

关心的是:non-alcoholic fatty liver disease (NAFLD) 的疾病进展,详见:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE135251 Continue reading

31

Python从零开始的配套b站视频和书籍

从零开始开始学习一个编程语言,我们肯定是首先得安装好它,比如前面我们讲解了Python的安装,它多个版本的差异以及管理,详见:Python初体验之弄清楚版本差异和如何安装管理,然后给出来了两个Python编辑器,就是PyCharm或者JupyterLab,任选其一都可以打开你的Python从零开始之旅。

接下来就需要给大家推荐一些在线资料啦,尤其是配套b站视频和书籍,还有配合我们生物信息学实践的Python练习题! Continue reading

31

Python初体验之弄清楚版本差异和如何安装管理

我们前些天的推文:简单绘制一个3D效果的饼图吧,对比了R语言和Python的可视化效果,成功的吸引了不少小伙伴入坑Python编程语言,而且它确实是在单细胞数据处理领域占比有超越R的趋势,所以有必要开辟一个Python专辑啦。我们就简单的把任意一本Python书籍的第一章先给大家介绍一下吧:如下所示: Continue reading