最近有粉丝在我们《生信技能树》公众号后台提出来了一个很有意思的问题, 他做的是2X3X3=18个样品的转录组测序,做完了各种各样的组合的差异分析,也做了WGCNA,想多加一个花样,就是最近看到的蛋白编码基因和非编码基因的表达量相关性探索。 Continue reading
你只想做ID转换却不知道为什么要转换
最近咱们《生信技能树》的VIP答疑群,有这样的提问: Continue reading
拟时序分析的10个步骤
最近刷了刷植物领域单细胞文献,有一个蛮早期的拟南芥根部单细胞研究:《High-Throughput Single-Cell Transcriptome Profiling of Plant Cell Types》对拟时序分析描述的很清楚,适合做科普! Continue reading
10x单细胞的3个文件如果仅仅是提供了mtx呢
众所周知10x单细胞会给出3个文件,我在单细胞数据分析的基础10讲写的很清楚: Continue reading
牛的参考转录组序列文件下载及salmon索引构建
猪马牛羊狗等动物的科学研究貌似并不多,最近接到《生信技能树》公众号后台粉丝提问,跟着我们的转录组课程没办法完成自己的数据分析,因为物种不一样。 Continue reading
欧洲裔和非裔美国乳腺癌患者差异可以TCGA数据库验证
数据挖掘的本质是把基因的数量搞小,而数据挖掘课题的开启核心就是分组,你可以根据容易基因的高低表达量或者甲基化与否,突变与 Continue reading
凭什么你分成两组就应该有全局差异
在生信技能树的教程:《你确定你的差异基因找对了吗?》, 提到过,必须要对你的转录水平的全局表达矩阵做好质量控制,最好是看到标准3张图:
- 左边的热图,说明我们实验的两个分组,normal和npc的很多基因表达量是有明显差异的
- 中间的PCA图,说明我们的normal和npc两个分组非常明显的差异
- 右边的层次聚类也是如此,说明我们的normal和npc两个分组非常明显的差异
如果分组在3张图里面体现不出来,我们是警告大家如果强行进行后续差异分析是有风险的。但并不意味着这样就没办法进行后续分析,我在教程:PCA都分不开的两个组强行找差异是为何提到过无数的这样的例子!
而且呢,本来你自己实验设计好分成两组就不一定是有全局差异,比如文章:ATAC-seq reveals alterations in open chromatin in pancreatic islets from subjects with type 2 diabetes. Sci Rep 2019 May 23;9(1):7785. PMID: 31123324,其配套数据集在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE129383,实验材料是Human islets of 9 non-diabetic donors and 6 donors diagnosed with T2D,也就是说是15个样品的ATAC-seq数据。
首先看15个样品的ATAC-seq数据全局差异,如下所示 :
如果采用我们转录组授课提到的3张图标准,可以看到这个组内差异和组间差异其实是混淆的。糖尿病患者和正常人勉强还是可以区分开来,但是混杂因素有点多,而且可以肯定这个混杂因素并不是性别,有可能是纳入的病人的年龄或者其它基础疾病,总之呢仅仅是一个糖尿病无法彻底把样品分成两组!
但是这并不影响研究者进行后续差异分析; (b) Volkano plot of human islet ATAC-seq data of donors with type 2 diabetes versus non-diabetic donors analysed with R Diffbind and edgeR packages- Interestingly, we found 1,078 differential ATAC-seq peaks in T2D versus control islets.
可以看到,符合要求的在糖尿病患者里面跟正常人相比有统计学显著的差异的ATAC-seq peaks仍然是有一千多个!
火山图有点丑:
作者在糖尿病的病人组和正常对照组里面各自挑选了一个信号值改变的peak进行IGV的载入bw文件的可视化,如下所示:
可以看到,这个时候研究者很鸡贼哦,他们并没有去可视化这些peaks在全部的15个样品的ATAC-seq数据的差异,而是选择了4个糖尿病患者和4个正常对照,确实就很容易看到信号值的上下调!
如果是转录组数据差异分析,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;- 解读GEO数据存放规律及下载,一文就够
- 解读SRA数据库规律一文就够
- 从GEO数据库下载得到表达矩阵 一文就够
- GSEA分析一文就够(单机版+R语言版)
- 根据分组信息做差异分析- 这个一文不够的
- 差异分析得到的结果注释一文就够
但这个文章做的是 ATAC-seq数据,差异分析首先就不一样,拿到了1,078 ATAC-seq peaks 虽然说可以对应到具体的基因,然后进行生物学功能数据库注释,但是比较有特色的分析应该是peaks的注释。
比如研究者,就针对在《糖尿病的病人组》里面上调的1,078 ATAC-seq peaks 进行HOMER的注释:
上游分析这里我略过了,感兴趣可以去看教程ATAC-seq项目的标准分析仅收费1600, 有一个2020综述《From reads to insight: a hitchhiker’s guide to ATAC-seq data analysis》值得看:- MACS2 进行 Peak calleing
- csaw 进行差异 Peak 分析
- MEME suite 进行 motif 检测和富集
- ChIPseeker 进行注释和可视化
- HMMRATAC 进行核小体检测
- HINT-ATAC 进行足迹分析
任意细胞亚群的差异分析
我们以 seurat 官方教程为例:
生物信息学灌水阵营转移到印度啦
提起生物信息学灌水大家首先想到的肯定是我们中国特色的临床医师畸形科研现状,不过最近我看到了一个有意思的文章:《Integrated bioinformatic analysis identifies UBE2Q1 as a potential prognostic marker for high grade serous ovarian cancer》,如下所示: Continue reading
时过境迁,当年那些缺点都不复存在
最近刷文献,看到了针对RNA-seq测序技术的这样的一个总结: Continue reading
使用barcodeplot可视化你的基因排序
gsea分析这方面教程我在《生信技能树》公众号写了不少了,不管是芯片还是测序的表达矩阵,都是一样的,把全部基因排序即可: Continue reading
使用camera进行基因集分析
发表这个算法的文章是2012年:《Camera: a competitive gene set test accounting for inter-gene correlation》,链接是: Continue reading
缺单细胞亚群标记基因
我们做肿瘤研究的单细胞数据,一般来说初步定义细胞亚群, 第一次分群是通用规则,按照 : Continue reading
图片压缩神器ffmpeg
最近摄影公司不知道从哪里弄到了我们的电话号码,提出上门给宝宝拍摄新生儿艺术照留念,打着社区免费服务的幌子拍照后各种狮子大开口,收费3200,后来减去了一些照片,总算是800拿下来了。临走 Continue reading
细胞亚群为什么一定要有清晰可见的界限
太多小伙伴在各种交流群问到他自己的单细胞转录组数据在降维聚类分群的时候,发现很多生物学亚群会出现一定程度的交叉,导致结 Continue reading
新手绘图一站式R包之ggpubr
非常有意思的是,虽然我们介绍了海量的R语言绘图资源,包括手把手视频教学和配套书籍,以及海量的绘图参考代码。 Continue reading
新手绘图一站式R包ggstatsplot
非常有意思的是,虽然我们介绍了海量的R语言绘图资源,包括手把手视频教学和配套书籍,以及海量的绘图参考代码。 Continue reading
研究最热门的基因是什么
在 NCBI的ftp里面关于人的一些基因信息, 在 : ftp://ftp.ncbi.nlm.nih.gov//gene 下载即可! Continue reading
一个包的升级居然造成如此大的破坏
以前从来不报错的 org.Hs.eg.db 类似的包,这两天居然各个交流群都有人在问它!如下所示的报错: Continue reading
一个分析一个图,后面全靠编故事
最近看到一个韩国人的TCGA数据挖掘文章,标题是:《Classification of Genes Based on Age-Related Differential Expression in Breast Continue reading