文章数据分析流程图如下: Continue reading
学徒作业-单基因的tcga数据挖掘分析
TCGA数据库关于食管癌的,分成ESCC和EAC,其中ESCC好发于中国人群,所以作者关心TCGA数据库里面的90个ESCC病人。
根据CCL2基因的表达量,可以把TCGA数据库里面的90个ESCC病人分成高低表达CCL2的两个组,然后可以差异分析,GSEA分析等等 Continue reading
信息熵的4个量化指标的R代码实现
熵(entropy)在统计学中是一个很重要的概念,代表着信息的多少。经济学里面衡量贫富差距的基尼系数,以及环境生物学领域衡量物种多样性的辛普森多样性指数,以及免疫组库领域的D50都有异曲同工之妙。 Continue reading
嫌弃cosmic数据库的30个肿瘤突变signatures?
肿瘤基因测序后,通常会得到一定数量的基因突变位点信息,somatic突变在全基因组上发生的比例约百万分之一,如果是全基因组肿瘤基因测序, 可能会有3万个左右的somatic突变,如果是全外显子测序,是300个左右,如果是捕获基因测序,那么取决于基因是否是热点突变。 Continue reading
为什么同样的人类病人遗传隐私保护政策各个科学研究团队遵守情况不一样
最近接触的单细胞文献比较多,发现不同文章的测序数据公布的地方很不一样,有的不让下载,有的是需要授权审核才能下载,有的是完全公开下载。很有意思,分享一下: Continue reading
是否是免疫细胞很容易区分那是否是肿瘤细胞呢?
单细胞转录组的火爆大家是有目共睹的,主要是在各式各样的物种器官图谱研究以及发育,肿瘤免疫研究。其中在肿瘤免疫一个很重要的分析点就是区分免疫细胞和非免疫细胞,这个还算是比较容易,比如文献《Zilionis et al., 2019, Immunity 》就提到: Continue reading
使用R包SomaticSignatures进行denovo的signature推断
前面我在生信菜鸟团的肿瘤外显子数据分析专辑提到了,很多研究者会嫌弃cosmic数据库的30个肿瘤突变signatures,他们觉得cosmic数据库30个signature的生物学意义并不好,自己会尝试分解出来自己的signature。比如:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》 这篇文献,研究者就是使用R包SomaticSignatures进行denovo的signature推断,拿到了11个自定义的signature。 Continue reading
使用R包deconstructSigs根据已知的signature进行比例推断
首先,自己推断denovo的signature,可以使用SomaticSignatures 包的identifySignatures函数,这个教程我在生信技能树分享过:使用R包SomaticSignatures进行denovo的signature推断,比如:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析》 这个文献,研究者就是使用R包SomaticSignatures进行denovo的signature推断,拿到了11个自定义的signature。 Continue reading
使用NMF代替层次聚类
前面我们在教程:使用R包deconstructSigs根据已知的signature进行比例推断,顺利的把508个病人,根据11个signature进行了比例推断,得到的比例矩阵以普通的热图,以及pheatmap包自带的层次聚类如下: Continue reading
使用MiXCR进行免疫组库分析
前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。 Continue reading
使用IMonitor进行免疫组库分析
其实前面我们已经分享了MiXCR,还有igblast,这两个免疫组库上游分析软件已经够用,如下: Continue reading
使用igblast进行免疫组库分析
前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。 Continue reading
什么,生信入门全套书籍仅需160
不出意外,朋友圈又被六一儿童节刷屏了,但是我微信里面没有一个“儿童”,有意思。
成年人了,面对现实吧,我在生信技能树分享的1.3万篇教程你肯定没有看完,我在B站共享的公益100个小时教学视频你大概率也是没有看完。学习资料及学习内容在:2020学习主旋律,B站74小时免费教学视频为你领路。 Continue reading
生物信息学速成指南,赶紧收藏!
做梦吧你!
任何一个细节知识点的掌握如果背后是四年本科的沉淀,学起来倒是很快,这也就是为什么我给学生强调,学会一个R包跟“吃饭喝水”一样简单。 Continue reading
什么时候P值大于0.05也无所谓呢
我在生信技能树分享了一个教程:不要怀疑,你的基因就是没办法富集到统计学显著的通路,然后在生信菜鸟团给了一个解决方案:差异基因没办法富集到通路你就放弃了吗,但是他们都是基于转录组表达量来的,这并不意味着GO/KEGG这样的生物学功能数据库的注释仅仅是只能针对转录表达的数据。 Continue reading
三维基因组数据分析实操仅需249
如果你感兴趣三维基因组数据分析,那么这个课程不容错过啦!
课程安排
报名后会统一发送课前培训资料,包括Linux和R基础。因为此课程(三维基因组数据分析实操)时间安排是一整天,也不会有时间去详细讲解Linux和R语言基础知识的,需要你自行学习编程基础知识哈,学习资料及学习内容在:2020学习主旋律,B站74小时免费教学视频为你领路,这个计算机背景我默认生信技能树绝大部分粉丝都已经是没有问题了哈,如果还有疑问,自行完成Linux和R的视频学习以及作业题。务必把2020学习主旋律,B站74小时免费教学视频为你领路多看几遍!!! Continue reading
如果你的单细胞转录组项目只有一个稀疏矩阵如何下游分析呢
前面我在单细胞天地的教程:10X单细胞转录组理论上有3个文件才能被读入R进行seurat分析,预告了一个粉丝遇到的疑难点,数据集GSE127465里面明明是可以下载到看起来是10X标准的3个文件,但是的确没办法读入到R里面进行seurat流程。 Continue reading
认识免疫组库测序数据
前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。 Continue reading
爬虫最怕JavaScript
静态网站内容爬取rvest、RCurl、XML这几个包都可以实现这个功能。比如下面的网页:
你的数据挖掘文章真的有人在看
居然有粉丝咨询我黑色素瘤和小耳畸形这两个疾病的关系,其实我蛮吃惊的,因为我一直分享的都是纯粹的数据处理技术,基本上不会涉及到疾病的认知层面,因为我确实没有医学背景,甚至也不会去谈论那些生信数据挖掘文章套路,因为感觉很low! Continue reading