13

生信技能树的融合基因教程系列合辑

号外:生信技能树知识整理实习生招募,长期 通知,也可以简单参与软件测评笔记撰写,开启你的分享人生!

融合基因是由染色体重排而产生的,包括染色体的易位,插入,颠倒,缺失。基因融合也在肿瘤发生发展过程起重大作用,约2成的癌症患者死亡是因为有基因融合这样的突变。基因融合广泛发生在各种各样的的癌症,而且很多基因融合事件都具有癌症种类的特异性。非常知名的有: Continue reading

09

生存分析凭什么不需要矫正P值

生存分析是大数据时代,筛选目标基因的超级有效策略。各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。 Continue reading

09

这样拿差异基因集做肿瘤诊断模型不是明知故问吗

差异基因分析确实是人尽皆知了,不管是表达芯片还是RNA-seq测序拿到的表达矩阵,都可以走差异分析策略,哪怕是蛋白质组和代谢组拿到的矩阵,也是如此,其实图表没啥子区别。差异分析,火山图,热图等等标准流程,基本上读一下我在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了: Continue reading

09

免疫相关基因数量到底是多少个

各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。 Continue reading

09

免费视频课程ATAC-seq实战演练

我这七年写了几万篇教程,制作了几百个小时的教学实战演练视频课程,都是免费分享在各大网站(B站,知乎,简书,博客,GitHub,微云),必然会出现部分教程过时,一些资料缺失(主要是链接失效)。而且很多平台都是生信技能树的各个志愿者帮忙打理,我不可能要求大家伙在辛辛苦苦帮我整理和发布资料的同时还提供答疑。比如这几天在登陆b站,就看到了这两年来积累的“铺天盖地的”留言和私信,我已经在:免费视频课程《RNA-seq数据分析》交流群组建通知 列出来了。 Continue reading

09

免费视频课程-chip-seq数据分析

我这七年写了几万篇教程,制作了几百个小时的教学实战演练视频课程,都是免费分享在各大网站(B站,知乎,简书,博客,GitHub,微云),必然会出现部分教程过时,一些资料缺失(主要是链接失效)。而且很多平台都是生信技能树的各个志愿者帮忙打理,我不可能要求大家伙在辛辛苦苦帮我整理和发布资料的同时还提供答疑。比如这几天在登陆b站,就看到了这两年来积累的“铺天盖地的”留言和私信,我已经在:免费视频课程《RNA-seq数据分析》交流群组建通知 列出来了。 Continue reading

09

公共数据库还可以看ArrayExpress

提到公共数据库挖掘,通常是GEO里面的表达芯片数据,这些年随着NGS的爆发,转录组测序数据的表达矩阵分析也逐渐有后来居上的趋势,当然了,TCGA数据库的全组学数据也是宝藏。但是也架不住有一些癌症或者疾病确实比较稀有和特殊,在GEO和TCGA都找不到合适的数据集,其实还有另外一个选项:ArrayExpress Continue reading

09

不要看数量,要看质量

前面我们组建了:免费视频课程《RNA-seq数据分析》交流群 ,很多人马上学习了全套实战视频,并且实践了一个转录组项目流程,新手问的最多的问题是:为什么我给的RNA-seq表达矩阵代码需要的是counts格式输入,而且使用3个不同的R包做差异分析,这3个R包该分别如何设置阈值来进行统计学显著的差异表达基因筛选,以及多个R包数量有时候差异很大,该如何取舍。 Continue reading

09

不要等到进公司才恶补生信技能

临近高考,最近我们的生信考研考博交流群以及生信职业发展讨论群都掀起了关于人生规划的讨论,七嘴八舌,好不热闹。而且还留言了很多问题给思考问题的熊,希望他能安排一期博客节目来谈这个主题,我有幸参与了节目录制,虽然自己是摸鱼状态参与节目的,还是期待这一期节目能上线。 Continue reading

09

比较两个vcf文件的多种实现方法

有粉丝邮件求助,给了我两个vcf文件,旧的vcf文件走的是标准的bwa+gatk流程,参考基因组是hg19,新的文件参考基因组是hg38,也是gatk标准流程。想要比较它们,首先得保证两个vcf文件的参考基因组一致,因为版本不一致,所以需要使用CrossMap等软件进行参考基因组版本转换,然后使用 SnpSift 软件的 Concordance 命令比较它们。 Continue reading