100篇泛癌研究文献解读目录(长期更新)

Featured

长期更新~~~

为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达) Continue reading

我用rmarkdown写过的教程

Featured

用rmarkdown写教程真心非常方便,尤其是R语言相关的,比如一些R包的应用,或者一些可视化,或者一些统计,下面我简单列出一些我以前写过的,图文并茂,关键是还非常省心,不需要排版,不需要上传图片,整理图片。

一般来说看链接最后的文件名就知道这篇文章讲的是什么了:

Continue reading

一个MeDIP-seq实战-超级简单-2小时搞定!

Featured

请不要直接拷贝我的代码,需要自己理解,然后打出来,思考我为什么这样写代码。
软件请用最新版,尤其是samtools等被我存储在系统环境变量的,考虑到读者众多,一般的软件我都会自带版本信息的!
我用两个小时,不代表你是两个小时就学会,有些朋友反映学了两个星期才 学会,这很正常,没毛病,不要异想天开两个小时就达到我的水平。

MeDIP-seq 跟ChIP-seq的分析手段是一模一样的,同理hMeDIP-seq,caMeDIP-seq等等,都没有本质上的区别,只是用的抗体不一样而已,请自行搜索基础知识,我只讲数据分析。

一个ChIP-seq实战-超级简单-2小时搞定!

一个RNA-seq实战-超级简单-2小时搞定!

Continue reading

13

为难你了,选择生信技能树

最近有粉丝发邮件咨询我单细胞问题的时候,我指出来其实是因为他R语言知识不牢固,所以没办法从特定的S4对象里面提取内容,转录组基础也没有学习所以不明白文库是什么,其实就是说并不是单细胞本身知识点问题,所以推荐他去听我B站的全网第一个单细胞课程(免费基础课程),过两天他回信说太感谢我的教程了,之前确实是基础知识不够所以单细胞数据分析的很勉强,一步一个坑。 Continue reading

13

使用SnpSift把vcf文件的变异位点注释到clinvar数据库

号外:生信技能树知识整理实习生招募,长期通知,也可以简单参与软件测评笔记撰写,开启你的分享人生!

遗传变异的数据库注释非常简单,就是从数据库里面下载记录文件,然后根据坐标对应一下即可,甚至很多成熟的工具都可以自动下载数据库以及比对,就跟我们前面讲到的把vcf文件注释到dbSNP数据库的ID一样简单。我在多年前的直播我的基因组讲过很多了: Continue reading

13

生信技能树知识整理实习生招募

在生信技能树,生信菜鸟团,单细胞天地分享了超1.3万篇教程后,越来越感觉时间与精力不够用,且不说每日都要维持多个公众号的教程原创笔记撰写,仅仅是把这些教程发布出去,都是不小的工作量。目前我的教程同步更新在知乎,博客,腾讯云社区,简书,B站,论坛等平台,而且还有二十多个微信学习交流群需要维护,见: Continue reading

13

生信技能树的融合基因教程系列合辑

号外:生信技能树知识整理实习生招募,长期 通知,也可以简单参与软件测评笔记撰写,开启你的分享人生!

融合基因是由染色体重排而产生的,包括染色体的易位,插入,颠倒,缺失。基因融合也在肿瘤发生发展过程起重大作用,约2成的癌症患者死亡是因为有基因融合这样的突变。基因融合广泛发生在各种各样的的癌症,而且很多基因融合事件都具有癌症种类的特异性。非常知名的有: Continue reading

09

生存分析凭什么不需要矫正P值

生存分析是大数据时代,筛选目标基因的超级有效策略。各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。 Continue reading

09

这样拿差异基因集做肿瘤诊断模型不是明知故问吗

差异基因分析确实是人尽皆知了,不管是表达芯片还是RNA-seq测序拿到的表达矩阵,都可以走差异分析策略,哪怕是蛋白质组和代谢组拿到的矩阵,也是如此,其实图表没啥子区别。差异分析,火山图,热图等等标准流程,基本上读一下我在生信技能树的表达芯片的公共数据库挖掘系列推文 就明白了: Continue reading

09

免疫相关基因数量到底是多少个

各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。 Continue reading

09

免费视频课程ATAC-seq实战演练

我这七年写了几万篇教程,制作了几百个小时的教学实战演练视频课程,都是免费分享在各大网站(B站,知乎,简书,博客,GitHub,微云),必然会出现部分教程过时,一些资料缺失(主要是链接失效)。而且很多平台都是生信技能树的各个志愿者帮忙打理,我不可能要求大家伙在辛辛苦苦帮我整理和发布资料的同时还提供答疑。比如这几天在登陆b站,就看到了这两年来积累的“铺天盖地的”留言和私信,我已经在:免费视频课程《RNA-seq数据分析》交流群组建通知 列出来了。 Continue reading

09

免费视频课程-chip-seq数据分析

我这七年写了几万篇教程,制作了几百个小时的教学实战演练视频课程,都是免费分享在各大网站(B站,知乎,简书,博客,GitHub,微云),必然会出现部分教程过时,一些资料缺失(主要是链接失效)。而且很多平台都是生信技能树的各个志愿者帮忙打理,我不可能要求大家伙在辛辛苦苦帮我整理和发布资料的同时还提供答疑。比如这几天在登陆b站,就看到了这两年来积累的“铺天盖地的”留言和私信,我已经在:免费视频课程《RNA-seq数据分析》交流群组建通知 列出来了。 Continue reading

09

公共数据库还可以看ArrayExpress

提到公共数据库挖掘,通常是GEO里面的表达芯片数据,这些年随着NGS的爆发,转录组测序数据的表达矩阵分析也逐渐有后来居上的趋势,当然了,TCGA数据库的全组学数据也是宝藏。但是也架不住有一些癌症或者疾病确实比较稀有和特殊,在GEO和TCGA都找不到合适的数据集,其实还有另外一个选项:ArrayExpress Continue reading