31

GWAS宝刀未老

今年(2020)2月,解放军总医院放射治疗科的研究团队,在国际期刊《Journal of Cancer》 上发表了题为”Precise prediction of the radiation pneumonitis in lung cancer: an explorative preliminary mathematical model using genotype information”的科研论文。
Continue reading

31

GATK的FilterMutectCalls如何才能成功呢

因为有粉丝求助,他学习前面我分享的GATK的Mutect2流程都快奔溃了,总是各种报错。为了证明我教程没有错,所以我赶紧检查了代码,自己走了一遍,重新写了教程,了:最新最全的mutect2教程,提到了因为GATK的Mutect2流程更新太频繁,导致这个软件出现了一些无法解决的报错。走完了体细胞突变(somatic mutation)检测流程(Mutect2命令),这个时候拿到的文件仍然是需要过滤(走FilterMutectCalls命令)的,但是很多人就卡在了这一步。

Continue reading

31

FACS挑选前后会改变细胞亚群比例组成吗

单细胞转录组技术毫无疑问是目前科研界的“当红炸子鸡”,但绝大部分人使用单细胞转录组的数据其实就当做是了流式细胞仪看不同细胞亚群组成的比例而已。这也就是为什么绝大部分单细胞转录组分析教程就是:数据质控,降维,聚类,分群,细胞亚群生物学注释。只要你的实验设计ok,这样的分析绰绰有余了,可以拿到一个落脚点去做实验验证一下或者公共数据库的验证。

Continue reading

31

CellPress对话科学家专栏推荐(生命科学领域)

生命科学领域的科研方向错综复杂,但是底层逻辑日渐清晰,就是数据分析(生物信息学)。但做数据分析的通常是在校生或者毕业一两年的工程师,太年轻了,所以在科研背景知识层面必然被老一辈科学家吊打。无论你的统计可视化做的多么好,各种机制图表信手拈来,也不可能代替生物学故事。而故事讲的好的,就不得不提CNS杂志啦。最近看到CellPress对话科学家专栏推荐非常值得大家学习,希望二十年后有你的名字!

Continue reading

31

最新最全的varscan 软件找somatic mutation

前面我分享了:最新最全的mutect2教程,提到了其实大家不必在一棵树上吊死,GATK的Mutect2流程跑不通就换一个软件咯,2018年文章:A review of somatic single nucleotide variant calling algorithms fornext-generation sequencing data 就囊括了十几款找somatic mutation的软件。当然了,绝大部分软件其实是没有尝试的价值。不过如果要是从安装和使用的简易性来考虑,varscan 软件必须值得一提。

Continue reading

31

肿瘤外显子数据处理系列教程(结语)

咱们生信菜鸟团的周一专栏经历了《学徒数据挖掘》以及《肿瘤外显子》两个话题,目前也在逐渐过渡到《生信工作咨询》,后台的粉丝一直在呼唤前面两个话题的回归。不得不说,非常难,坚持写笔记这件事呢并不是在写,而是在坚持,在生信知识整理和分享这个领域,我算是一个老兵了,现在其实也有一些乏力。
Continue reading

31

在Linux服务器里面安装GISTIC软件

五六年前我就写过GISTIC软件的安装及使用教程,不过那个时候针对的还是SNP6.0这样的拷贝数芯片。GISTIC这个软件在TCGA计划里面被频繁使用者,用这个软件的目的很简单,就是你研究了很多癌症样本,通过芯片或者肿瘤外显子测序+得到了每个样本的拷贝数变化信息,一般是segment结果,可以解释为CNV区域,需要用GISTIC把样本综合起来分析,寻找somatic的CNV,并且注释基因信息。

Continue reading

31

用WES和RNA-Seq数据提取到的somatic SNVs不一致

全外显子测序(WES)和RNA测序(RNA-Seq)是二代测序(NGS)的两个主要平台,其中WES主要用于发现DNA变异,而RNA-Seq的使用集中在基因表达量的测量,我在生信技能树B站都分享过这两方面数据的处理视频教程:

31

英语为主的生物信息学交流平台大家有推荐的吗

前面提到了:我教程的第一个外国读者,不少海外读者开始follow我的教程了。诚然,自己这些年写了一万多篇教程了,很多其实可以也值得输出到海外,但是限于母语的惯性,并不想耗费时间写英文版教程。好在我有很多学徒,招募一些优秀者组成翻译小分队,帮我把《生信技能树》公众号一些阅读量比较好的教程翻译后输出到英语为主的生物信息学交流平台。

Continue reading

31

一个甲基化芯片数据被挖掘好几次(学徒作业)

前面我在《生信技能树》的教程:什么,你感兴趣的GEO数据集没有关联到原始文献出处,提到了一个GSE数据集是可以关联到很多文献,如果这个数据集被挖掘过。但是举例子的时候留空白了,居然被眼尖的读者指出来了。其实写教程有时候很耗费时间,我不想为了一个教程再去临时查询资料做整理,但是即使不举例,相信大家也是能看懂的。恰好我最近看到了一个数据集就关联到了3个文章,数据在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE66313

Continue reading