转录组高级分析之融合基因

一般来说,数据分析的任何一个点都会有成百上千个实验室在为之努力,比如比对,定量,可变剪切,融合基因这些步骤,那么同时也会有很多工具测评的文章,比如针对融合基因的随便搜一下,就可以发现下面两个:

  • 2016的文章:Comparative assessment of methods for the fusion transcripts detection from RNA-Seq data 测评了12个工具。
  • 2019的文章:Accuracy assessment of fusion transcript detection via read-mapping and de novo fusion transcript assembly-based methods 测评了23个工具算法。

大家完全可以直接快速浏览这样的文章就能迅速了解这个领域了!

融合基因算法的两个流派

转录组拼接来探索新的融合基因情况

2017年BMC文章:De novo assembly and characterization of breast cancer transcriptomes identifies large numbers of novel fusion-gene transcripts of potential functional significance, 通过对乳腺癌的转录组数据进行拼接来探索新的融合基因情况。

作者开发了流程来做the de novo assembly and characterization of chimeric transcripts in 55 primary breast cancer and normal tissue samples. 这里,作者从TCGA数据库里面选取45个乳腺原位癌以及10个正常样品测序的原始数据,走下面的步骤:

  • 先用Trim Galore做质控。
  • 然后用ABySS来进行转录本组装(多个kmer值同时组装),组装好的contig先用RepeatMasker把ployA尾巴屏蔽掉。
  • 然后用blat跟参考基因组比对,BLAT产生的pslx文件可以直接作为R-SAP流程的输入文件,来寻找 chimeric transcript ,对找到的chimeric transcript结果进行一系列的严格过滤。
  • 再用bowtie把原始的转录组测序数据比对到找到的chimeric transcript序列,最后得到了1959个chimeric transcript序列。

仅关注 split reads and discordant read pairs

比如工具FusionScan的文章:FusionScan: accurate prediction of fusion genes from RNA-Seq data 里面的流程图:

FusionScan的流程

可以看到全程依赖于比对环节,提取 split reads and discordant read pairs。

融合基因的数据挖掘思路

融合基因本身是肿瘤治疗的靶点,所以可以看有无某融合事件进行分组后看生存差异,以及一系列分组后的标准分析。

大量的NGS队列研究都仅仅是分析到了表达量层面,而且提供测序原始数据的,所以可以下载原始数据去看融合基因突变全景图,以及对应的生物学意义!比如文章:Transcriptome analysis offers a comprehensive illustration of the genetic background of pediatric acute myeloid leukemia 就是专注解释了一个AML队列的融合基因情况:

AML队列的融合基因全景图

TCGA的融合基因

在数据库网页工具:https://tumorfusions.org/ 可以下载和查询针对TCGA的RNA-seq数据的全部基因融合事件,全称是:TUMOR FUSION GENE DATA PORTAL

同时还有一个:ChimerDB 4.0: an updated and expanded database of fusion genes 也提供查询TCGA的RNA-seq数据的基因融合事件

以及 https://ccsm.uth.edu/FusionGDB/index.html

融合基因的临床应用前景

这个很有意思,之前听瑞金医院的朋友提到过,准备把RNA-seq的临检常规化,我特意搜索了一下,发现已经有一些RNA-seq的融合基因panel。具体推荐大家看2个文章:

  • Diagnosis of fusion genes using targeted RNA sequencing
  • Development and Verification of an RNA Sequencing (RNA-Seq) Assay for the Detection of Gene Fusions in Tumors

三代测序会变革融合基因领域

在三代测序的超长reads的优点面前,以前那些在ngs的短reads的算法难题都不再是问题,所以我还是蛮相信三代测序会变革融合基因领域,大家可以去搜索一些文献,比如:A Nanopore Sequencing–Based Assay for Rapid Detection of Gene Fusions

因为三代测序不是我的领域,我就先不总结了,也许三五年后我会回过头来继续这方面知识整理吧,那个时候我在生物信息学领域就达到了10年分享的小目标!

不过恰好有一个三代测序的研究实验室有博士后招聘,博士后训练机会,俄亥俄州立大学,生物医学信息系:

统计生物信息学实验室(http://augroup.org/)主要关注开发和应用生物信息学方法在高通量的测序数据 分析上,特别是三代测序的数据分析。

招聘(上)

招聘(下)

癌症研究领域里面三代测序肯定会发光发热,而且走融合基因这一个小领域也不错,感兴趣的博士们赶快联系吧!

融合基因算法工具列表

其实说了那么多,大家想要的就是一个好用的工具,去把RNA-seq数据鉴定一些融合基因事件。但是工具有近百个之多!

我在 https://www.biostars.org/p/45986/ 看到一个精彩的回答里面,他们总结了从RNA-seq数据里面鉴定融合基因的工具列表:

文末友情推荐

要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160

如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班:

如果你没有服务器的话,做NGS数据分析实战可能会有点勉强,建议考虑:每天不足一块钱,定制生信云送给你

Comments are closed.