并不是只有TCGA计划里面的癌症研究才做多组学

前列腺癌是一种相对惰性的恶性肿瘤,但是一旦其进入晚期,治疗将会变得十分棘手。虽然大多数晚期前列腺癌患者对内分泌治疗都有很好的反应,但在治疗18~24个月后几乎所有患者最终都将进展为去势抵抗性前列腺癌(CRPC),而一旦进展为CRPC,一半患者将难以活过两年。因此,识别哪种前列腺癌更易进入CRPC,并对此及早进行积极的综合治疗是延长生存期的重要环节。
1966年­Donald F. Gleason博士提出Gleason评分,以便对前列腺癌进行分级,为临床医师提供前列腺癌侵犯程度和侵袭性的相关信息。其后Gleason评分历经数次修改,Gleason评分可以衡量前列腺癌的组织分化程度,对于评估前列腺癌患者的生存期有重要价值。该评分一般越低越好,分数越低肿瘤的恶性程度越小,反之分数越高肿瘤恶性程度越高。有研究结果表明,Gleason评分≤8分的患者进展至CRPC的中位时间为21个月,而>8分的患者为14个月。
Gleason评分,一般患者可在病理报告的诊断部分看到。在此处,我们需要关心的是两项加起来的总分。

关于TCGA数据库

众所周知,TCGA数据库是目前最综合且最全面的癌症病人相关组学数据库,包括:

  • DNA Sequencing
  • miRNA Sequencing
  • Protein Expression array
  • mRNA Sequencing
  • Total RNA Sequencing
  • Array-based Expression
  • DNA Methylation
  • Copy Number array
    知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:
  • Broad Institute FireBrowse portal, The Broad Institute
  • cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center(简称MSKCC)
    其中MSKCC本身就是癌症研究的龙头科研单位,独立于TCGA计划的癌症队列,他们也做了很多,比如:

    MSKCC的前列腺癌多组学队列研究

    发表在Cancer Cell. 2010 Jul 的文章:Integrative genomic profiling of human prostate cancer. MSKCC的研究人员纳入了,发现:

  • nuclear receptor coactivator NCOA2 as an oncogene in approximately 11% of tumors.
  • the androgen-driven TMPRSS2-ERG fusion was associated with a previously unrecognized, prostate-specific deletion at chromosome 3p14 that implicates FOXP1, RYBP, and SHQ1 as potential cooperative tumor suppressors.
  • 拷贝数2个clusters of low- and high-risk disease beyond that achieved by Gleason score.
    在文章里面看到的数据集是 GSE21032,里面涵盖3个子集,如下:

    GSE21034 Whole-transcript and exon-level expression data for human primary and metastatic prostate cancer samples and control normal adjacent benign prostate
    GSE21035 Agilent 244K aCGH data for human primary and metastatic prostate cancer samples
    GSE21036 MicroRNA expression data for human primary and metastatic prostate cancer samples and control normal adjacent benign prostate
    

    进入可以看到是3种数据:

    GPL4091 Agilent-014693 Human Genome CGH Microarray 244A (Feature number version)
    GPL5188 [HuEx-1_0-st] Affymetrix Human Exon 1.0 ST Array [probe set (exon) version]
    GPL8227 Agilent-019118 Human miRNA Microarray 2.0 G4470B (miRNA ID version)
    

    因为是2010的文章,所以采取的都是芯片平台数据,基本上只有Affymetrix Human Exon 1.0 ST Array ,我在生信技能树讲解过分析思路。Agilent的 Human miRNA Microarray 我没有分析过,但是猜测应该是表达矩阵分析策略,所以倒不用害怕,无非就是差异分析,聚类等等。
    但是Agilent的拷贝数芯片就麻烦了,拷贝数芯片在TCGA计划里面是SNP6.0一家独大,这个Agilent的资料确实很少。

    作为公共数据库为后面的研究提供数据支撑

    比如 http://dx.doi.org/10.1016/j.cell.2014.08.016 里面就是把自己的7个前列腺癌病人的CNV跟MSKCC的前列腺癌多组学队列研究对比。
    所以这篇文章数据:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE60612 也是Agilent-021529 Human CGH Whole Genome Microarray 1x1M,都是芯片拿到的CNV信息,可以相互比较。
    描述是:Significant genomic aberrations in the prostate oncogenome from the MSKCC CGH data set adopted from (Taylor et al., 2010). Bottom:

Copy number landscape of seven patient-derived organoid lines and six publically available prostate cancer cell lines using array CGH data. Shades of red and blue represent level of gain and loss.
跟MSKCC的前列腺癌多组学队列研究对比

学徒作业:尝试分析agilent的CNV芯片

就是https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE60612 数据集,使用的Agilent-021529 Human CGH Whole Genome Microarray:

GSM1483671 MSK-PCa1
GSM1483672 MSK-PCa2
GSM1483673 MSK-PCa3
GSM1483674 MSK-PCa4
GSM1483675 MSK-PCa5
GSM1483676 MSK-PCa6
GSM1483677 MSK-PCa7

可以看到原始数据还是蛮大的:
agilent的CNV芯片原始数据
也可以去 GSE21035 里面拿到前面CNV的IGV截图里面的细胞系的数据集,一起分析CNV,然后加载进入IGV看看能不能复现那个拷贝数全景图。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

Comments are closed.