TCGA数据库免疫相关文件下载大全

本文首发于生信技能树公众号,直达链接是:https://mp.weixin.qq.com/s/-amtbxvk0mC2Nv-bwt1BeQ

2018年4月Immunity杂志上发表了文章The Immune Landscape of Cancer ,由34个单位共同合作完成。文章对TCGA中33种癌症,超过10,000个肿瘤样本进行了免疫原性分析,将所有肿瘤分成6种免疫亚型,即:

  • wound healing
  • IFN-γ dominant
  • inflammatory
  • lymphocyte depleted
  • immunologically quiet
  • TGF-β dominant

进一步分析:

  • 不同亚型间巨噬细胞或淋巴细胞特征、Th1:Th2细胞比例、肿瘤异质性程度、非整倍性、新抗原负荷程度、细胞增殖、免疫调节基因的表达、预后等指标的差异。
  • 与免疫相关的驱动突变
  • 参与肿瘤免疫的细胞内和细胞间调控网络(调控网络包含转录、microRNA、拷贝数、表观遗传信息)

而且还提供了该文章的详细数据文件在附件!

首先推荐使用gdc客户端命令行工具根据文件附属的:https://gdc.cancer.gov/files/public/file/PanCan-panimmune_Open_GDC-Manifest_1.txt 文件来下载下面的文件:

PanImmune_GeneSet_Definitions.xlsx
TCGA_pMHC_SNV_sampleSummary_MC3_v0.2.8.CONTROLLED_170404.tsv
ABSOLUTE_scores.tsv
TCGASubtype.20170308.tsv
panimmune_cytokine_network_all_edges_july202018.tsv
merged_sample_quality_annotations.tsv
tcga.pancan.igh.div.txt
pancanMiRs_EBadjOnProtocolPlatformWithoutRepsWithUnCorrectMiRs_08_04_16.csv
mc3.v0.2.8.PUBLIC.maf.gz
EBPlusPlusAdjustPANCAN_IlluminaHiSeq_RNASeqV2.geneExp.tsv
PanCanAtlasTumors_color_coded_by_organ_system_20170302.tsv
Scores_160_Signatures.tsv.gz
TCGA_mastercalls.abs_tables_JSedit.fixed.txt
PanCanAtlas_miRNA_sample_information_list.txt
ViralListForBBT.tsv
TCGA_PCA.mc3.v0.2.8.CONTROLLED.filtered.sample_neoantigens_10062017.tsv
TCGA.HRD_withSampleID.txt
SYGNAL_immune_subtype_network_att.txt
TCGA_all_leuk_estimate.masked.20170107.tsv
all_thresholded.by_genes_whitelisted.tsv
TieDIE_PancancerImmuneModulators_1.0.sif
jhu-usc.edu_PANCAN_HumanMethylation450.betaValue_whitelisted.tsv
viral.tsv
ISAR_GISTIC.all_thresholded.by_genes.txt.gz
TCGA.Kallisto.fullIDs.cibersort.relative.tsv
seg_based_scores.tsv
all_data_by_genes_whitelisted.tsv
SYGNAL_immune_subtype_network.sif
jhu-usc.edu_PANCAN_merged_HumanMethylation27_HumanMethylation450.betaValue_whitelisted.tsv
mitcr_sampleStatistics_20160714.tsv
ISAR_GISTIC.all_data_by_genes.txt.gz
TCGA-RPPA-pancan-clean.txt
mutation-load_updated.txt

gdc客户端命令行工具 安装及使用

本来你应该是去 https://gdc-portal.nci.nih.gov/legacy-archive/search/f 根据自定义搜索过滤条件拿到了 mainfest 文件的,但是这个2018年4月Immunity杂志上发表的文章The Immune Landscape of Cancer已经给出了mainfest 文件:https://gdc.cancer.gov/files/public/file/PanCan-panimmune_Open_GDC-Manifest_1.txt

首先下载和安装gdc客户端命令行工具

很有趣是居然区分了python版本 :

Latest Version of Data Transfer Tool (Python 3)

Legacy Versions of The Data Transfer Tool (Python 2.7)

这种软件解压即可使用,所以没什么好纠结的, 代码如下:

# https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
which python
mkdir -p ~/biosoft/gdc_client
cd ~/biosoft/gdc_client/
wget https://gdc.cancer.gov/system/files/authenticated%20user/0/gdc-client_v1.5.0_Ubuntu_x64.zip
unzip gdc-client_v1.5.0_Ubuntu_x64.zip

./gdc-client --help
./gdc-client download --help

使用gdc客户端工具下载PanCan-panimmune_Open_GDC-Manifest_1.txt 里面的文件

cd ~/biosoft/gdc_client/
mkdir PanCan-panimmune
cd PanCan-panimmune
wget https://gdc.cancer.gov/files/public/file/PanCan-panimmune_Open_GDC-Manifest_1.txt
nohup ../gdc-client download -m PanCan-panimmune_Open_GDC-Manifest_1.txt &

因为文件内容还是蛮多的,所以会耗费一些时间,可以看到甲基化的确是最耗费空间的。

image-20200317085623498

那么这些数据拿到手上后该进行哪些分析呢?必须看我们的TCGA系列视频课程啊!

TCGA数据库其它系列教程

关于TCGA数据下载,我挑选了部分,写了6个数据下载系列教程

但是,建议你选择UCSC的xena数据库下载方式。如果你看视频,并不需要全盘接受,把握住重点。

也写了部分常见的TCGA数据库用法

但是个人力量总归是有限的,我们生信技能树团队优秀R语言讲师《小洁》也学完了我的全套视频,在她自己的理解的基础上面,也给大家奉献了一套笔记: TCGA肿瘤数据库分析指南知识库马上面世

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

Comments are closed.