学徒作业-在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵

本文首发于生信技能树公众号,直达链接是:https://mp.weixin.qq.com/s/wY79Lkb0mzYNtZj2R2vLLQ

看到发表在 Cell. 2020 Mar 4. 的文章的研究项目里面有 4个10X样本,题目是:Complement Signals Determine Opposite Effects of B Cells in Chemotherapy-Induced Immunity. (PMID:32142650,DOI:10.1016/j.cell.2020.02.015) ,我没有细看,注意到附件有一个图表很有趣:

指定基因在指定细胞系的表达量热图

适合作为学徒作业,你需要去搜索了解一下CCLE数据库,下载它的RNA-seq表达矩阵,然后根据图里面的基因名字和细胞系名字,取出需要的表达矩阵,然后热图可视化即可。

详细的图例是:The relative expression of complement regulatory proteins (CD55, CD46, CRIg, CR1, Factor H, Factor I, FHL1, C4BP, Properdin and C1INH) in BT474, BT549, MDA-MB-231, HCC1937, MDA-MB-361, MDA-MB-436, MDA-MB-468, AU565, SK-BR-3, MCF-7 and MDA-MB-453 cells were evaluated by using mRNA data from the Barretina Cell Line database.

CCEL数据库介绍

需要简单注册后才能下载:https://portals.broadinstitute.org/ccle/users/sign_in

下载到需要的数据文件后可以先看看CCLE里面收集的细胞系表型信息,大家可以自由统计。

options(stringsAsFactors = F)
a=read.table('data/CCLE_sample_info_file_2012-10-18.txt',sep = '\t',header = T)
as.data.frame(sort(table(a$Source),decreasing = T))
## Var1 Freq
## 1 ATCC 437
## 2 DSMZ 221
## 3 HSRRB 121
## 4 KCLB 66
## 5 RIKEN 66
## 6 ECACC 62
## 7 Academic Lab / Achilles 42
## 8 Academic Lab 12
## 9 ICLC 7
## 10 NCI/DCTD 7
## 11 5

其它细胞系药物作用数据库

提到细胞系药物作用数据库,最出名的是 Cancer Cell Line Encyclopedia (CCLE) 和Cancer Genome Project (CGP) / Genomics of Drug Sensitivity in Cancer (GDSC) 这两个:

其实还有broad的 CTRP和Roche的geneTech公司的数据库也类似。

其中 GDSC 也就是 CGP,包含着4种数据。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

Comments are closed.