全新细胞系模型的提出也需要ngs数据支持

很多《生信技能树》的粉丝虽然一直在关注我们，但是他们总觉得我们这样的数据处理很遥远，感觉自己可能一辈子都不会接触ngs组学，纯粹的动物实验分子实验操作。
实际上你的关注本身就说明了问题，只不过呢你欠缺那临门一脚，人生很长，你的科研生涯可能还有35年之久，你现在学会数据处理，这个技能的掌握其实是最大化受益！现在，哪怕是全新细胞系模型的提出也需要ngs数据支持啦，比如文章：《Establishment and Characterization of a Brca1−/−, p53−/− Mouse Mammary Tumor Cell Line》
主要是基于一个已有的基因工程小鼠模型，Genetically engineered mouse models of cancer (GEMMC) ，就是 K14cre; Brca1F/F; p53F/F mice ，从里面经过各种复杂的实验技术养成细胞系。但是仍然是大篇幅描述了他们是如何利用好ngs数据来完善他们的生物学故事。主要是一个WGS测序数据，其数据分析描述如下：
WGS测序数据数据分析
数据也是公开可以获取的，可以参考：使用ebi数据库直接下载fastq测序数据 , 需要自行配置好，然后去EBI里面搜索到的 fq.txt 路径文件：

项目地址是： https://www.ebi.ac.uk/ena/browser/view/PRJEB36418
脚本如下：
```
# conda activate download 
# 自己搭建好 download 这个 conda 的小环境哦。
cat fq.txt |while read id
do
ascp -QT -l 300m -P33001 \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \
era-fasp@$id .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &
```
这个脚本会根据你在EBI里面搜索到的 fq.txt 路径文件，来批量下载fastq测序数据文件。虽然仅仅是一个样品，但是我这里仍然是使用了批量下载哦！
主要的数据分析结果图表，如下所示：

Sanger研究所科学家【1】提出来了肿瘤somatic突变的signature概念，把96突变频谱的非负矩阵分解后的30个特征，在cosmic数据库可以查询到的30个特征。不同的特征有不同的生物学含义【2】，比如文章【3】就是使用了这些signature区分生存！
【1】https://software.broadinstitute.org/cancer/cga/msp
【2】https://en.wikipedia.org/wiki/Mutational_signatures
【3】https://www.nature.com/articles/s41586-019-1056-z
拷贝数变异作者仅仅是展现了自己关注的基因组区域；

我在教程：比较不同的肿瘤somatic突变的signature 也分享了如何比较不同方法拿到的signature，这样它们的生物学意义就可以联系起来了。主要是R包deconstructSigs可以把自己的96突变频谱对应到cosmic数据库的30个突变特征。如下所示：

学徒作业

下载这个PRJEB36418里面的测序数据，就两个文件而已：
```
fasp.sra.ebi.ac.uk:/vol1/fastq/ERR383/001/ERR3839731/ERR3839731_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/ERR383/001/ERR3839731/ERR3839731_2.fastq.gz
```
然后比对到小鼠参考基因组，并且使用GATK找到变异位点后，复现这个文章里面的3个图表！

一	二	三	四	五	六	日
« 九
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

全新细胞系模型的提出也需要ngs数据支持

学徒作业