肿瘤外显子视频课程小作业

外显子技术是仅次于转录组的热门 NGS 应用,尤其是在肿瘤研究方向,大量的癌症多组学队列其实就是转录组加上外显子而已。实际上并没有专门的肿瘤转录组教程系列,但是肿瘤外显子却不然,如果大家三年前追过我的直播基因组活动,就应该知道同样是DNA层面的测序,全基因组,外显子组还有捕获基因靶向测序,在肿瘤研究里面不仅仅是找跟参考基因组不一样的位点,就是所谓的变异位点而已。
肿瘤外显子实验设计里面通常是对一个病人既测序其肿瘤组织又测序其正常组织(癌旁或者血液),这样的话,分析流程里面就需要分别独立比对到参考基因组,然后筛选出那些出现在肿瘤组织里面却并没有出现在同一个病人组织里面的那些突变,就是我们所说的体细胞突变。虽然,目前我的B站74小时视频并没有肿瘤外显子视频教学课程,但是已有的WES视频教学教程,加上我这几年在生信技能树陆陆续续写的肿瘤相关教程,还有菜鸟团的肿瘤外显子数据处理系列教程,目前整理到了https://www.yuque.com/biotrainee/wes 知识库,已经足够大家学会啦。为此,我奉上习题一套,大家如果做完这个小作业没有问题就说明大家掌握了基础的肿瘤外显子分析流程了哦。

step1:读文献

文章:A Targetable EGFR-Dependent Tumor-Initiating Program in Breast Cancer
自行搜索了解一些背景知识:

一、质控(fastqc +tookit)

1数据质量:

  • 1)碱基质量分布
  • 2)reads质量分布
  • 3)reads长度分布
  • 4)GC含量
    2数据过滤
  • 1)原始reads数
  • 2)平均质量值>Q20 reads数目和比例
  • 3)平均质量值>Q30 reads数目和比例
  • 4)过滤掉reads中碱基质量<Q20的碱基占比超过5%的reads。统计clean data的reads和比例。

    二、比对(bwa)

    1)比对上基因组的reads数及占总数的比例
    2)完全匹配的reads数
    3)匹配上各个染色体的reads数
    4)染色体上的覆盖深度
    5)落在目标区域(exon)的reads数
    6)落在目标区域+-100的reads数
    7)目标区域碱基覆盖深度
    8)目标区域碱基被覆盖比例
    9)目标区域碱基被覆盖(50X,100X,150X,200X。。。)的比例

    三、find SNV(samtools +picard+gatk+varscan)

    1)picard :sam >sort.bam
    2)gatk :sort.bam >sort.dedup.bam (去重复)
    3)gatk :sort.dedup.bam > realign.bam (重新比对,indel和snp校正)
    4)Gatk :碱基质量重打分。(未进行)
    5)Varscan :call SNV

    四、突变注释

    1)annovar注释。
    2)注释结果统计(同义,非同义突变,基因上下游,内含子,外显子上等)
    3)dbsnp 注释(找到的snp是否在dbsnp数据库上)
    4) cosmic63 :癌症相关突变

    五、突变分析

    1)snv在个染色体上的分布
    2)各基因上snv的分布
    3)Snv位点较多的基因进行功能分析(pathway,kegg的通路分析和Go功能富集)

Comments are closed.