认识免疫组库测序数据

前面我带领大家通过IMGT数据库认知免疫组库,而且也一起从IMGT数据库下载免疫组库相关fasta序列,免疫组库重要的研究对象就是分成BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。
已经预告了有一个免疫组库的实战,现在终于有时间来带领大家搞定它。

  • 来自于文章;https://www.tandfonline.com/doi/full/10.1080/2162402X.2019.1644110
  • 数据:https://www.ncbi.nlm.nih.gov/bioproject/PRJEB33490
    首先研读文献,并且找到其测序数据文件存放的数据库,并且成功下载到!
    完成这个数据下载,需要熟悉GEO和SRA数据库,参考:
  • 解读GEO数据存放规律及下载,一文就够
  • 解读SRA数据库规律一文就够
  • 使用ebi数据库直接下载fastq测序数据
    下载得到的fastq.gz 文件,如下所示:

    7.8M May 23 09:43 ERR3445007_1.fastq.gz
    11M May 23 09:43 ERR3445007_2.fastq.gz
    9.8M May 23 09:43 ERR3445008_1.fastq.gz
    14M May 23 09:43 ERR3445008_2.fastq.gz
    7.0M May 23 09:44 ERR3445009_1.fastq.gz
    10M May 23 09:44 ERR3445009_2.fastq.gz
    7.2M May 23 09:44 ERR3445010_1.fastq.gz
    9.3M May 23 09:44 ERR3445010_2.fastq.gz
    

    我们简单的批量走一下fastqc软件质控:

    ls raw/*gz|xargs fastqc -t 6 -o qc/
    

    因为数据量都很小,所以几分钟就ok啦。那我们随机挑选一个样本的fastqc报告看看吧:

    首先看summary表格

    如下:
    summary表格
    可以看到,单独的免疫组库样本测序数据库很小,还不到10万条序列,跟10X的单细胞有的一拼哦,正常人类的转录组都是20~50M的。。。
    而且这个测序程度高达300,那就是miseq测序仪啦。

    reads的每个碱基位置的测序质量分布

    reads的长度是300bp,所以横坐标是1到300,纵坐标是碱基质量值,通常是20或者30以上比较好。如下:
    reads的每个碱基位置的测序质量分布
    可以看到, 随着reads的碱基数量增加,后面的碱基测序质量越来越差,符合测序仪的实际情况。。。。
    末端那些质量差的碱基,在我们的测序数据质控阶段,会控制软件和参数去除掉它们的哈。

    每个碱基位置的GC含量分布

    reads的长度是300bp,所以横坐标是1到300,GC含量如果是全基因组测序,那么应该是一条线。但是这个免疫组库测序,下面图虽然说被fastqc软件判定为不合格,但实际上对免疫组库测序来说,是合格的哈。如下:
    每个碱基位置的GC含量分布

    有非常多的重复序列

    这个其实你自己从IMGT数据库下载免疫组库相关fasta序列,探索一下就明白了。因为本来测序的就是BCR的IGH,IGK,IGL这3类,以及TCR的TRA,TRB,TRD,TRG,它们各自都有V,D(可选),J,C基因。这些不同的V基因其实很类似,J基因也是非常类似,所以都是重复序列就对了。如下:
    重复序列

    miseq测序仪的300bp的双端测序质控步骤

    参考发表在Front. Immunol., 30 April 2019的综述:The Pipeline Repertoire for Ig-Seq Analysis

  • 文章链接:https://www.frontiersin.org/articles/10.3389/fimmu.2019.00899/full
    免疫组库质控
    其中双端测序的reads合并也是有一系列软件可以实现。

    下游分析

    数据分析大纲如下:

  • 测序数据评估与过滤;
  • 不同种类V,D/J基因的数目、频率统计;
  • 不同种类V-J组合(气泡图)和V-D-J组合(桑基图)的数目、频率统计;
  • V基因、J基因、V-J组合、V-D-J组合的组间差异比较(火山图);
  • CDR3氨基酸克隆型的数目、频率、长度统计;
  • 基于CDR3氨基酸克隆型频率的样本间相似性评估;
  • CDR3氨基酸克隆型的多样性分析,包括Gini、Simpson、Shannon、Rank Abundance;
  • CDR3氨基酸克隆型差异表达分析;
  • 样本间共有CDR3氨基酸克隆分析;

    免疫组库交流群

    我们的拉群小助手会协助大家进入一个免疫组库数据分析交流群哈, 跟我们之前的其它群类似:

  • 一个甲基化芯片信号值矩阵差异分析的标准代码
  • 购买入门级服务器免费送Linux直播培训服务
  • lncRNA-seq数据分析之新lncRNA鉴定和注释视频课程众筹
  • 构建miRNA-seq数据分析环境
    还是老规矩,18.8元进群,一个简单的门槛,隔绝那些营销号!同时,我们也会在群里共享一些免疫组库数据分析相关资料,仅此而已,考虑清楚哦!

Comments are closed.