新物种的基因组组装的冷暖自知

最近有一些朋友咨询新物种的基因组组装相关数据分析,我其实是七年前有参与过一点点啦,是大黄鱼等基因组,好像还是什么973项目,那个时候基因组都是cns级别文章。但是自从离开北京后一直做的都是人类疾病,尤其是癌症领域的数据分析,没有把新物种的基因组组装相关数据分析捡起来。

### 新物种的基因组组装都是大文章?不存在

我在 https://www.x-mol.com/paper/chem 看到了超级多新物种的基因组组装文章,绝大部分都是发表在5分附件的杂志而已 :

  • Long-read sequencing and de novo genome assembly of marine medaka (Oryzias melastigma).
    BMC Genomics (IF 3.594) Pub Date : 2020-09-16 ,DOI:10.1186/s12864-020-07042-7
  • De novo Genome Assembly of the indica Rice Variety IR64 Using Linked-Read Sequencing and Nanopore Sequencing.
    G3: Genes, Genomes, Genetics (IF 2.63) Pub Date : 2020-05-04 ,DOI:10.1534/g3.119.400871
  • High Contiguity De Novo Genome Sequence Assembly of Trifoliate Yam (Dioscorea dumetorum) Using Long Read Sequencing.
    Genes (IF 3.759) Pub Date : 2020-03-04 ,DOI:10.3390/genes11030274
  • Nanopore Sequencing and De Novo Assembly of a Black-Shelled Pacific Oyster (Crassostrea gigas) Genome.
    Frontiers in Genetics (IF 3.258) Pub Date : 2019-11-22 ,DOI:10.3389/fgene.2019.01211

抓住这个de novo genome assembly关键词可以系统性调研一下这个方向的研究结果,可以看到这些新物种的基因组组装都是类似的研究策略和分析策略:

  • 首次对北方盲肠物种进行了从头基因组组装和注释,并在本研究中进行了介绍。
  • 北极曲霉基因组装配包含〜68 Mbp,并且分别与ostoyae和mellea基因组的〜60和〜79.5 Mbp相当。
  • 重叠群的N50等于50,544 bp。
  • 功能注释分析揭示了21,969个蛋白质编码基因,并为进一步的比较分析提供了数据。
  • 还鉴定出重复序列。进一步研究和比较分析的主要重点将在于与致病性相关的酶和调节因子。

CNS也不是不可以

看到朋友圈新闻:2021年1月nature发文公布澳大利亚肺鱼的基因组,达到了43Gb。文章是Giant lungfish genome elucidates the conquest of land by vertebrates. Nature (2021). https://doi.org/10.1038/s41586-021-03198-8

image-20210202112841657

作者使用nanopore测序仪测了1.2Tb的三代测序数据,并使用illumina测序仪测了1.4Tb的DNA数据和499.8Gb的RNA数据进行数据纠错。组装得到了37Gb,N50达到1.86Mb的contigs,另外还测了271Gb的Hi-C(PE250)用来进行染色体定位,最终使基因组达到了染色体水平。

如果你感兴趣这方面课程

详见:基于python的基因组组装课程

Comments are closed.