对新冠病毒核酸序列构建系统进化树

今天在群里看到一个提问,很有趣,好像是有一个网页工具可以把fastq格式转为phylip格式。我虽然没有使用过这个软件,但是我觉得这个提问,可能是忽略了计算过程,直接说结果。应该是问题本身就错误的。
image-20200307101640806
我们四年前就系统性整理过生信基础知识名词本,其中就有数据格式专题,目录如下:

  • 1.FastQ和FastA格式
  • 2.SAM格式
  • 3.gff/gtf格式
  • 4.Bigwig/Wiggle格式
  • 5.bed格式
  • 6.vcf格式
  • 7.Blast&Blat
    虽然没有phylip格式,但是如果你理解了格式,就知道,其实无非就是软件开发者定义好的规则。我以前分享过HPV的病毒进化树,可以把这个当做是学徒作业了。

    https://bigd.big.ac.cn/ncov

    国家生物信息中心
    2019新型冠状病毒信息库 (2019nCoVR)
    大机构大组织做的很全面:
    image-20200307101759881
    不仅仅是有热点病毒序列,甚至有全部的冠状病毒信息,下面是网页公布的一些信息

  • 新增来源于GenBank,GISAID的11条基因组序列。(2020.03.06)
  • 对146条人源新冠病毒全基因组序列进行质控分析,发现有1条序列有多个Ns和简并碱基,2条序列有多个Gaps,2条序列的变异数量较多,6条序列的变异有密集分布区。
  • 基于142条高质量人源新冠病毒全基因组序列变异分析,共鉴定224个变异(115个使氨基酸发生变化),根据群体发生率和变异分布进行变异分级(I-III,详见变异注释表)。
  • 基于原始测序数据,对新冠病毒Wuhan-Hu-1毒株进行基因组拼接,序列比较和共线性分析显示两者序列完全一致,进一步确认该毒株基因组序列NC_045512.2的准确性。
  • 2019新型冠状病毒信息库在《遗传》期刊在线发表。
  • 由中国医学科学院病原生物学研究所提交的5株2019新型冠状病毒全基因组序列已经通过国家生物信息中心/国家基因组科学数据中心与NCBI共享,序列号为MT019529~MT019533。
    机构对这些序列进行了一些探索,绘制了两个典型的图,如下:

    病毒基因组单倍型网络

    这个图没有看出来是怎么制作的,多序列比对可能不够,看起来应该是固定一个病毒序列为参考基因组,然后所有的其它地方检测到的病毒也进行测序后,比对到我们人为规定的参考基因组上面,看变异位点哦。
    image-20200307102047032
    一般来说,其它地方检测到的病毒基因组变异位点都是在个位数这样的数量级,因为病毒进化是有速度的。

    系统发生树

    这个就比较常规了,如果只有Windows电脑的,使用mega就足够了
    image-20200307102125154
    如果有Linux操作系统,可以参考我以前的博客:

  • http://www.bio-info-trainee.com/659.html Muscle进行多序列比对
  • http://www.bio-info-trainee.com/626.html 用phyML对多重比对phy文件来构建进化树
    因为确实不做这方面研究,这个探索性课题,就留给我的学徒吧!

    文末友情宣传

    强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

  • 全国巡讲全球听(买一得五),第二期 ,你的生物信息学入门课
  • 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
  • 2020学习主旋律,B站74小时免费教学视频为你领路

Comments are closed.