基因名很奇怪就对了

最近参加我们生信爆款入门和数据挖掘课程的学员反复咨询一个基因ID问题,就是为什么得到的结果基因名字那么奇怪(全部以LINC开头),而且ID进行转换时候,经常是50%左右的成功率,如果你也有这个疑问,那么恭喜你,看完这个教程,你肯定就懂了!

我通常会建议大家搜索我以前的1.3万篇教程

首先生信技能树公众号置顶是必须滴,这样才方便追我们的教程:https://mp.weixin.qq.com/s/PKjcdp8Q15K1CRSZmOFxvA 对于喜欢的公众号不置顶,等价于不关注!
其次要学会在技能树公众号历史教程里面根据关键词查询:https://mp.weixin.qq.com/s/TQqKlNRRbSYPM74D7mflsg 基本上初学者问题都有解决方案
最后可以使用微信读书十秒收集技能树公众号全部文章,https://mp.weixin.qq.com/s/SkavtufhshzgVA0fl19eAg
这个问题的关键词是:奇怪的基因名字,就可以看到教程:有趣的基因命名
搜索奇怪的基因名字
这样的基因很多!

  • C12orf44; Chromosome 12 Open Reading Frame 44; 这个是Corf系列基因的意思
  • MIR系列基因应该是 miRNA相关的基因
  • LINC系列基因应该就是long intergenic non-protein coding RNA
  • OC系列基因,是非正式的,推定的,日后可能被更合适的名字替代
    还有一些RNA基因,根本就没有symbol,比如:CTA/B/C/D-系列的
  • Aliases for ENSG00000271971 Gene
  • CTD-2006H14.2 5
  • External Ids for ENSG00000271971 Gene
  • Ensembl: ENSG00000271971
    有趣的是学员看完这个教程,发出的感叹是:

    我在ucsc下载的HTseq count数据,没想到还有lincRNA?一直以为全是mRNA。接下来如果要进行kegg和go要把这些剔除吗?。。
    这个其实是分子生物学基础知识不过关,而且对GO/KEGG这样的功能数据库了解不够透彻!如果你还不知道我们生信爆款入门和数据挖掘课程,那么就需要注意了:

  • 全国巡讲全球听(买一得五)第3期(4月6日开始) ,你的生物信息学入门课。
  • 数据挖掘线上班来袭(两天变三周,实力加量),医学生/医生首选技能提高课。

    那么为什么基因ID转换失败率那么高呢?

    同样的,学员使用org.Hs.eg.db这个包只能注释到20k的基因名字,50k注释只能注释到20k,感觉遗漏了很多!
    其实这个感觉是对的,org.Hs.egENSEMBL2EG和 org.Hs.egSYMBOL中的数据源本来就对非编码蛋白基因支持不是很好!从命名上应该很好理解,前者是ensembl id和gene id的对应关系,后者是gene id和gene symbol的对应关系。最后整理下获得跟上述一样的ensembl id和gene symbol的对应关系。其实也就是NCBI的ftp里面获得ensembl id与gene symbol的对应关系文件。首先两个文件的下载地址:ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/,接着从这两个文件中分别提取人类(taxid:9606)的gene id,ensembl id,gene symbol等信息。

    一个思考题

    有一些基因的名字里面有短横线,你可以去探索一下吗?
    基因的名字里面有短横线
    反正都是看起来就很奇怪的:
    两万多个基因名字有短横线

    文末友情宣传

    强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

  • 全国巡讲全球听(买一得五)第3期(4月6日开始) ,你的生物信息学入门课。
  • 数据挖掘线上班来袭(两天变三周,实力加量),医学生/医生首选技能提高课。
  • 生信技能树的2019年终总结 ,你的生物信息学成长宝藏
  • 2020学习主旋律,B站74小时免费教学视频为你领路

Comments are closed.