数据备份要追溯到五年前

五年前我做了一些ngs数据分析教程,当时是为了给学徒演示数据分析的基础概念,也录屏上传到了B站:

  • 免费视频课程《甲基化芯片数据分析》交流群组建通知
  • 免费视频课程《ChIP-seq数据分析》交流群组建通知
  • 免费视频课程《外显子测序数据分析》交流群组建通知
  • 免费视频课程《RNA-seq数据分析》交流群组建通知
    同时也顺手帮一些粉丝处理了他们的数据,都是非常简单的流程化数据处理,比对+定量或者peaks,其中一个项目到投稿了才找我重新帮他检查数据。因为有计算机资源,而且流程都是写好了,所以跑代码就是自动化即可。不过这次发现其中一个样品的peaks既然是空文件,从我的个人经验来看肯定不是什么诺奖级别的发现,大概率就是样品文件有问题而已。所以我回溯到bam文件看比对情况:
    回溯到bam文件看比对情况
    很明显这个 Ctrl_Sirt6样品比对失败,再次回溯就发现是fq文件的问题!所以我从我的100个硬盘里面找到了它,如下所示:
    8da0d75d1dbaf59a3760e4be6e8741c
    很明显应该是看看md5啦,现在的文件是有问题的,如下所示:
    现在的文件是有问题的
    而最开始的硬盘里面的文件,如下所示:
    最开始的硬盘里面的文件
    幸亏我找到了五年前的备份,要不然这个就很难收场了!不过,如果是仅仅是看文件大小,其实很难看出来:

    ls -lh Ctrl_Sirt*gz|cut -d" " -f 5-
    2.2G 7月 22 09:40 Ctrl_Sirt6_1.fq.gz
    2.5G 7月 22 09:41 Ctrl_Sirt6_2.fq.gz
    ls -l Ctrl_Sirt*gz|cut -d" " -f 5-
    2332386349 7月 22 09:40 Ctrl_Sirt6_1.fq.gz
    2637880209 7月 22 09:41 Ctrl_Sirt6_2.fq.gz
    $ ls -lh Ctrl_Sirt*gz|cut -d" " -f 5-
    2.2G Nov 22 2018 Ctrl_Sirt6_1.fq.gz
    2.5G Nov 22 2018 Ctrl_Sirt6_2.fq.gz
    $ ls -l Ctrl_Sirt*gz|cut -d" " -f 5-
    2332386349 Nov 22 2018 Ctrl_Sirt6_1.fq.gz
    2637880209 Nov 22 2018 Ctrl_Sirt6_2.fq.gz
    

    就非常奇怪,文件大小真的是没有任何的变化啊, 居然就fq文件不完整了。。。。
    就算是真的找不到了五年前或者说十年前的备份,其实也有其它解决办法!

 

Comments are closed.