25

EpiDISH-根据甲基化信号值推断样品的细胞成分

传统的甲基化信号值通常是芯片,比如illumina公司的27K,450K,850K的甲基化芯片,它们检查的通常是细胞混合物,比如绝大部分肿瘤组织样品其实是混合了上皮细胞,基质细胞和免疫细胞。如果我们感兴趣肿瘤组织的纯度,或者说肿瘤的免疫浸润情况,就可以使用同样的反卷积方法来。这个时候EpiDISH包就可以派上用场: Continue reading

25

使用gunzip命令的t参数检测fastq的gz文件完整度

前面我们发布了 明码标价之普通转录组上游分析,终于开始接单了,第一个项目介绍98个转录组测序数据的表达量获取,超级简单,就是耗费计算资源,500G的fastq数据文件,中间步骤加起来,起码耗费2个T的磁盘空间吧。

不过方便的地方就是都是现成的代码,首先参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件,批量下载fq文件,走过滤质控流程, 但是发现有3个居然失败了,如下所示:


$ ls -lh ../cleanData/*gz|grep trimmed
-rw-rw-r-- 1 jmzeng jmzeng 3.3G 3月 23 21:15 ../cleanData/SRR11652583_1_trimmed.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.6G 3月 23 21:31 ../cleanData/SRR11652583_2_trimmed.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G 3月 23 20:51 ../cleanData/SRR11652586_1_trimmed.fq.gz

初步猜测是网络问题,因为 使用ebi数据库直接下载fastq测序数据 , 就是有失败率,所以检查了fq文件完整度,代码如下所示 :


[3] Running gunzip -t SRR11652583_2.fastq.gz &
[4] Running gunzip -t SRR11652583_2.fastq.gz &
[5]- Running gunzip -t SRR11652586_1.fastq.gz &
[6]+ Running gunzip -t SRR11652586_2.fastq.gz &

结果真的发现:

gzip: SRR11652583_2.fastq.gz: invalid compressed data--format violated
gzip: SRR11652586_1.fastq.gz: unexpected end of file
gzip: SRR11652583_2.fastq.gz: invalid compressed data--format violated

所以需要首先删除这些不完整的文件:

rm SRR11652583_*
rm SRR11652586_*

然后重新下载它,但是发现这个时候呢,下载始终是吧,如下所示:

spera提示:
ascp: failed to authenticate, exiting.
Session Stop (Error: failed to authenticate)

其实这个是无解的, 所以只能说放弃 aspera高速下载了,反正就两三个样品,直接wget也行。