前面我们发布了 [明码标价之普通转录组上游分析](https://mp.weixin.qq.com/s? Continue reading
前面我们发布了 [明码标价之普通转录组上游分析](https://mp.weixin.qq.com/s? Continue reading
前面我们发布了 明码标价之普通转录组上游分析,终于开始接单了,第一个项目介绍98个转录组测序数据的表达量获取,超级简单,就是耗费计算资源,500G的fastq数据文件,中间步骤加起来,起码耗费2个T的磁盘空间吧。
不过方便的地方就是都是现成的代码,首先参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件,批量下载fq文件,走过滤质控流程, 但是发现有3个居然失败了,如下所示:
$ ls -lh ../cleanData/*gz|grep trimmed
-rw-rw-r-- 1 jmzeng jmzeng 3.3G 3月 23 21:15 ../cleanData/SRR11652583_1_trimmed.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.6G 3月 23 21:31 ../cleanData/SRR11652583_2_trimmed.fq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G 3月 23 20:51 ../cleanData/SRR11652586_1_trimmed.fq.gz
初步猜测是网络问题,因为 使用ebi数据库直接下载fastq测序数据 , 就是有失败率,所以检查了fq文件完整度,代码如下所示 :
[3] Running gunzip -t SRR11652583_2.fastq.gz &
[4] Running gunzip -t SRR11652583_2.fastq.gz &
[5]- Running gunzip -t SRR11652586_1.fastq.gz &
[6]+ Running gunzip -t SRR11652586_2.fastq.gz &
结果真的发现:
gzip: SRR11652583_2.fastq.gz: invalid compressed data--format violated
gzip: SRR11652586_1.fastq.gz: unexpected end of file
gzip: SRR11652583_2.fastq.gz: invalid compressed data--format violated
所以需要首先删除这些不完整的文件:
rm SRR11652583_*
rm SRR11652586_*
然后重新下载它,但是发现这个时候呢,下载始终是吧,如下所示:
spera提示:
ascp: failed to authenticate, exiting.
Session Stop (Error: failed to authenticate)
其实这个是无解的, 所以只能说放弃 aspera高速下载了,反正就两三个样品,直接wget也行。
在我们的单细胞交流群看到了这样的提问《singleR注释小鼠免疫细胞用哪个参考集效果比较好》: Continue reading
现如今,go或者kegg数据库富集已经是太平常不过的分析了。
绝大部分数据挖掘,不管是通过差异分析还是生存分析,都会拿到基因集,就可以进行这样的分析。 Continue reading
拿多个病人的多个样本进行单细胞转录组测序是非常正常的,比如下面的:
于2019年1月发表在《Immunity》杂志的文章,标题是:《Single-Cell RNA Sequencing of Microglia throughout the Mouse Lifespan and in the Injured Brain Reveals Complex Cell-State Changes》 Continue reading
有一个ABCD的生命科学领域划水套路很流行,就是A 基因通过 B 信号通路在 C疾病中发挥 D 功能。其它划水方式见: Continue reading
做了上百个单细胞转录组项目,发现绝大部分都是肿瘤研究,在教程 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这个第一次分群规则是 : Continue reading
我们分享过单细胞转录组下游的降维聚类分群的很多例子,比如:[人人都能学会的单细胞聚类分群注释] Continue reading
最近有粉丝在我b站的数据挖掘视频课程发弹幕吐槽我授课时候作为例子的火山图不怎么好看,希望我提高一下自己的神秘,课程是:三年前的数据挖掘课程(TNBC表达矩阵探索) Continue reading
最近在有粉丝求助,他的scATAC-seq数据的分析,使用 scATAC pro 这个软件得到 cluster 里面的细胞类型好少。 Continue reading
看到一个临床wgs应用的文献速递,《Genome Sequencing as an Alternative to Cytogenetic Analysis in Myeloid Cancers》,链接是:https://pubmed.ncbi.nlm.nih.gov/33704937/ Continue reading
最近在更新一个R包的时候,发生了如下所示的报错:
一个学徒跟着我做了七十多个转录组项目了,但是一直不能理解,凭什么这样的高通量筛选就能定位到具体的一两个基因。 Continue reading
是我太年轻
学员群有咨询 Agilent-038314 CBC Homo sapiens lncRNA + mRNA microarray V2.0 这个表达量芯片的数据处理问题,当然了,主要是芯片的探针ID对应基因名字的问题。 链接是; Continue reading
前面我带领大家通过IMGT数据库认知免疫组库,而且也一起[从IMGT数据库下载免疫组库相关fasta序列] Continue reading
最近在整理新冠疫情相关的单细胞文章,尤其是那些提供了数据集的而且还有配套GitHub代码的,超级棒的学习资料。 Continue reading
今天在《共享服务器第27个群》看到有粉丝提问,说他跑cibersort的时候,R代码运行超级慢,需要一些加速技巧。 Continue reading