同样是写教程,特别羡慕英语为母语国家的知识分享者,写出来的教程很容易变成SCI文章,比如我一直大力推崇的Griffith两兄弟(Obi and Malachi Griffith),他们就把转录组数据处理教程发表了: Obi L. Griffith . 2015. Informatics for RNA-seq: A web resource for analysis on the cloud. PLoS Comp Biol. 而且一直在持续更新! Continue reading
Daily Archives: 2020年1月17日
听说aspera下载会失败
在国内做数据分析本来就不容易,SRA数据库自带的prefetch基本上是形如虚设,下载速度比乌龟爬行就快那么一点点,所以不得不求助IBM的aspera加速器。
首先下载软件
老规矩,conda解决一切依赖 Continue reading
双重高斯分布拟合
高斯分布在自然界非常常见,中心极限定理很好的说明了它,但事情往往不是那么地纯粹,很多时候我们得到的结果里面会混入两个截然不同的样本数据集,虽然它们各自都是高斯分布,但是它们的均值和方差都不一样,如果拿到的是它们的混合数据,就不能简单的使用一个高斯拟合来处理它了。 Continue reading
使用SNFtool包整合多组学数据进行病人分组
大家都喜欢整合多组学数据,实际上目前大多数研究都是拿其中一种组学数据来对样本进行分类,然后查看病人分组后另外一种组学的差异情况。再其次,就是整合多组学数据对样本统一分组。
案例介绍
看到文章 Integrative analysis of the inter-tumoral heterogeneity of triple-negative breast cancer 针对137个TNBC病人的3种数据,进行挑选后,各自进入NMF聚类:
Continue reading
使用scran包的MNN算法来去除多个单细胞转录组数据批次效应
多个样本单细胞转录组数据整合算法以 mutual nearest neighbors (MNNs)和canonical correlation analysis (CCA) 最为出名,见 详细介绍多个单细胞转录组样本的数据整合之CCA-Seurat包 Continue reading
使用R包下载TCGA全部癌症的somatic突变信息
半年前我就系统性的介绍过:TCGA的pan-caner资料大全(以后挖掘TCGA数据库就用它) 还专门指出了癌症的somatic突变的maf文件问题:TCGA数据库maf突变资料官方大全 Continue reading
使用bowtie2和samblaster一步到位的干净比对
bowtie2
以前都是和samtools组合,如下:
bowtie2 -x $index -U $id | samtools sort -@ 4 -o $sample.bam -
运行速度很慢,现在有高效工具啦,比如sambamba主要有filter,merge,slice和duplicate等七个功能来处理sam/bam文件,几乎可以替代 samtools啦,不过,这里要着重介绍的是samblaster Continue reading