在国内做数据分析本来就不容易,SRA数据库自带的prefetch基本上是形如虚设,下载速度比乌龟爬行就快那么一点点,所以不得不求助IBM的aspera加速器。
首先下载软件
老规矩,conda解决一切依赖 Continue reading
在国内做数据分析本来就不容易,SRA数据库自带的prefetch基本上是形如虚设,下载速度比乌龟爬行就快那么一点点,所以不得不求助IBM的aspera加速器。
老规矩,conda解决一切依赖 Continue reading
高斯分布在自然界非常常见,中心极限定理很好的说明了它,但事情往往不是那么地纯粹,很多时候我们得到的结果里面会混入两个截然不同的样本数据集,虽然它们各自都是高斯分布,但是它们的均值和方差都不一样,如果拿到的是它们的混合数据,就不能简单的使用一个高斯拟合来处理它了。 Continue reading
大家都喜欢整合多组学数据,实际上目前大多数研究都是拿其中一种组学数据来对样本进行分类,然后查看病人分组后另外一种组学的差异情况。再其次,就是整合多组学数据对样本统一分组。
看到文章 Integrative analysis of the inter-tumoral heterogeneity of triple-negative breast cancer 针对137个TNBC病人的3种数据,进行挑选后,各自进入NMF聚类:
Continue reading
多个样本单细胞转录组数据整合算法以 mutual nearest neighbors (MNNs)和canonical correlation analysis (CCA) 最为出名,见 详细介绍多个单细胞转录组样本的数据整合之CCA-Seurat包 Continue reading
半年前我就系统性的介绍过:TCGA的pan-caner资料大全(以后挖掘TCGA数据库就用它) 还专门指出了癌症的somatic突变的maf文件问题:TCGA数据库maf突变资料官方大全 Continue reading
bowtie2
以前都是和samtools组合,如下:
bowtie2 -x $index -U $id | samtools sort -@ 4 -o $sample.bam -
运行速度很慢,现在有高效工具啦,比如sambamba主要有filter,merge,slice和duplicate等七个功能来处理sam/bam文件,几乎可以替代 samtools啦,不过,这里要着重介绍的是samblaster Continue reading
生信技能树超级VIP入场券发放(人民币一万起)
作为全网第一个全栈生信工程师,史上最大中文生物信息学交流社区-生信技能树联盟的创始人- Jimmy, 在这里第二次郑重宣布: 招学徒!
学徒培养模式已经走过了一个年头,期间约20名学徒成功出师: Continue reading
五年前作为一个初出茅庐的菜鸟生信工程师苦于没有专业交流社群,遂自建了生信菜鸟团QQ群和博客,一点一滴积累了数万人气,进而和若干圈内好友组建了生信技能树联盟,三年前的直播生物信息学编程活动细节还历历在目,QQ群微信群记账录制视频忙的不亦乐乎,因此产生了编程语言系统入门系列教程,如下: Continue reading
前面我更新了针对生信工程师R语言入门指南,见:生信分析人员如何系统入门R(2019更新版) ,广受好评,反响热烈,趁热打铁我应该把剩余的3个知识点也认真系统更新一下,恰好昨天授课讲解的就是linux学习路线图! Continue reading
我们公众号一直在给朋友(研究单位课题组或者公司都有)做宣传,有需要实习生,工程师的,博士后的,是时候给我们生信技能树自己宣传一波了:
详细介绍链接:https://mp.weixin.qq.com/s/7oC0NnHk34DqG7eHqITzUQ Continue reading
以前下载TCGA数据,喜欢使用UCSC的XENA数据库, 全部数据在:https://xenabrowser.net/datapages/ 这个时候有两个数据源,需要区分开来;
看到发表在19 July 2019的文章Strand-specific miR-28-3p and miR-28-5p have differential effects on nasopharyngeal cancer cells proliferation, apoptosis, migration and invasion,全文提供实验验证了miR-28-3p and miR-28-5p的生物学功能不一样。 Continue reading
有同学提问,遇到下面的报错,但是网上其他朋友都可以顺利运行,为什么单单是她报错呢?
我觉得这并不是一个好的提问方式,所以用这个例子,来演示如何是一个好的提问。 Continue reading
有学员看了我们的甲基化芯片教程(大概是两年前),想跟着代码来跑自己的数据,但是卡在安装R包上面,就是一个很简单的注释包(IlluminaHumanMethylation450k.db),注释我们甲基化芯片设计的探针到对应的基因组坐标。 Continue reading
你知道吗?每个月都有一百万单细胞被测序!
Google Data显示,7月份的单细胞研究细胞数是1,099,630。利用单细胞测序技术解析一个物种的单细胞图谱、动态变化过程,是当前研究热点之一。 超高通量单细胞多组学将是未来几年的技术开发和应用热点之一。
众所周知,单细胞水平的研究目前主要集中在发育,免疫和癌症方向,但是哪一个细分领域的CNS文章更多呢?感兴趣的朋友可以通过文本挖掘追踪最新文献,进行统计。刚才看到单细胞天地群朋友分享了2019的两篇文章,分别是七月nature的海鞘,和九月science的线虫,都是发育方向的。
从单细胞转录组数据分析的角度来说,大部分图表均可复现,但是生物学背景这一块就很头疼了,太多的专有名词。 Continue reading
看过单细胞水平的癌症研究的朋友都应该是对下面这幅图不陌生:
可以很清晰的看到,多个病人的单细胞可以分成恶性的上皮细胞和非恶性的肿瘤微环境,微环境的那些细胞可以聚集成为很多类,而且每个类别的细胞都是来源于不同病人的。
但是呢,对于那些肿瘤恶性细胞,也是聚集为很多类别,但基本上每个类别都是一个单独的病人来源。 Continue reading
VIM作为一款老牌编辑器,其功能强大、高度可定制,可以说是经久不衰,可以搜索到非常多的教程,如下:
其中,如何退出VIM编辑器,也成为了一个老大难问题,让无数新手敬而远之,而且还需要专门写教程,针对如何退出编辑器。 Continue reading
我一直强调过,所谓的单细胞数据分析,其实就5个R包,分别是: scater,monocle,Seurat,scran,M3Drop 需要熟练掌握它们的对象,:一些单细胞转录组R包的对象 分析流程过一遍 Continue reading