给学徒布置任务,根据我的教程使用salmon流程走一波airway这个转录组数据集,很快就出了结果,为了检查他数据处理的结果准确性,就把我两年前跑的结果给到他,然后让比较一下两个表达矩阵的相关性,结果出乎我意料! Continue reading
Monthly Archives: 1月 2020
公共数据库告诉你为什么在癌症里面研究CD24
免疫检查点抑制剂是现在临床和科研热点,其中免疫检查点基因通过双信号机制调控肿瘤微环境中最主要的免疫细胞,T淋巴细胞的免疫应答活性而发挥作用。这些分子主要分为两类:
- 一类是免疫球蛋白(immune globulin, Ig)超家族
- 另一类是肿瘤坏死因子(tumor necrosis factor,TNF)配体/受体对。 Continue reading
为什么我一行代码就可以完成3个R包的RNA-seq差异分析呢
在教师节收到学生的提问,刷我B站74小时视频的时候看到我演示了RNA-seq差异分析只用了一行代码就完成了3大R包的全部分析,并且输出了对应的图表结果,觉得很神奇,但是B站视频并没有配套讲义和代码还有测试数据。 Continue reading
外国的生信技能树转录组教程
同样是写教程,特别羡慕英语为母语国家的知识分享者,写出来的教程很容易变成SCI文章,比如我一直大力推崇的Griffith两兄弟(Obi and Malachi Griffith),他们就把转录组数据处理教程发表了: Obi L. Griffith . 2015. Informatics for RNA-seq: A web resource for analysis on the cloud. PLoS Comp Biol. 而且一直在持续更新! Continue reading
听说aspera下载会失败
在国内做数据分析本来就不容易,SRA数据库自带的prefetch基本上是形如虚设,下载速度比乌龟爬行就快那么一点点,所以不得不求助IBM的aspera加速器。
首先下载软件
老规矩,conda解决一切依赖 Continue reading
双重高斯分布拟合
高斯分布在自然界非常常见,中心极限定理很好的说明了它,但事情往往不是那么地纯粹,很多时候我们得到的结果里面会混入两个截然不同的样本数据集,虽然它们各自都是高斯分布,但是它们的均值和方差都不一样,如果拿到的是它们的混合数据,就不能简单的使用一个高斯拟合来处理它了。 Continue reading
使用SNFtool包整合多组学数据进行病人分组
大家都喜欢整合多组学数据,实际上目前大多数研究都是拿其中一种组学数据来对样本进行分类,然后查看病人分组后另外一种组学的差异情况。再其次,就是整合多组学数据对样本统一分组。
案例介绍
看到文章 Integrative analysis of the inter-tumoral heterogeneity of triple-negative breast cancer 针对137个TNBC病人的3种数据,进行挑选后,各自进入NMF聚类:
Continue reading
使用scran包的MNN算法来去除多个单细胞转录组数据批次效应
多个样本单细胞转录组数据整合算法以 mutual nearest neighbors (MNNs)和canonical correlation analysis (CCA) 最为出名,见 详细介绍多个单细胞转录组样本的数据整合之CCA-Seurat包 Continue reading
使用R包下载TCGA全部癌症的somatic突变信息
半年前我就系统性的介绍过:TCGA的pan-caner资料大全(以后挖掘TCGA数据库就用它) 还专门指出了癌症的somatic突变的maf文件问题:TCGA数据库maf突变资料官方大全 Continue reading
使用bowtie2和samblaster一步到位的干净比对
bowtie2
以前都是和samtools组合,如下:
bowtie2 -x $index -U $id | samtools sort -@ 4 -o $sample.bam -
运行速度很慢,现在有高效工具啦,比如sambamba主要有filter,merge,slice和duplicate等七个功能来处理sam/bam文件,几乎可以替代 samtools啦,不过,这里要着重介绍的是samblaster Continue reading
生信技能树超级VIP入场券发放
生信技能树超级VIP入场券发放(人民币一万起)
作为全网第一个全栈生信工程师,史上最大中文生物信息学交流社区-生信技能树联盟的创始人- Jimmy, 在这里第二次郑重宣布: 招学徒!
学徒培养模式已经走过了一个年头,期间约20名学徒成功出师: Continue reading
生信分析人员如何系统入门R(2019更新版)
五年前作为一个初出茅庐的菜鸟生信工程师苦于没有专业交流社群,遂自建了生信菜鸟团QQ群和博客,一点一滴积累了数万人气,进而和若干圈内好友组建了生信技能树联盟,三年前的直播生物信息学编程活动细节还历历在目,QQ群微信群记账录制视频忙的不亦乐乎,因此产生了编程语言系统入门系列教程,如下: Continue reading
生信分析人员如何系统入门Linux(2019更新版)
前面我更新了针对生信工程师R语言入门指南,见:生信分析人员如何系统入门R(2019更新版) ,广受好评,反响热烈,趁热打铁我应该把剩余的3个知识点也认真系统更新一下,恰好昨天授课讲解的就是linux学习路线图! Continue reading
生物信息学知识体系的建立实习生招募
我们公众号一直在给朋友(研究单位课题组或者公司都有)做宣传,有需要实习生,工程师的,博士后的,是时候给我们生信技能树自己宣传一波了:
详细介绍链接:https://mp.weixin.qq.com/s/7oC0NnHk34DqG7eHqITzUQ Continue reading
生存分析时间点问题
以前下载TCGA数据,喜欢使用UCSC的XENA数据库, 全部数据在:https://xenabrowser.net/datapages/ 这个时候有两个数据源,需要区分开来;
- GDC TCGA Breast Cancer (BRCA)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443) (18 datasets) 09-15-2017
- TCGA Breast Cancer (BRCA)&removeHub=https%3A%2F%2Fxena.treehouse.gi.ucsc.edu%3A443) (30 datasets) 2016-04-27 Continue reading
如果miRNA的3p和5p功能不一样
看到发表在19 July 2019的文章Strand-specific miR-28-3p and miR-28-5p have differential effects on nasopharyngeal cancer cells proliferation, apoptosis, migration and invasion,全文提供实验验证了miR-28-3p and miR-28-5p的生物学功能不一样。 Continue reading
如果这样问问题大家可能会帮助我
有同学提问,遇到下面的报错,但是网上其他朋友都可以顺利运行,为什么单单是她报错呢?
我觉得这并不是一个好的提问方式,所以用这个例子,来演示如何是一个好的提问。 Continue reading
如果这个包真的不存在肿么办
有学员看了我们的甲基化芯片教程(大概是两年前),想跟着代码来跑自己的数据,但是卡在安装R包上面,就是一个很简单的注释包(IlluminaHumanMethylation450k.db),注释我们甲基化芯片设计的探针到对应的基因组坐标。 Continue reading
全网第一个单细胞课程(基础)满一千份销量停止发售
全网第二个单细胞视频课程预售
你知道吗?每个月都有一百万单细胞被测序!
Google Data显示,7月份的单细胞研究细胞数是1,099,630。利用单细胞测序技术解析一个物种的单细胞图谱、动态变化过程,是当前研究热点之一。 超高通量单细胞多组学将是未来几年的技术开发和应用热点之一。