每次开展R语言线下学习班,都需要重新发几次:Windows电脑使用Rstudio会有多少错误呢,虽然大部分同学都是可以根据我们的教程顺利解决问题,但是不幸的人各有各的不幸。一般来说就是Windows电脑的中文用户名需要修改电脑系统的环境变量,R包下载等等。 Continue reading
Monthly Archives: 1月 2020
PCAWG计划-原发肿瘤的WGS数据整合分析
TCGA的Pan-Cancer早在2013就系统性提出来并且规划好了,见Nat. Genet. 2013 45:1113),因为TCGA计划涉及到数据类型比较多,仅仅是DNA层面就有WGS、WES、SNP6.0芯片的数据,其中一万多个病人里面有WGS数据的有两千多个病人,而PCAWG计划就是整合所有的WGS数据结果。 Continue reading
oligo包可以处理agilent芯片吗
在文献 J Natl Cancer Inst. 2018 Jul ;题目是:Intratumor Heterogeneity of the Estrogen Receptor and the Long-term Risk of Fatal Breast Cancer,看到该研究使用的是agilent表达芯片,老实说我其实不太喜欢这个公司的芯片,从数据分析的角度来说,因为其R包非常少。不过作为生信技能树,我们不得不全面建设不同类型数据分析流程,所以还是硬着头皮啃一下这个数据分析: Continue reading
Nanostring的表达矩阵分析也是大同小异
最近课题组的文献分享会议上有一篇文章里面的生存分析和差异分析吸引了我的注意,所以分开介绍一下,并给出了学徒任务,希望大家可以自行抽空完成。文章发表于July 25, 2019 的JCI杂志,标题是 STING activation reprograms tumor vasculatures and synergizes with VEGFR2 blockade Continue reading
M3Drop用法的修改
两年前我们介绍的用米氏方程解决单细胞转录组dropout现象的文章提出的那个算法,被包装到了R包,是:M3Drop ,文章最开始 2017年发表在biorxiv的是:Modelling dropouts for feature selection in scRNASeq experiments 后来(2019)published in Bioinformatics doi: 10.1093/bioinformatics/bty1044 ,而且整个包的使用方法发生了变化,值得记录和分享一下。 Continue reading
ncRNA芯片的一般分析流程
前面我们系统性的总结了circRNA的相关背景知识:
lncRNA芯片的探针到底该如何注释到基因组信息呢
昨天发布了 GEO数据库中国区镜像横空出世,粉丝们都很happy,因为确实解决了他们的一个拦路虎,以后下载GEO数据再也不用去网吧了。但是部分粉丝提出了更过分
的要求,说自己没有服务器,我以前的教程:(重磅!价值一千元的R代码送给你)芯片探针序列的基因组注释 他们跟随起来很困难,希望我随便把所有的gpl也注释一波提供给大家。 Continue reading
lncRNA的一些基础知识
前面我们系统性的总结了circRNA的相关背景知识:
lncRNA-seq的一般分析流程
前面我们系统性的总结了circRNA的相关背景知识:
limma和edgeR对RNA-seq表达矩阵差异分析的区别
前面我们在生信技能树系统性介绍了大量RNA-seq相关背景知识,以及表达矩阵分析的一般流程
infercnv输入文件的制作
有粉丝反映跟着我们的教程:使用inferCNV分析单细胞转录组中拷贝数变异 ,但是第一步3个输入文件就制作失败,值得单独写教程强调一下这个解决方案。当然了,如果你还卡在第一步安装R包,请看我昨天在生信菜鸟团的教程:有些R包是你的电脑操作系统缺东西,但也有一些不是 。然后就可以查看https://github.com/broadinstitute/inferCNV/wiki 的示例代码: Continue reading
hisat2会对多比对的reads随机输出一条吗?
序列的多比对情况大家都懂,因为NGS时代,序列都很短,也就是50-250bp范围,而且参考基因组本来就是会有很多低复杂度区域,那么我们的reads比对到参考基因组的多个区域,就很好理解了。 Continue reading
GSVA或者GSEA各种算法都是可以自定义基因集的
表达矩阵的标准分析通常是不够的,定位到成百上千个有统计学显著变化的差异表达基因后,同样是可以有成百上千个生物学功能注释(最出名的是GO功能和KEGG通路),普通的超几何分布检验已经不能满足大家多元化的分析了,所以就有了大家耳熟能详的GSEA分析,以及绝大部分人比较陌生的GSVA分析。 Continue reading
GPL平台的soft文件提供的注释信息到底准确吗
这个月初,我推出3个R包,
- 第一个是整合全部的bioconductor里面的芯片探针注释包。
- 第二个是整合全部GPL的soft文件里面的芯片探针注释包。
- 第三个是下载全部的GPL的soft文件里面的探针碱基序列比对后注释包。 Continue reading
GEO数据库中国区镜像横空出世
接收到太多的粉丝求助,想下载个表达矩阵做一下数据挖掘偏偏第一步就卡住了,数据文件下载半天毫无动静,或者下载到99%就卡死了。如果我恰好在电脑旁,通常会帮忙下载后微云或者百度云传递给粉丝,但这毕竟不是长久之计,经过个把月的不懈努力,我终于把全部的GEO数据库里面的表达芯片数据都下载并且全部格式化处理成为r数据文件,并且购置一个2万块钱的腾讯云服务器来存放它们,供广大粉丝使用! Continue reading
featureCounts结果对接DEXSeq
featureCounts我们粉丝都耳熟能详了,我们转录组流程介绍的对比对后的bam文件基于基因注释文件定量的首选软件,用法非常简单,关键是速度飞快,吊打htseq-counts几条街,而用DEXSeq分析可变剪切,外显子差异表达呢,我们以前也分享过用法,那个时候是使用示例的表达矩阵。 Continue reading
david跟R包注释差异浅析
一直听说Functional Annotation Tool DAVID Bioinformatics Resources 6.8, NIAID/NIH 是可以做GO/KEGG数据库注释的,只需要用户上传自己拿的的基因集就可以,大大的方便了生物学家对数据库的使用。 Continue reading
circRNA芯片分析的一般流程
虽然我一直讲解的GEO数据挖掘,都是基于mRNA这样的表达芯片,但实际上miRNA,lncRNA,甚至circRNA芯片也是大同小异的分析流程。 Continue reading
circRNA-seq分析的一般流程
前面我们已经介绍过circRNA的基础概念: 首先了解一下circRNA背景知识,背景知识,以及 circRNA芯片分析的一般流程,但是跟mRNA一样,不仅仅是芯片可以检测,也是可以使用NGS技术,就是circRNA-seq咯。 Continue reading
ChIPseq视频课程小作业
也许是一种缘分吧,现在我的视频教程里面,居然是表观调控相关内容最多,本来就有ChIP-seq数据处理和ATAC了,而且前两天还给大家发了表观调控整合教学视频: Continue reading