相信遇到这样的问题的朋友不在少数,在中国大陆做数据分析,下载软件数据文件遇到困难那是家常便饭。
比如安装GitHub的R包,因为并不是所有的R包都会被正式的发布在CRAN或者bioconductor,所以对于简简单单分享在GitHub的R包一般我们搜索到如下代码: Continue reading
Monthly Archives: 1月 2020
30G的芯片数据怎么下载呢
最近接到学徒求助,在广州,导师给了她分析cnv芯片的任务,调研文献发现,数据集很可怕,30G的芯片数据感觉下到猴年马月都不一定能成功! Continue reading
Untitled
发表在免疫杂志October 2013,的文章Spatiotemporal Dynamics of Intratumoral Immune Cells Reveal the Immune Landscape in Human Cancer 根据公共数据库的 28 cell types ,定下来了 Five hundred seventy-seven cell-type-specific genes (681 Affymetrix probes) 。 Continue reading
8个CRC病人的多位点取样单细胞转录组数据分析建议
每个病人 5个以上的样品,每个样品是 SMART-SEQ2测序,约100个细胞左右。
第一个分析,CNV
搜索一下对SMART-SEQ2测序数据做CNV分析,绘制如下CNV全景图。 Continue reading
1折优惠征稿期又来啦
距离上一次我们生信技能树公开征稿已经过去一年半啦,见:生信技能树征稿启事 ,那个时候还在庆贺公众号粉丝数突破两万人大关,因为入场晚,所以那个时候还需要参加同领域各种排名。现在不一样了,技能树是众所周知的生物信息学领域第一,当之无愧的流量当担! Continue reading
R语言代码相关标准提问
关于如何提问,如何高效沟通,其实我们讲解非常多了,比如我一直推崇的邮件交流:如果你希望我回答你的问题 ,然后也会随机抽取粉丝提问进行解答:答读者问第一弹:R里面差异分析的limma包用法细节 。 也高度赞扬郭一些提问交流的模式,比如:求助:Zotero中添加Markdown插件失败 Continue reading
R包升级与降级
关于R语言本身的升级与降级我们多次写教程阐述了,其实在Windows和MAC都是可以多个R版本共存的,Linux那就更不用说了,一切皆文件,想存放多少就可以多少。它们只不过是把谁放在环境变量罢了的问题,优先使用哪个的问题。 Continue reading
R包降级也不全是那么简单
昨天写了,以为大家都可以很轻松做到,发现其实只是自己随心所欲罢了,第一因为自己的Mac电脑,其次因为自己看得懂R的提示,说缺依赖包,所以需要手动安装一些依赖包。
如果是Windows用户,会有一个make缺失这样的错误,如下: Continue reading
nature文章也要挖掘单细胞公共数据
我列过一个生物信息学入门200篇NGS文献解读计划,其中一个文献是发表于2018的NC,标题是:Unravelling subclonal heterogeneity and aggressive disease states in TNBC through single-cell RNA-seq 对6个TNBC病人
总共测了 超过1500个单细胞 ,质控后还剩下1189个单细胞进入下游分析。使用的是FACS加上Smart-seq2 ,非常中规中矩的分析,所以就发了同样中规中矩的NC。 Continue reading
KM生存曲线经logRNA检验后也可以计算HR值
最近根据基因表达量对病人进行分组后,使用KM生存分析的logRNAK法来检查两个组的病人的生存差异,得到了如下的图: Continue reading
HTA2.0芯片比较麻烦
表达芯片数据处理教程,早在2016年我就系统性整理了发布在生信菜鸟团博客:http://www.bio-info-trainee.com/2087.html 配套教学视频在B站:https://www.bilibili.com/video/av26731585/ 代码都在:https://github.com/jmzeng1314/GEO 早期目录如下: Continue reading
GEO和GitHub下载神器
大家都知道,我GitHub的各个项目代码基本上都是待发表的文章,比如我3年前的WGCNA的教程, 有人拿去发文章了 , 是不是很有趣,https://github.com/jmzeng1314/my_WGCNA
CRC稳定的分子分型
做乳腺癌研究的都是知道PAM50分型,以及TNBC内部继续各种算法分子亚型划分的,最近看到CRC的研究,分型就简单很多,最出名的应该是下面这个: Continue reading
最受科学家欢迎的3个统计学方法
也许时间是一切问题的答案。
《自然》杂志2014年10月评出的最重要的100篇论文,引用率最高的三篇统计学论文分别是: Continue reading
准考证号,身份证号码,TCGA样本条形码的区别
TCGA教程足够多了,有学员不理解TCGA样本编号问题,所以一个简单的比喻来阐述一下。
准考证号
这个大家从小就接触过,这里以四六级准考证号码解析为例,四六级准考证号一共由15位组成(如下图) Continue reading
肿瘤基因列表
大家自己的课题如果聚焦到了某些基因,通常是想看看它们是否是肿瘤相关基因,比如肿瘤驱动基因,抑癌基因等等,这里主要是: oncoKB和CCG的list
OncoKB Cancer Gene List OncoKB Cancer Gene List Cancer Gene List. 1039 genes Continue reading
中山大学有钱却没有人
中山大学幸福的烦恼 Continue reading
在R语言里面apply和for还是有区别的
最近整理我GitHub代码,发现了之前一个批量生存分析代码是有问题的,因为不同基因表达量分组后,没有道理所有基因出图的P值不变,更诡异的是,lapply内部变量不识别,一定要外部变量。
为了给大家讲清楚这个故事,我创造了测试数据和代码,你们可以打开电脑的R语言开始表演啦! Continue reading
一个矩阵除以向量会发生什么
在做表达矩阵的counts值作为RPKM的时候发现的这个知识点细节问题, 因为矩阵需要每一个样本除以它各自的文库大小,然后呢,每个基因又需要除以各自的基因长度。
所以呢,我们的表达矩阵,其实是需要除以两个长度不一的向量,而且方向不一样,一个是按照行来除以,一个是按照列来除以,我最后写的代码是: Continue reading
我的基因集数量不对啊
今天单细胞授课现场差点翻车,最后做完几个基因集的批量超几何分布检验,想现场解释一波这个富集分析结果的一些数字,如下:
Continue reading