提到公共数据库挖掘,通常是GEO里面的表达芯片数据,这些年随着NGS的爆发,转录组测序数据的表达矩阵分析也逐渐有后来居上的趋势,当然了,TCGA数据库的全组学数据也是宝藏。但是也架不住有一些癌症或者疾病确实比较稀有和特殊,在GEO和TCGA都找不到合适的数据集,其实还有另外一个选项:ArrayExpress Continue reading
Category Archives: 未分类
分享你的NGS数据分析流程也能发文章哦
我看到今年(2020)3月发表在:BMC Bioinformatics 的文章:《RASflow: an RNA-Seq analysis workflow with Snakemake》,就是很简单的一个转录组流程分享,只不过是他愿意写出来英文SCI而且愿意花时间投稿。如果大家学过了我免费共享在B站的不同的数据分析视频课程,见: Continue reading
多个数据集整合神器-RobustRankAggreg包
RobustRankAggreg包在各种数据挖掘文章里面亮相的频次之高,无需我多言,大家可以去查看一下引用它的文献,基本上都是GEO数据库挖掘文章: Continue reading
不要看数量,要看质量
前面我们组建了:免费视频课程《RNA-seq数据分析》交流群 ,很多人马上学习了全套实战视频,并且实践了一个转录组项目流程,新手问的最多的问题是:为什么我给的RNA-seq表达矩阵代码需要的是counts格式输入,而且使用3个不同的R包做差异分析,这3个R包该分别如何设置阈值来进行统计学显著的差异表达基因筛选,以及多个R包数量有时候差异很大,该如何取舍。 Continue reading
不要等到进公司才恶补生信技能
临近高考,最近我们的生信考研考博交流群以及生信职业发展讨论群都掀起了关于人生规划的讨论,七嘴八舌,好不热闹。而且还留言了很多问题给思考问题的熊,希望他能安排一期博客节目来谈这个主题,我有幸参与了节目录制,虽然自己是摸鱼状态参与节目的,还是期待这一期节目能上线。 Continue reading
比较两个vcf文件的多种实现方法
有粉丝邮件求助,给了我两个vcf文件,旧的vcf文件走的是标准的bwa+gatk流程,参考基因组是hg19,新的文件参考基因组是hg38,也是gatk标准流程。想要比较它们,首先得保证两个vcf文件的参考基因组一致,因为版本不一致,所以需要使用CrossMap等软件进行参考基因组版本转换,然后使用 SnpSift 软件的 Concordance 命令比较它们。 Continue reading
阿里云生信配置攻略
之前我们生信菜鸟团已经发布的:购买入门级服务器免费送Linux直播培训服务 ,提到了可以购置一款《1核2G服务器》标准品,既可以练习Linux命令,也可以打搭建一个博客:五分钟搞定你的个人博客,还可以做图床,或者隧道。 Continue reading
阿里云大学和腾讯云大学
再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
2020 年 7 月编程语言排行榜,R语言达到了历史高位
主流编程语言的变化趋势值得关注,其排行榜对我们学习和工作是一个参考,毕竟大家都不想选择一个被时代抛弃的编程语言。但各个语言都有它们各自适合的应用场景,所以也不必过于在意排名,毕竟编程语言的好坏在于如何去使用它。给编程语言进行排序的机构很多,其中每个月都会公布一次TIOBE比较权威。 Continue reading
3D的火山图我也是第一次见
大量的NGS队列都是肿瘤研究领域,比如乳腺癌领域的复旦邵志敏团队TNBC队列,肺癌领域的吴一龙教授团队的队列,以及新加坡国家癌症中心的东亚肺腺癌(EAS LUAD)列队,动辄经费百万起步。 Continue reading
selenium爬虫操作网页(实战篇)
前面我们遇到了一个爬虫难题:爬虫最怕遇到JavaScript依赖性的动态网页,选择了在R里面配置selenium爬虫环境,仅仅是安装和配置好了在R里面使用selenium爬虫,打开一个JavaScript控制的动态网页仅仅是爬虫的开始,接下来需要跟这个网页进行各式各样的交互。首先放出一些学习链接: Continue reading
转录组公益课(含单细胞)
之前我默认生信技能树绝大部分粉丝都已经在计算机背景方面是没有问题了:
RNA芯片和测序技术的比较
前面我们介绍了表达量研究领域的,基因芯片和RNA-seq测序技术,并且把详细的学习资料和视频教程免费共享在了B站。 Continue reading
RNA-seq的fastq文件里面为什么有gc含量的双峰
最近接到一个粉丝求助,说自己课题组两年前在某公司测的转录组数据,跟着我们的课程学习完了转录组数据分析流程后,终于可以开干了,一条龙流程走完就傻眼了,我们课程授课涉及到的数据集基本上是完美结果,但他们两年前的数据集表现非常的诡异! Continue reading
ATCC终于出来了organoids资源
做过生物学实验的朋友都应该理解,美国典型培养物保藏中心(American Type Culture Collection,ATCC)的出镜率,算是最权威的细胞系资源库了,大家做肿瘤学相关实验通常会在文章里面写到在ATCC购买了什么细胞系。 Continue reading
ATAC-Seq数据分析实操仅需249
如果你感兴趣ATAC-Seq数据分析,那么这个课程不容错过啦! Continue reading
在R里面配置selenium爬虫环境
普通的爬虫,其实什么编程语言都差不多,因为都是网页的html源代码字符串的解析而已,但是很多网页是具有防止爬虫的功能,就是无法直接获取html源代码字符串,需要通过JavaScript来互动。比如: Continue reading
遇事不慌,控制变量法帮助你
我以前分享过:真正的编程能力是什么?解决问题的能力,就是编程能力,强调了如果你有解决问题的能力,放心大胆的联系我,我会给你提供无穷无尽的学习资源,投资你,帮助你成长。但是也有很多人留言说,解决问题的能力并不是一个很清晰的法则,我就以使用GDC工具来进行TCGA数据下载的例子来说明。 Continue reading
药物处理细胞系前后转录组数据该如何分析
在我们生信技能树好久以前的一个教程,看到了邢老师的留言,如下: Continue reading
学以致用大概就是这个意思
很早以前我在写 生信小技巧第8课,加上 TCGA的28篇教程- 批量下载TCGA所有数据,文末附上了当时看到的一个好玩的算法题目: Continue reading