09

公共数据库还可以看ArrayExpress

提到公共数据库挖掘,通常是GEO里面的表达芯片数据,这些年随着NGS的爆发,转录组测序数据的表达矩阵分析也逐渐有后来居上的趋势,当然了,TCGA数据库的全组学数据也是宝藏。但是也架不住有一些癌症或者疾病确实比较稀有和特殊,在GEO和TCGA都找不到合适的数据集,其实还有另外一个选项:ArrayExpress Continue reading

09

不要看数量,要看质量

前面我们组建了:免费视频课程《RNA-seq数据分析》交流群 ,很多人马上学习了全套实战视频,并且实践了一个转录组项目流程,新手问的最多的问题是:为什么我给的RNA-seq表达矩阵代码需要的是counts格式输入,而且使用3个不同的R包做差异分析,这3个R包该分别如何设置阈值来进行统计学显著的差异表达基因筛选,以及多个R包数量有时候差异很大,该如何取舍。 Continue reading

09

不要等到进公司才恶补生信技能

临近高考,最近我们的生信考研考博交流群以及生信职业发展讨论群都掀起了关于人生规划的讨论,七嘴八舌,好不热闹。而且还留言了很多问题给思考问题的熊,希望他能安排一期博客节目来谈这个主题,我有幸参与了节目录制,虽然自己是摸鱼状态参与节目的,还是期待这一期节目能上线。 Continue reading

09

比较两个vcf文件的多种实现方法

有粉丝邮件求助,给了我两个vcf文件,旧的vcf文件走的是标准的bwa+gatk流程,参考基因组是hg19,新的文件参考基因组是hg38,也是gatk标准流程。想要比较它们,首先得保证两个vcf文件的参考基因组一致,因为版本不一致,所以需要使用CrossMap等软件进行参考基因组版本转换,然后使用 SnpSift 软件的 Concordance 命令比较它们。 Continue reading

09

2020 年 7 月编程语言排行榜,R语言达到了历史高位

主流编程语言的变化趋势值得关注,其排行榜对我们学习和工作是一个参考,毕竟大家都不想选择一个被时代抛弃的编程语言。但各个语言都有它们各自适合的应用场景,所以也不必过于在意排名,毕竟编程语言的好坏在于如何去使用它。给编程语言进行排序的机构很多,其中每个月都会公布一次TIOBE比较权威。 Continue reading

17

selenium爬虫操作网页(实战篇)

前面我们遇到了一个爬虫难题:爬虫最怕遇到JavaScript依赖性的动态网页,选择了在R里面配置selenium爬虫环境,仅仅是安装和配置好了在R里面使用selenium爬虫,打开一个JavaScript控制的动态网页仅仅是爬虫的开始,接下来需要跟这个网页进行各式各样的交互。首先放出一些学习链接Continue reading

06

遇事不慌,控制变量法帮助你

我以前分享过:真正的编程能力是什么?解决问题的能力,就是编程能力,强调了如果你有解决问题的能力,放心大胆的联系我,我会给你提供无穷无尽的学习资源,投资你,帮助你成长。但是也有很多人留言说,解决问题的能力并不是一个很清晰的法则,我就以使用GDC工具来进行TCGA数据下载的例子来说明。 Continue reading