什么,GitHub网站的文件你无法读取

假如你使用如下所示的代码,进行GitHub网站的文件读取:

readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-07-28/penguins.csv')<img class="wp-more-tag mce-wp-more" title="阅读更多…" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" alt="" data-wp-more="more" data-mce-resize="false" data-mce-placeholder="1" data-mce-src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7">

会有如下所示的报错:

Error in open.connection(con, "rb") : 
 Failed to connect to raw.githubusercontent.com port 443: Connection refused

这个时候很多R语言小白会下意识的以为是自己的R语言代码有问题,其实如果你仔细 看报错,就应该是明白网络有问题,因为中国大陆绝大部分地区访问GitHub其实是很困难的。

首先,你需要对这个链接有一个基础认识:

rfordatascience 用户名
tidytuesday 仓库名
master 分支名
data/2020/2020-07-28/penguins.csv 文件名及其路径

你之所以无法访问,就是因为 这个 https://raw.githubusercontent.com/ 网页前缀并不是很适合你。你可以试试看cdn加速,只需要进行如下所示的替换:

https://cdn.jsdelivr.net/gh/rfordatascience/tidytuesday@master/data/2020/2020-07-28/penguins.csv

可以复制粘贴这个 url 到你的浏览器,下载这个csv文件就很容易啦,当然,这个时候你的R语言读取它也不是问题。

那么,聪明如你,赶快试试看 https://raw.githubusercontent.com/z3tt/TidyTuesday/master/R/2020_31_PalmerPenguins.Rmd 这个教程里面的 散点图箱线图小提琴图联合展示

image-20210626232730026

再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理

把R的知识点路线图搞定,如下:

  • 了解常量和变量概念
  • 加减乘除等运算(计算器)
  • 多种数据类型(数值,字符,逻辑,因子)
  • 多种数据结构(向量,矩阵,数组,数据框,列表)
  • 文件读取和写出
  • 简单统计可视化
  • 无限量函数学习

Comments are closed.