<返回更多

大数据分析R和RStudio使用指南

2020-08-18    
加入收藏

 在大数据分析R和RStudio使用指南中,我们将学习如何使用RStudio开始使用R进行编程。我们将安装R和RStudio RStudio,这是R的非常流行的开发环境。我们将学习RStudio的关键功能,以便自己开始在R中进行编程。

  如果您已经知道如何使用RStudio,并且想学习一些技巧,窍门和快捷方式,请查看此AAA教育文章。

  目录

  1.安装R

  2.安装RStudio

  3.首先看一下RStudio

  4.控制台

  5.全球环境

  6.安装 tidyverse 软件包

  7.将tidyverse 软件包加载 到内存

  8.识别装载的包裹

  9.获取有关包装的帮助

  10.获取功能帮助

  11. RStudio项目

  12.保存您的“真实”工作。删除其余的。

  13. R脚本

  14.运行代码

  15.访问内置数据集

  16.风格

  17.具有R Markdown的可复制报告

  18.使用RStudio Cloud

  RStudio入门

  RStudio是用于在R中进行编程的开源工具。RStudio是一种灵活的工具,可帮助您创建可读的分析,并将代码,图像,注释和图形保持在一个地方。值得了解RStudio在R中进行数据分析和编程的功能。

大数据分析R和RStudio使用指南

 

 

  使用RStudio在R中进行数据分析和编程具有许多优点。以下是RStudio提供的一些示例:

  1)直观的界面使我们能够跟踪保存的对象,脚本和图形

  2)具有颜色编码语法等功能的文本编辑器,可帮助我们编写简洁的脚本

  3)自动完成功能可节省时间

  4)用于创建包含项目代码,注释和视觉效果的文档的工具

  5)专用的Project文件夹可将所有内容保存在一个地方

  RStudio还可以用于以其他语言进行编程,包括SQL,Python和Bash等。

  但是在安装RStudio之前,我们需要在计算机上安装R的最新版本。

  一、安装R

  R是可从下载官方R网站。查找网页的此部分:

大数据分析R和RStudio使用指南

 

 

  要下载的R版本取决于我们的操作系统。下面,我们包括mac OS X,windowslinux(Ubuntu)的安装说明。

  MAC OS X

  1)选择Download R for (Mac) OSX选项。

  2)查找R的最新版本(新版本会频繁发布并显示在页面顶部),然后单击.pkg文件进行下载。

  3)打开.pkg文件,然后按照标准说明在MAC OS X上安装应用程序。

  4)将R应用程序拖放到该Applications文件夹中。

  视窗

  1)选择Download R for Windows选项。

  2)选择base,因为这是我们在计算机上的第一个R安装。

  3)请按照标准说明安装Windows程序。如果要求我们选择Customize Startup或Accept Default Startup Options,请选择默认选项。

  Linux / Ubuntu

  1)选择Download R for Linux选项。

  2)选择Ubuntu选项。

  3)选择与您相关的Linux软件包管理系统Ubuntu。

  RStudio与R的许多版本兼容(R版本3.0.1或更高版本,截至2020年7月)。与RStudio分开安装R后,用户可以选择适合他们需要的R版本。

  二、安装RStudio

  现在已经安装了R,我们可以安装RStudio。

  当我们到达RStudio下载页面时,让我们单击RStudio Desktop Open Source License Free选项的“下载”按钮:

大数据分析R和RStudio使用指南

 

 

  通常会自动检测到我们的操作系统,因此我们可以通过单击“下载RStudio”按钮直接为我们的计算机下载正确的版本。如果我们要为另一个操作系统(而不是正在运行的操作系统)下载RStudio,请向下导航至页面的“所有安装程序”部分。

大数据分析R和RStudio使用指南

 

  三、首先看一下RStudio

  首次打开RStudio时,我们可能会看到这样的布局:

大数据分析R和RStudio使用指南

 

 

  但是背景颜色将是白色,因此不要期望在RStudio首次启动时看到这种蓝色背景。查看此AAA教育文章,以了解如何自定义RStudio的外观。

  当我们打开RStudio时,也会启动R。新用户经常犯的一个错误是打开R而不是RStudio。要打开RStudio,请在桌面上搜索RStudio,然后将RStudio图标固定在首选位置(例如,桌面或工具栏)。

  四、控制台

  让我们从介绍Console的一些功能开始。这Console是RStudio中的一个标签,我们可以在其中运行R代码。

  请注意,在控制台位于窗玻璃包含三个选项卡:Console,Terminal和Jobs(这可能取决于所使用的版本RStudio的)。我们现在将重点放在Console。

  当我们打开RStudio时,控制台包含有关我们正在使用的R版本的信息。向下滚动,然后尝试键入一些这样的表达式。按Enter键查看结果。

大数据分析R和RStudio使用指南

 

 

  如我们所见,我们可以使用控制台立即测试代码。当我们输入类似的表达式时1 + 2,在按下Enter键后,我们将在下面看到输出。

大数据分析R和RStudio使用指南

 

 

  我们可以将此命令的输出存储为变量。在这里,我们将变量命名为result:

大数据分析R和RStudio使用指南

 

 

  在<-被称为赋值运算符。该运算符将值分配给变量。上面的命令被翻译成以下句子:

  该result变量的值为一加二。

  RStudio的一项不错的功能是用于键入分配运算符的键盘快捷键<-:

  1)Mac OS X:Option+-

  2)Windows / Linux:Alt+-

  我们强烈建议您记住此键盘快捷键,因为从长远来看,它可以节省大量时间!

  当我们result在控制台中键入内容并按Enter键时,我们将看到的存储值3:

大数据分析R和RStudio使用指南

 

 

  当我们在RStudio中创建变量时,会将其另存为R 全局环境中的对象。在下一节中,我们将讨论环境以及如何查看存储在环境中的对象。

  五、全球环境

  我们可以将全球环境视为我们的工作空间。在R中进行编程时,我们定义的任何变量或导入并保存在数据框中的数据都存储在我们的全局环境中。在RStudio中,我们可以Environment在界面右上角的标签中查看全局环境中的对象:

大数据分析R和RStudio使用指南

 

 

  我们会result在Environment标签中的值下看到所有创建的对象,例如。注意,将3显示存储在变量中的值。

  有时,全局环境中的命名对象太多会造成混乱。也许我们想删除全部或部分对象。要删除所有对象,请单击窗口顶部的扫帚图标:

大数据分析R和RStudio使用指南

 

 

  要从工作空间中删除选定的对象,请从下拉菜单中选择“网格”视图:

大数据分析R和RStudio使用指南

 

 

  在这里,我们可以选中要删除的对象的框,然后使用扫帚图标将其清除Global Environment。

  六、安装tidyverse软件包

  R中的许多功能来自使用软件包。包是代码,数据和文档的可共享集合。软件包本质上是我们上面安装的R程序的扩展或附件。

  R中最受欢迎的软件包集合之一被称为“ tidyverse”。tidyverse是为处理数据而设计的R程序包的集合。tidyverse软件包具有共同的设计理念,语法和数据结构。Tidyverse包“一起玩”。使用tidyverse,您可以花费更少的时间来清理数据,从而可以将更多的精力放在分析,可视化和建模数据上。

  让我们学习如何安装tidyverse软件包。最常见的“核心” tidyverse软件包是:

  1)readr,用于数据导入。

  2)ggplot2,用于数据可视化。

  3)dplyr,用于数据操作。

  4)tidyr,用于数据整理。

  5)purrr,用于函数式编程。

  6)tibble,对于小标题,是对数据帧的现代重新构想。

  7)stringr,用于字符串操作。

  8)forcats,用于处理因素(分类数据)。

  要在R中安装软件包,我们使用内置install.packages()功能。我们可以一一安装上面列出的软件包,但是幸运的是,tidyverse的创建者提供了一种通过单个命令安装所有这些软件包的方法。在控制台中键入以下命令,然后按Enter键。

大数据分析R和RStudio使用指南

 

 

  该install.packages()命令仅需要用于首次下载和安装软件包。

  七、将tidyverse程序包加载到内存中

  将软件包安装到计算机的硬盘驱动器上之后,该library()命令用于将软件包加载到内存中:

大数据分析R和RStudio使用指南

 

 

  使用将包加载到内存中可以library()使给定包的功能可在当前R会话中使用。R用户通常在其硬盘驱动器上安装数百个R软件包,因此一次加载所有软件包效率低下。相反,我们指定特定项目或任务所需的R包。

  幸运的是,核心tidyverse软件包可以通过一个命令加载到内存中。这是命令和输出在控制台中的外观:

大数据分析R和RStudio使用指南

 

 

  Attaching packages输出的部分指定了软件包及其装入内存的版本。本Conflicts节指定了我们刚刚加载到内存中的程序包中包含的任何函数名,这些函数名与已经加载到内存中的函数具有相同的名称。使用上面的示例,现在如果我们调用filter()函数,R将使用dplyr软件包中为此函数指定的代码。这些冲突通常不是问题,但是值得阅读输出消息以确保。

  八、识别装载的包裹

  如果需要检查加载了哪些软件包,可以参考控制台右下角窗口中的“ 软件包”选项卡。

大数据分析R和RStudio使用指南

 

 

  我们可以搜索软件包,然后选中软件包旁边的框以加载它(代码显示在控制台中)。

  或者,在控制台中输入以下代码将显示当前已加载到内存中的所有软件包:

大数据分析R和RStudio使用指南

 

 

  哪个返回:

大数据分析R和RStudio使用指南

 

 

  返回当前加载到内存中的软件包名称的另一个有用的函数是search():

大数据分析R和RStudio使用指南

 

 

  九、获取有关包装的帮助

  我们已经学习了如何安装和加载软件包。但是,如果我们想了解有关已安装软件包的更多信息该怎么办?这很简单!单击Packages选项卡中的程序包名称会将我们带到Help所选程序包的选项卡。如果单击该tidyr包,我们将看到以下内容:

大数据分析R和RStudio使用指南

 

 

  或者,我们可以在控制台中键入以下命令并获得相同的结果:

大数据分析R和RStudio使用指南

 

 

  软件包的帮助页面提供了对软件包中每个功能的文档的快速访问。在软件包的主要帮助页面上,您还可以在可用的“小插图”上进行访问。小插图提供了有关软件包或如何使用软件包中特定功能的简要介绍,教程或其他参考信息。

大数据分析R和RStudio使用指南

 

  产生以下可用选项列表:

大数据分析R和RStudio使用指南

 

  从那里,我们可以选择一个特定的小插图来查看:

大数据分析R和RStudio使用指南

 

 

  现在,我们看到“透视图”小插图显示在Help选项卡中。这就是为什么RStudio是使用R进行编程的强大工具的一个示例。我们可以在不离开RStudio的情况下访问功能和软件包文档以及教程!

  十、获取功能帮助

  正如我们在上一节中了解到的那样,我们可以通过单击中的包名称Packages,然后单击功能名称以查看帮助文件来获得有关功能的帮助。在这里,我们看到包中的pivot_longer()函数tidyr在此列表的顶部:

大数据分析R和RStudio使用指南

 

 

  如果单击“ pivot_longer”,则会得到以下信息:

大数据分析R和RStudio使用指南

 

 

  Console使用以下任何函数调用,我们都可以达到相同的结果:

大数据分析R和RStudio使用指南

 

 

  请注意,如果包含该功能的软件包尚未加载到内存中Help,则该pivot_longer()功能(或我们感兴趣的任何功能)的特定选项卡可能不是默认结果。通常,最好在寻求功能帮助之前确保已加载特定的程序包。

  十一、RStudio项目

  RStudio提供了强大的功能,可让您保持井井有条;项目。在进行多个分析时,保持有条理很重要。RStudio的项目使您可以将所有重要工作放在一个地方,包括代码脚本,绘图,图形,结果和数据集。

  导航到FileRStudio中的选项卡,然后选择,创建一个新项目New Project...。然后指定您是否要在新目录或现有目录中创建项目。在这里,我们选择“新目录”:

大数据分析R和RStudio使用指南

 

 

  如果您使用的是R软件包或Shiny Web应用程序,则RStudio提供专用的项目类型。在这里,我们选择“ New Project”,它将创建一个R项目:

大数据分析R和RStudio使用指南

 

 

  接下来,我们给我们的项目起一个名字。“将项目创建为:的子目录”显示文件夹在计算机上的位置。如果我们批准该位置,请选择“创建项目”,否则请选择“浏览”,然后在计算机上选择该项目文件夹所在的位置。

大数据分析R和RStudio使用指南

 

 

  现在在RStudio中,我们看到项目的名称显示在屏幕的右上角。我们还在选项卡中看到该.Rproj文件Files。我们添加到该项目或在该项目内生成的任何文件将显示在Files选项卡中。

大数据分析R和RStudio使用指南

 

 

  当您需要与同事共享工作时,RStudio项目非常有用。您可以将项目文件(以结尾.Rproj)与所有支持文件一起发送,这将使您的同事更轻松地重新创建工作环境并重现结果。

  十二、保存您的“真实”工作。删除其余的。

  该技巧来自我们的23个RStudio技巧,窍门和快捷方式文章文章,但它非常重要,因此我们也在这里分享它!

  练习良好的内务管理,避免将来遇到不可预见的挑战。如果创建值得保存的R对象,大数据分析R和RStudio使用指南https://www.aaa-cg.com.cn/data/2548.html请在R脚大数据分析R和RStudio使用指南件中捕获生成该对象的R代码。保存R脚本,但不要保存创建对象的环境或工作空间。

  为防止RStudio保存工作区,请在启动时打开Preferences > General并取消选择要还原.RData到工作区的选项。确保指定您永远不要保存工作空间,如下所示:

大数据分析R和RStudio使用指南

 

 

  现在,每次打开RStudio时,都会从一个空会话开始。您以前的会话生成的代码都不会被记住。R脚本和数据集可用于从头开始重新创建环境。

  其他专家一致认为不会保存您的工作空间是最好的做法使用RStudio时。

  十三、R脚本

  在学习大数据分析R和RStudio使用指南时,我们在中编写了代码Console。随着项目变得越来越复杂,我们将编写更长的代码块。如果要保存我们的工作,则必须将代码组织成脚本。这使我们可以跟踪项目的工作,编写带有大量注释的简洁代码,重现我们的工作并与他人共享。

  在RStudio中,我们可以在界面左上方的文本编辑器窗口中编写脚本:

大数据分析R和RStudio使用指南

 

 

  要创建新脚本,我们可以使用文件菜单中的命令:

大数据分析R和RStudio使用指南

 

 

  我们也可以使用键盘快捷键Ctrl+ Shift+ N。保存脚本时,其文件扩展名为.R。作为示例,我们将创建一个新脚本,其中包含以下代码以生成散点图:

大数据分析R和RStudio使用指南

 

 

  要保存脚本,我们导航到File菜单选项卡并选择Save。或者我们输入以下命令:

  1)Mac OS X:Cmd+S

  2)Windows / Linux:Ctrl+S

  十四、运行代码

  要运行输入到脚本中的一行代码,我们可以单击Run脚本的右上角,或者当光标位于要运行的行上时使用以下键盘命令:

  1)Mac OS X:Cmd+Enter

  2)Windows / Linux:Ctrl+Enter

  在这种情况下,我们需要突出显示多行代码以生成散点图。要突出显示并运行脚本中的所有代码行,请输入:

  1)Mac OS X:Cmd+ A+Enter

  2)在Windows / Linux的:Ctrl+ A+Enter

  当我们运行上面指定的代码行时,让我们检查一下结果:

大数据分析R和RStudio使用指南

 

 

  旁注:此散点图是使用包中mpg包含的数据集中的数据生成的ggplot2。该数据集包含1999年至2008年的38种流行车型的燃油经济性数据。

  在该图中,发动机排量(即尺寸)在x轴(水平轴)上显示。y轴(垂直轴)表示以每加仑英里为单位的燃油效率。通常,燃料经济性随着发动机尺寸的增加而降低。此图是使用tidyverse软件包生成的ggplot2。该软件包非常适合R中的数据可视化。

  十五、访问内置数据集

  是否想mpg从ggplot2上一个示例中提到的包中了解有关数据集的更多信息?使用以下命令执行此操作:

大数据分析R和RStudio使用指南

 

 

  从那里,您可以使用head()函数查看数据的前六行:

大数据分析R和RStudio使用指南

 

 

  使用以下summary()功能获取摘要统计信息:

大数据分析R和RStudio使用指南

 

  或打开Help标签中的帮助页面,如下所示:

大数据分析R和RStudio使用指南

 

 

  最后,R中内置了许多可以使用的数据集。内置数据集很容易练习新的R技能,而无需搜索数据。使用以下命令查看可用的数据集:

大数据分析R和RStudio使用指南

 

 

  十六、风格

  编写R脚本时,最好在脚本顶部指定要加载的包:

大数据分析R和RStudio使用指南

 

 

  在编写R脚本时,也是一种好的做法,添加注释以解释我们的代码(# like this)。R忽略以开头的代码行#。与同事和协作者共享代码是很常见的。确保他们了解我们的方法将非常重要。但是更重要的是,详尽的注释对您的未来很有帮助,以便您将来重新访问脚本时可以理解自己的方法!

  这是我们的散点图代码的注释示例:

大数据分析R和RStudio使用指南

 

 

  十七、具有R Markdown的可复制报告

  上面示例中使用的注释可以很好地提供有关我们R脚本的简短说明,但是这种格式不适合编写需要总结结果和发现的报告。我们可以使用R Markdown文件在RStudio中编写格式精美的报告。

  R Markdown是用于在R中生成可复制报告的开源工具。RMarkdown使我们能够将所有代码,结果和编写都集中在一个地方。使用R Markdown,我们可以选择将我们的作品导出为多种格式,包括PDF,Microsoft word,幻灯片或HTML文档,以供网站使用。

  如果您想学习R Markdown,请查看以下AAA教育文章:

  1)R Markdown入门-指南和备忘单

  2)R Markdown技巧,窍门和快捷方式

  十八、使用RStudio Cloud

  RStudio现在提供了一个基于云的RStudio桌面版本,称为RStudio Cloud。RStudio Cloud允许您在RStudio中进行编码而无需安装软件,只需要一个Web浏览器。我们在大数据分析R和RStudio使用指南中学到的几乎所有内容都适用于RStudio Cloud!

  RStudio Cloud中的工作被组织成与桌面版本相似的项目。RStudio Cloud使您可以指定要用于每个项目的R版本。如果您要重新考虑围绕R的早期版本构建的旧项目,那就太好了。

  RStudio Cloud还可以轻松,安全地与同事共享项目,并确保每次访问项目时都能完全再现工作环境。

  RStudio Cloud的布局与RStudio桌面非常相似:

大数据分析R和RStudio使用指南

 

  学习RStudio的最好方法是应用大数据分析R和RStudio使用指南中介绍的内容。自行跳入并熟悉RStudio!创建自己的项目,保存工作并共享结果。我们不能足够强调这一点。

声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多资讯 >>>