构建更好的数据科学工具。学习为数据工具设计软件、分发 R 包和创建自定义可视化。
Suggested by: Coursera (What is Coursera?)
No prior knowledge required
No unnecessary risks
R 是一种用于统计计算和图形的编程语言和免费软件环境,被分析师、数据科学家和统计学家广泛使用。
此专业涉及 R 中的软件开发,以构建数据科学中的工具。随着数据科学领域的发展,越来越明显的是,软件开发技能对于产生和发展有用的数据科学结果和产品至关重要。
您将学习现代软件开发方法,以构建可重用、模块化且适合在小组环境或开发人员社区中使用的工具。
在每门课程中,学生将他们获得的高级 R 技能应用于:
这些项目将产生一个 R 代码组合,该组合可以重复使用并构建用于实际部署。
本课程深入介绍了 R 编程语言,重点介绍了 R 在数据科学领域的软件开发中的应用。如果您是数据科学团队的一员或在开发人员社区中独立工作,本课程将为您提供所需的 R 知识,以便在这些领域做出有意义的贡献。就像它是专业化的第一门课程一样,它为接下来的课程提供了必要的 R 元素。我们将介绍 R 中的基本概念、语言原则、关键概念(如“Thedibors”中的整洁数据和相关工具)、处理和操作复杂的大数据系统、文本数据处理以及基本的数据科学任务。完成本课程后,学生将能够流利地使用 R 控制台,并能够从各种可能的数据源创建整洁的数据集。
本课程涵盖开发强大、持久且可用的数据科学工具所需的 R 编程高级主题。主题包括 R 中的函数式编程、持久错误处理、面向对象编程、分析和基准测试、调试和适当的函数设计。完成本课程后,您将能够在为用户设计的函数中识别并包含常见的数据分析任务。由于每个数据科学环境都会遇到独特的数据挑战,因此始终有必要开发针对您组织的报告量身定制的软件。您还可以在 R 中定义新的数据类型,并为这些数据类型开发独特的操作线,以便更清晰地执行数据科学任务,并在团队中增强可用性。
为数据科学编写好的代码只是工作的一部分。为了最大限度地提高数据科学软件的可用性和重用性,必须以符合基于社区的标准并提供良好用户体验的方式组织和分发代码。本课程介绍了 R 软件组织和分发给其他人的主要方式。我们涵盖 R-suite 开发、编写良好的文档和平衡、编写弹性软件、跨平台开发、持续集成工具以及通过 CRAN 和 GitHub 分发软件包。学生将制作符合提交给 CRAN 标准的 R 包。
数据科学革命从各种新来源生成了大量数据。这些新数据用于以以前未描述的方式回答新问题。可视化仍然是从数据中得出结论的最有效方法之一,但新型数据的流动需要开发新的可视化技术。本课程为您提供创建这些可视化工具的技能。我们将重点介绍 ggplot2 框架,并展示如何根据组织或团队的特定需求使用和扩展系统。完成课程后,学生将能够构建必要的工具来可视化各种数据类型,并具备在接受新数据类型时处理新数据类型所需的基本知识。
R 编程摘要课程