在线课程 – 阿尔伯塔大学强化学习认证专业

掌握强化学习的概念。实施完整的 RL 解决方案，并了解如何使用 AI 工具解决实际问题。

Suggested by: Coursera (What is Coursera?)

Start your Coursera.com free trial today

Professional Certificate

中档

No prior knowledge required

Time to complete the course

7-day free trial

No unnecessary risks

Skills you will acquire in the course

函数估计
人工智能（AI）
机器学习
从强化中学习
智能系统

What you will learn in the course

Courses for which the course is suitable

游戏开发人员（AI）
开发客户交互系统
主要智能助理
推荐系统开发人员
供应链经理
工控钥匙
金融发展领域的一把钥匙
石油和天然气管道经理
工业控制系统开发人员

专业化 – 由 4 部分组成的课程系列

强化学习专业包括 4 门课程，探索自适应学习系统和人工智能（AI）的力量。为了释放人工智能的全部潜力，需要量身定制的学习系统。您将了解强化学习（RL）解决方案如何通过反复试验的交互，从头到尾实施完整的 RL 解决方案来帮助解决实际问题。

实习完成后，学习者将了解人工智能（AI）中许多现代技术的基础知识，并准备好学习更高级的课程或将 AI 创意工具应用于现实世界的问题。内容将侧重于“小规模”问题，以了解强化学习的基础知识，由阿尔伯塔大学理学院的世界知名专家讲授。

在此专业中学到的工具适用于：

游戏开发（AI）
客户互动（网站如何与客户互动）
智能助手
推荐系统
供应链管理
工业控制
财务发展
石油和天然气线路
工业控制系统

应用学习项目

通过编码任务和测验，学生将：

他们将构建一个知道如何做出自动化决策的强化学习系统。
了解 RL 如何关联并适应更广泛的机器学习、深度学习、监督式和无监督式学习。
他们将了解 RL 算法空间（时间差异学习、Monte Carlo、Sersa、Q-learning、Policy Gradient、Dina 等）。
了解如何将任务表述为 RL 问题，以及如何开始实施解决方案。

Details of the courses that make up the specialization

持续学习的基础

课程 1

15 小时
4.8 （2,771 个评分）

课程详情

学习内容

将问题描述为马尔可夫决策过程
了解基础研究方法和研究/开发平衡
将价值函数理解为最佳决策的通用工具
了解如何将动态规划作为工业控制问题的有效解决方案。

您将获得的技能

类别：功能优化
类别：人工智能（AI）
类别：递归学习
类别： Lam Machine
类别：智能系统

基于示例的学习方法

课程 2

22 小时
4.8 （1,228 个评分）

课程详情

学习内容

在本课程中，您将学习几种算法，这些算法可以根据与环境的交互学习几乎最优的策略——从代理的个人经验中学习。从实践经验中学习令人印象深刻，因为它不需要环境动态的先验知识，但仍然可以实现最佳行为。我们将讨论简单但强大的蒙特卡洛方法，以及包括 Q-learning 在内的时差学习方法。在课程的最后，我们将探索如何将这两个领域结合起来：可以将基于模型的设计（类似于动态规划）和时差更新相结合的算法，以显著加快学习速度。

在本课程结束时，您将能够：

将时差学习和蒙特卡洛理解为从样本经验中评估价值函数的两种策略
了解在模型中使用样本体验而不是动态规划路径时探索的重要性
了解 Monte Carlo、动态规划和时差学习之间的联系
实现并应用 TD 算法，以评估值函数
实施和实施预期的 Sarsa 和 Q-learning（两种 TD 控制方法）
了解策略内控制和非策略控制之间的区别
通过仿真经验了解设计（与传统规划策略相反）
实现一种基于模型的 RL 方法，称为 Dyna，该方法使用仿真尝试
进行实证研究，以了解使用 Dyna 时样品有效性的提高

您将获得的技能

类别：功能优化
类别：人工智能（AI）
类别：递归学习
类别： Lam Machine
类别：智能系统

通过函数优化进行预测和控制

课程 3

21 小时
4.8 （820 评价）

课程详情

学习内容

在本课程中，您将学习如何解决大、多维和无限可能空间的问题。您将看到，价值函数估计可以表示为监督式学习问题（函数优化），它允许您构建仔细平衡泛化和差异化的代理，以实现奖励最大化。我们将通过探索如何利用 Monte Carlo 和 TD 等策略或预测评估方法来定义函数优化来开始此旅程。您将学习 RL 的特征构建技术，并使用神经网络和马辐射学习表示。我们将以深入的跳过策略梯度方法来结束本课程;一种无需学习价值函数即可直接学习策略的方法。在本课程中，您将使用连续模式解决两个控制任务，并探索策略梯度方法在连续运行环境中的优势。先决条件：本课程以课程 1 和 2 的基础为基础，学习者应在开始本课程之前完成这些课程。学习者还应该熟悉概率和期望、基本线性代数、基本微积分、Python 3.0（至少 1 年）以及伪代码算法的应用。

在本课程结束时，您将能够：

了解如何使用监督学习方法评估值函数
了解函数优化下的预测目标（值评估）
在具有无限状态空间（连续状态空间）的环境中使用函数优化（模式聚合）实现 TD
了解用于特征构建的固定基方法和神经网络
在连续状态环境中使用神经网络实现 TD with Function Optimization
了解过渡到函数优化时探索的新困难
比较控制折扣问题的表示与平均激励问题的表示
在连续模式控制任务中通过功能优化实现预测性 Sarsa 和 Q 学习
了解直接策略评估的目标（Policy Gradient Objectives）
在谨慎模式环境中实施策略梯度方法（称为 Actor-Critic）

您将获得的技能

类别：功能优化
类别：人工智能（AI）
类别：递归学习
类别： Lam Machine
类别：智能系统

完整的 Held 学习系统（Capstone）

课程 4

15 小时
4.7 （627 评价）

课程详情

学习内容

在最后一门课程中，您将结合课程 1、2 和 3 中的知识，为问题实施完整的 RL 解决方案。本顶点将让您了解每个组件（问题表述、算法选择、参数选择和表示设计）如何组合成一个完整的解决方案，以及在现实世界中实现 RL 时如何做出适当的选择。该项目将要求您应用环境来激发您的问题，以及具有优化神经网络功能的控制代理。此外，您将对您的学习系统进行科学研究，以培养您评估 Aganti RL 弹性的能力。要在现实世界中使用 RL，关键是（a）将问题正确表述为马尔可夫决策过程，（b）选择合适的算法，（c）确定实现中的哪些选择将对性能产生重大影响，以及（d）验证算法的预期行为。这个顶点对于计划使用 RL 解决实际问题的任何人都很有用。要成功完成本课程，您需要完成本专业的课程 1、2 和 3 或同等课程。

在本课程结束时，您将能够：

为了完成问题的 RL 解决方案，从制定问题、选择合适的算法和实现，到对解决方案有效性的实证研究。

您将获得的技能

类别：功能优化
类别：人工智能（AI）
类别：递归学习
类别： Lam Machine
类别：智能系统

在线课程 – 阿尔伯塔大学强化学习认证专业

Professional Certificate

中档

Time to complete the course

7-day free trial

Skills you will acquire in the course

What you will learn in the course

Courses for which the course is suitable

专业化 – 由 4 部分组成的课程系列

在此专业中学到的工具适用于：

应用学习项目

Details of the courses that make up the specialization

持续学习的基础

课程 1

课程详情

学习内容

您将获得的技能

基于示例的学习方法

课程 2

课程详情

学习内容

在本课程结束时，您将能够：

您将获得的技能

通过函数优化进行预测和控制

课程 3

课程详情

学习内容

在本课程结束时，您将能够：

您将获得的技能

完整的 Held 学习系统 （Capstone）

课程 4

课程详情

学习内容

在本课程结束时，您将能够：

您将获得的技能

相关产品

在线课程 – 由 Google 和加州大学欧文分校提供的物联网 （IoT） 编程入门课程认证专业

在线课程 – Google Java FullStack 开发人员专业认证

在线课程 – 莱斯大学生态学、进化和生物多样性认证专业

在线课程 – 科罗拉多大学博尔德分校系统工程专业认证

完整的 Held 学习系统（Capstone）

在线课程 – 由 Google 和加州大学欧文分校提供的物联网（IoT）编程入门课程认证专业