掌握强化学习的概念。实施完整的 RL 解决方案,并了解如何使用 AI 工具解决实际问题。
Suggested by: Coursera (What is Coursera?)
No prior knowledge required
No unnecessary risks
强化学习专业包括 4 门课程,探索自适应学习系统和人工智能 (AI) 的力量。为了释放人工智能的全部潜力,需要量身定制的学习系统。您将了解强化学习 (RL) 解决方案如何通过反复试验的交互,从头到尾实施完整的 RL 解决方案来帮助解决实际问题。
实习完成后,学习者将了解人工智能 (AI) 中许多现代技术的基础知识,并准备好学习更高级的课程或将 AI 创意工具应用于现实世界的问题。内容将侧重于“小规模”问题,以了解强化学习的基础知识,由阿尔伯塔大学理学院的世界知名专家讲授。
通过编码任务和测验,学生将:
在本课程中,您将学习几种算法,这些算法可以根据与环境的交互学习几乎最优的策略——从代理的个人经验中学习。从实践经验中学习令人印象深刻,因为它不需要环境动态的先验知识,但仍然可以实现最佳行为。我们将讨论简单但强大的蒙特卡洛方法,以及包括 Q-learning 在内的时差学习方法。在课程的最后,我们将探索如何将这两个领域结合起来:可以将基于模型的设计(类似于动态规划)和时差更新相结合的算法,以显著加快学习速度。
在本课程中,您将学习如何解决大、多维和无限可能空间的问题。您将看到,价值函数估计可以表示为监督式学习问题(函数优化),它允许您构建仔细平衡泛化和差异化的代理,以实现奖励最大化。我们将通过探索如何利用 Monte Carlo 和 TD 等策略或预测评估方法来定义函数优化来开始此旅程。您将学习 RL 的特征构建技术,并使用神经网络和马辐射学习表示。我们将以深入的跳过策略梯度方法来结束本课程;一种无需学习价值函数即可直接学习策略的方法。在本课程中,您将使用连续模式解决两个控制任务,并探索策略梯度方法在连续运行环境中的优势。先决条件:本课程以课程 1 和 2 的基础为基础,学习者应在开始本课程之前完成这些课程。学习者还应该熟悉概率和期望、基本线性代数、基本微积分、Python 3.0(至少 1 年)以及伪代码算法的应用。
在最后一门课程中,您将结合课程 1、2 和 3 中的知识,为问题实施完整的 RL 解决方案。本顶点将让您了解每个组件(问题表述、算法选择、参数选择和表示设计)如何组合成一个完整的解决方案,以及在现实世界中实现 RL 时如何做出适当的选择。该项目将要求您应用环境来激发您的问题,以及具有优化神经网络功能的控制代理。此外,您将对您的学习系统进行科学研究,以培养您评估 Aganti RL 弹性的能力。要在现实世界中使用 RL,关键是 (a) 将问题正确表述为马尔可夫决策过程,(b) 选择合适的算法,(c) 确定实现中的哪些选择将对性能产生重大影响,以及 (d) 验证算法的预期行为。这个顶点对于计划使用 RL 解决实际问题的任何人都很有用。要成功完成本课程,您需要完成本专业的课程 1、2 和 3 或同等课程。