Онлайн-курс – сертифицированная профессиональная специализация по обучению с подкреплением Университета Альберты.

Освойте концепции обучения с подкреплением. Внедрите комплексное решение RL и поймите, как использовать инструменты искусственного интеллекта для решения реальных проблем.

Suggested by: Coursera (What is Coursera?)

Professional Certificate

Средний уровень

No prior knowledge required

Time to complete the course

7-day free trial

No unnecessary risks

Skills you will acquire in the course

  • оценки функций
  • искусственный интеллект (ИИ)
  • компьютерное обучение
  • Обучение с подкреплением
  • интеллектуальные системы

What you will learn in the course

Courses for which the course is suitable

  • разработчик игр (ИИ)
  • Разрабатывает системы взаимодействия с клиентами
  • Разработайте умных помощников
  • Разработчик рекомендательных систем
  • Менеджер по снабжению
  • Разработчик промышленного контроля
  • Ключ в сфере финансового развития
  • Менеджер нефте- и газопроводов
  • Разработчик промышленных систем управления

Стажировка — серия курсов из 4 частей.

Специализация по обучению с подкреплением включает 4 курса, в которых изучаются возможности систем адаптивного обучения и искусственного интеллекта (ИИ). Чтобы использовать весь потенциал искусственного интеллекта, необходимы адаптированные системы обучения. Вы узнаете, как решения обучения с подкреплением (RL) помогают решать реальные проблемы методом проб и ошибок, внедряя полное решение RL от начала до конца.

К концу стажировки учащиеся поймут основы многих современных технологий искусственного интеллекта (ИИ) и будут готовы перейти к более продвинутым курсам или применить инструменты ИИ для решения реальных проблем. Контент будет сосредоточен на «мелкомасштабных» проблемах, чтобы понять основы обучения с подкреплением, а преподавать будут всемирно известные эксперты с факультета естественных наук Университета Альберты.

Инструменты, изученные по этой специализации, можно адаптировать для:

  • разработка игр (ИИ)
  • Взаимодействие с клиентами (как веб-сайт взаимодействует с клиентами)
  • Умные помощники
  • Рекомендательные системы
  • Управление цепочками поставок
  • промышленный контроль
  • Финансовое развитие
  • Нефтяные и газовые трубопроводы
  • Промышленные системы управления

Прикладной учебный проект

С помощью заданий по программированию и викторин учащиеся:

  • Они построят систему обучения с подкреплением, которая умеет принимать автоматические решения.
  • Поймите, как RL соотносится и вписывается в более широкую сферу машинного обучения, глубокого обучения, обучения с учителем и без учителя.
  • Они поймут пространство алгоритмов RL (обучение через временную разницу, Монте-Карло, Cersa, Q-learning, Policy Gradient, Dina и другие).
  • Они поймут, как сформулировать вашу задачу как проблему RL и как начать реализацию решения.

Details of the courses that make up the specialization

Основы непрерывного обучения

Курс 1

  • 15 часов
  • 4,8 (2771 оценка)

Детали курса

чему ты научишься
  • Описывать проблемы как марковские процессы принятия решений.
  • Понимание основных методов разведки и баланса разведки/эксплуатации.
  • Понимать функции стоимости как общий инструмент для принятия оптимальных решений.
  • Знать, как применять динамическое программирование как эффективный подход к решению проблемы промышленного управления.
Навыки, которые вы приобретете
  • категория: оптимизация функции
  • Категория: Искусственный интеллект (ИИ)
  • Категория: повторное обучение
  • Категория: для машины
  • Категория: умные системы

Методы обучения на основе примеров

Курс 2

  • 22 часа
  • 4,8 (1228 оценок)

Детали курса

чему ты научишься

В этом курсе вы узнаете о нескольких алгоритмах, которые могут изучать почти оптимальные политики на основе взаимодействия с окружающей средой — на основе личного опыта агента. Обучение на практическом опыте впечатляет, поскольку оно не требует предварительного знания динамики окружающей среды, но все же позволяет добиться оптимального поведения. Мы обсудим простые, но мощные методы Монте-Карло и методы обучения с разницей во времени, включая Q-обучение. Мы завершим курс изучением того, как мы можем объединить два мира: алгоритмы, которые могут сочетать планирование на основе моделей (аналогично динамическому программированию) и временные обновления для значительного ускорения обучения.

В конце этого курса вы сможете:
  • Понять обучение с разницей во времени и метод Монте-Карло как две стратегии оценки функций ценности на основе выборочного опыта.
  • Понимать важность исследования при использовании смоделированного опыта, а не маршрутов динамического программирования внутри модели.
  • Понять связь между Монте-Карло, динамическим программированием и обучением с разницей во времени.
  • Реализуйте и реализуйте алгоритм TD для оценки функций значения.
  • Применить и внедрить прогнозирующую Сарсу и Q-обучение (два метода TD для контроля)
  • Поймите разницу между контролем в соответствии с политикой и контролем вне политики.
  • Понимать планирование с помощью опыта моделирования (в отличие от традиционных стратегий планирования)
  • Внедрить основанный на модели подход к RL, называемый Dyna, который использует опыт моделирования.
  • Проведите эмпирическое исследование, чтобы увидеть повышение эффективности выборки при использовании Dyna.
Навыки, которые вы приобретете
  • Категория: оптимизация функций
  • Категория: Искусственный интеллект (ИИ)
  • Категория: повторное обучение
  • Категория: для машины
  • категория: Умные системы

Прогнозирование и контроль с оптимизацией функций

Курс 3

  • 21 час
  • 4,8 (820 оценок)

Детали курса

чему ты научишься

В этом курсе вы научитесь решать задачи с большими, многомерными и бесконечными пространствами состояний. Вы увидите, что оценку функций ценности можно представить как задачу контролируемого обучения — оптимизации функций, — которая позволяет создавать агентов, которые тщательно балансируют обобщение и дифференциацию для максимизации вознаграждения. Мы начнем это путешествие с изучения того, как методы оценки политики или прогнозирования, такие как Монте-Карло и TD, могут быть расширены для определения оптимизации функций. Вы узнаете о методах построения функций для RL и изучении представлений с использованием нейронных сетей и повторения. Мы закончим этот курс углубленным изучением методов политического градиента; Способ изучения политики напрямую, без изучения функции ценности. В этом курсе вы решите две задачи управления непрерывным режимом и изучите преимущества методов градиентной политики в среде непрерывной работы. Предварительные требования: Этот курс в значительной степени основан на основах курсов 1 и 2, и учащиеся должны пройти их перед началом курса. Учащиеся также должны быть знакомы с вероятностями и ожиданиями, основами линейной алгебры, основами исчисления, Python 3.0 (не менее одного года) и реализацией алгоритмов псевдокода.

В конце этого курса вы сможете:
  • Понять, как использовать подходы обучения с учителем для оценки функций стоимости.
  • Понимание целей прогнозирования (оценки значения) при оптимизации функции
  • Применяйте TD с оптимизацией функций (агрегирование состояний) в среде с бесконечным пространством состояний (непрерывное пространство состояний)
  • Понимание подходов с фиксированной базой и нейронных сетей для построения функций.
  • Примените TD с оптимизацией функций с использованием нейронных сетей в среде с непрерывным состоянием.
  • Понять новые трудности в исследованиях при переходе к оптимизации функций.
  • Сравнить представление задач дисконтирования для контроля и представление задач среднего стимулирования.
  • Примените ожидаемый Сарса и Q-обучение с оптимизацией функций в задаче управления в непрерывном режиме.
  • Понять цели прямой оценки политики (цели градиента политики)
  • Примените метод градиента политики (называемый «Актор-критик») в среде с дискретным состоянием.
Навыки, которые вы приобретете
  • Категория: оптимизация функций
  • Категория: Искусственный интеллект (ИИ)
  • Категория: повторное обучение
  • Категория: для машины
  • Категория: умные системы

Полная поддерживаемая система обучения (capstone)

Курс 4

  • 15 часов
  • 4,7 (627 оценок)

Детали курса

чему ты научишься

В этом заключительном курсе вы объедините свои знания из курсов 1, 2 и 3, чтобы реализовать полное решение проблемы с помощью RL. Этот краеугольный камень позволит вам увидеть, как каждый компонент — формулировка проблемы, выбор алгоритма, выбор параметров и дизайн представления — вписывается в комплексное решение и как сделать правильный выбор при применении RL в реальном мире. Этот проект потребует от вас реализации как среды стимуляции для вашей задачи, так и агента управления с оптимизацией функций нейронной сети. Кроме того, вы проведете научное исследование своей системы обучения, чтобы развить способность оценивать надежность Aganti RL. Чтобы использовать RL в реальном мире, крайне важно (а) правильно сформулировать проблему как марковский процесс принятия решений, (б) выбрать подходящие алгоритмы, (в) определить, какие варианты в вашей реализации окажут большое влияние на производительность, и (d) ) для проверки ожидаемого поведения ваших алгоритмов. Этот краеугольный камень будет полезен всем, кто планирует использовать RL для решения реальных проблем. Чтобы добиться успеха на этом курсе, вам необходимо пройти курсы 1, 2 и 3 по этой специализации или их эквивалент.

В конце этого курса вы сможете:
  • Завершить RL-решение проблемы, начиная с формулировки проблемы, выбора подходящего алгоритма и его реализации, вплоть до эмпирического исследования эффективности решения.
Навыки, которые вы приобретете
  • Категория: оптимизация функций
  • Категория: Искусственный интеллект (ИИ)
  • Категория: повторное обучение
  • Категория: для машины
  • Категория: умные системы