Освойте концепции обучения с подкреплением. Внедрите комплексное решение RL и поймите, как использовать инструменты искусственного интеллекта для решения реальных проблем.
Suggested by: Coursera (What is Coursera?)
No prior knowledge required
No unnecessary risks
Специализация по обучению с подкреплением включает 4 курса, в которых изучаются возможности систем адаптивного обучения и искусственного интеллекта (ИИ). Чтобы использовать весь потенциал искусственного интеллекта, необходимы адаптированные системы обучения. Вы узнаете, как решения обучения с подкреплением (RL) помогают решать реальные проблемы методом проб и ошибок, внедряя полное решение RL от начала до конца.
К концу стажировки учащиеся поймут основы многих современных технологий искусственного интеллекта (ИИ) и будут готовы перейти к более продвинутым курсам или применить инструменты ИИ для решения реальных проблем. Контент будет сосредоточен на «мелкомасштабных» проблемах, чтобы понять основы обучения с подкреплением, а преподавать будут всемирно известные эксперты с факультета естественных наук Университета Альберты.
С помощью заданий по программированию и викторин учащиеся:
В этом курсе вы узнаете о нескольких алгоритмах, которые могут изучать почти оптимальные политики на основе взаимодействия с окружающей средой — на основе личного опыта агента. Обучение на практическом опыте впечатляет, поскольку оно не требует предварительного знания динамики окружающей среды, но все же позволяет добиться оптимального поведения. Мы обсудим простые, но мощные методы Монте-Карло и методы обучения с разницей во времени, включая Q-обучение. Мы завершим курс изучением того, как мы можем объединить два мира: алгоритмы, которые могут сочетать планирование на основе моделей (аналогично динамическому программированию) и временные обновления для значительного ускорения обучения.
В этом курсе вы научитесь решать задачи с большими, многомерными и бесконечными пространствами состояний. Вы увидите, что оценку функций ценности можно представить как задачу контролируемого обучения — оптимизации функций, — которая позволяет создавать агентов, которые тщательно балансируют обобщение и дифференциацию для максимизации вознаграждения. Мы начнем это путешествие с изучения того, как методы оценки политики или прогнозирования, такие как Монте-Карло и TD, могут быть расширены для определения оптимизации функций. Вы узнаете о методах построения функций для RL и изучении представлений с использованием нейронных сетей и повторения. Мы закончим этот курс углубленным изучением методов политического градиента; Способ изучения политики напрямую, без изучения функции ценности. В этом курсе вы решите две задачи управления непрерывным режимом и изучите преимущества методов градиентной политики в среде непрерывной работы. Предварительные требования: Этот курс в значительной степени основан на основах курсов 1 и 2, и учащиеся должны пройти их перед началом курса. Учащиеся также должны быть знакомы с вероятностями и ожиданиями, основами линейной алгебры, основами исчисления, Python 3.0 (не менее одного года) и реализацией алгоритмов псевдокода.
В этом заключительном курсе вы объедините свои знания из курсов 1, 2 и 3, чтобы реализовать полное решение проблемы с помощью RL. Этот краеугольный камень позволит вам увидеть, как каждый компонент — формулировка проблемы, выбор алгоритма, выбор параметров и дизайн представления — вписывается в комплексное решение и как сделать правильный выбор при применении RL в реальном мире. Этот проект потребует от вас реализации как среды стимуляции для вашей задачи, так и агента управления с оптимизацией функций нейронной сети. Кроме того, вы проведете научное исследование своей системы обучения, чтобы развить способность оценивать надежность Aganti RL. Чтобы использовать RL в реальном мире, крайне важно (а) правильно сформулировать проблему как марковский процесс принятия решений, (б) выбрать подходящие алгоритмы, (в) определить, какие варианты в вашей реализации окажут большое влияние на производительность, и (d) ) для проверки ожидаемого поведения ваших алгоритмов. Этот краеугольный камень будет полезен всем, кто планирует использовать RL для решения реальных проблем. Чтобы добиться успеха на этом курсе, вам необходимо пройти курсы 1, 2 и 3 по этой специализации или их эквивалент.