Dominar los conceptos de aprendizaje por refuerzo. Implemente una solución completa de RL y comprenda cómo utilizar herramientas de inteligencia artificial para resolver problemas del mundo real.
Suggested by: Coursera (What is Coursera?)
No prior knowledge required
No unnecessary risks
La especialización en aprendizaje por refuerzo incluye 4 cursos que exploran el poder de los sistemas de aprendizaje adaptativo y la inteligencia artificial (IA). Para aprovechar todo el potencial de la inteligencia artificial, se necesitan sistemas de aprendizaje adaptados. Aprenderá cómo las soluciones de aprendizaje por refuerzo (RL) ayudan a resolver problemas del mundo real mediante la interacción de prueba y error, mediante la implementación de una solución RL completa de principio a fin.
Al final de la pasantía, los estudiantes comprenderán los conceptos básicos de muchas de las tecnologías modernas en inteligencia artificial (IA) y estarán listos para pasar a cursos más avanzados o aplicar herramientas de ideación de IA a problemas del mundo real. El contenido se centrará en problemas de «pequeña escala» para comprender los fundamentos del aprendizaje por refuerzo, mientras será impartido por expertos de renombre mundial de la Facultad de Ciencias de la Universidad de Alberta.
A través de tareas de programación y cuestionarios, los estudiantes:
En este curso aprenderá sobre varios algoritmos que pueden aprender políticas casi óptimas basadas en la interacción con el entorno, aprendiendo de la experiencia personal del agente. Aprender de la experiencia práctica es impresionante porque no requiere conocimiento previo de la dinámica del entorno, pero aún así puede lograr un comportamiento óptimo. Discutiremos los métodos Monte Carlo simples pero poderosos y los métodos de aprendizaje por diferencia horaria, incluido Q-learning. Concluiremos el curso explorando cómo podemos combinar los dos mundos: algoritmos que pueden combinar planificación basada en modelos (similar a la programación dinámica) y actualizaciones en intervalos de tiempo para acelerar drásticamente el aprendizaje.
En este curso aprenderás a resolver problemas con espacios de estados grandes, multidimensionales e infinitos posibles. Verá que la evaluación de funciones de valor se puede presentar como un problema de aprendizaje supervisado (optimización de funciones) que le permite crear agentes que equilibran cuidadosamente la generalización y la diferenciación para maximizar la recompensa. Comenzaremos este viaje explorando cómo los métodos de evaluación o predicción de políticas, como Monte Carlo y TD, pueden extenderse para definir la optimización de funciones. Aprenderá sobre técnicas de creación de características para RL y aprenderá representaciones utilizando redes neuronales y repetición. Terminaremos este curso con una inmersión profunda en los métodos de gradiente de políticas; Una forma de aprender políticas directamente sin aprender una función de valor. En este curso, resolverá dos tareas de control de modo continuo y explorará las ventajas de los métodos de gradiente de políticas en un entorno de operación continua. Requisitos previos: este curso se basa en gran medida en los fundamentos de los cursos 1 y 2, y los alumnos deben completarlos antes de comenzar este curso. Los estudiantes también deben sentirse cómodos con probabilidades y expectativas, álgebra lineal básica, cálculo básico, Python 3.0 (al menos un año) y la implementación de algoritmos de pseudocódigo.
En este curso final, combinará sus conocimientos de los cursos 1, 2 y 3 para implementar una solución RL completa para un problema. Este final le permitirá ver cómo cada componente (formulación de problemas, selección de algoritmos, selección de parámetros y diseño de representación) encaja en una solución completa y cómo tomar decisiones apropiadas al aplicar RL en el mundo real. Este proyecto requerirá que implemente tanto el entorno de estimulación para su problema como un agente de control con optimización de la función de la red neuronal. Además, realizarás un estudio científico de tu sistema de aprendizaje para desarrollar tu capacidad de evaluar la solidez de Aganti RL. Para utilizar RL en el mundo real, es fundamental (a) formular adecuadamente el problema como un proceso de decisión de Markov, (b) elegir los algoritmos apropiados, (c) identificar qué opciones en su implementación tendrán un gran impacto en el rendimiento, y (d) ) para verificar el comportamiento esperado de sus algoritmos. Este punto culminante es útil para cualquiera que planee utilizar RL para resolver problemas del mundo real. Para tener éxito en este curso, deberá completar los cursos 1, 2 y 3 de esta especialización o su equivalente.