Curso en línea – especialización profesional certificada en aprendizaje por refuerzo de la Universidad de Alberta

Dominar los conceptos de aprendizaje por refuerzo. Implemente una solución completa de RL y comprenda cómo utilizar herramientas de inteligencia artificial para resolver problemas del mundo real.

Suggested by: Coursera (What is Coursera?)

Professional Certificate

nivel intermedio

No prior knowledge required

Time to complete the course

7-day free trial

No unnecessary risks

Skills you will acquire in the course

  • estimaciones de funciones
  • inteligencia artificial (IA)
  • aprendizaje por computadora
  • Aprendizaje por refuerzo
  • sistemas inteligentes

What you will learn in the course

Courses for which the course is suitable

  • desarrollador de juegos (IA)
  • Desarrolla sistemas de interacción con el cliente.
  • Desarrollar asistentes inteligentes
  • Desarrollador de sistemas de recomendación
  • gerente de cadena de suministro
  • Desarrollador de controles industriales
  • Clave en el ámbito del desarrollo financiero
  • Responsable de líneas de petróleo y gas.
  • Desarrollador de sistemas de control industrial.

Pasantía: una serie de cursos de 4 partes

La especialización en aprendizaje por refuerzo incluye 4 cursos que exploran el poder de los sistemas de aprendizaje adaptativo y la inteligencia artificial (IA). Para aprovechar todo el potencial de la inteligencia artificial, se necesitan sistemas de aprendizaje adaptados. Aprenderá cómo las soluciones de aprendizaje por refuerzo (RL) ayudan a resolver problemas del mundo real mediante la interacción de prueba y error, mediante la implementación de una solución RL completa de principio a fin.

Al final de la pasantía, los estudiantes comprenderán los conceptos básicos de muchas de las tecnologías modernas en inteligencia artificial (IA) y estarán listos para pasar a cursos más avanzados o aplicar herramientas de ideación de IA a problemas del mundo real. El contenido se centrará en problemas de «pequeña escala» para comprender los fundamentos del aprendizaje por refuerzo, mientras será impartido por expertos de renombre mundial de la Facultad de Ciencias de la Universidad de Alberta.

Las herramientas aprendidas en esta especialización se pueden adaptar a:

  • desarrollo de juegos (IA)
  • Interacción con el cliente (cómo interactúa un sitio web con los clientes)
  • Ayudantes inteligentes
  • Sistemas de recomendación
  • Gestión de la cadena de suministro
  • controles industriales
  • Desarrollo financiero
  • Líneas de petróleo y gas
  • Sistemas de control industriales

Proyecto de aprendizaje aplicado

A través de tareas de programación y cuestionarios, los estudiantes:

  • Construirán un sistema de aprendizaje por refuerzo que sepa tomar decisiones automáticas.
  • Comprenda cómo RL se relaciona y encaja en el ámbito más amplio del aprendizaje automático, el aprendizaje profundo y el aprendizaje supervisado y no supervisado.
  • Comprenderán el espacio de los algoritmos RL (aprendizaje a través de diferencias temporales, Monte Carlo, Cersa, Q-learning, Policy Gradient, Dina y más).
  • Comprenderán cómo formular su tarea como un problema de RL y cómo comenzar a implementar una solución.

Details of the courses that make up the specialization

Los fundamentos del aprendizaje retenido

Curso 1

  • 15 horas
  • 4,8 (2.771 valoraciones)

Detalles del curso

¿Qué aprenderás?
  • Describir los problemas como procesos de toma de decisiones de Markov.
  • Comprender los métodos básicos de exploración y el equilibrio exploración/explotación.
  • Comprender las funciones de valor, como herramienta general para tomar decisiones óptimas.
  • Saber aplicar la programación dinámica como enfoque de solución eficaz a un problema de control industrial.
Las habilidades que adquirirás
  • Categoría: optimización de funciones
  • Categoría: Inteligencia Artificial (IA)
  • Categoría: aprendizaje repetido
  • Categoría: para máquina
  • Categoría: sistemas inteligentes

Métodos de aprendizaje basados ​​en ejemplos

Curso 2

  • 22 horas
  • 4,8 (1.228 valoraciones)

Detalles del curso

¿Qué aprenderás?

En este curso aprenderá sobre varios algoritmos que pueden aprender políticas casi óptimas basadas en la interacción con el entorno, aprendiendo de la experiencia personal del agente. Aprender de la experiencia práctica es impresionante porque no requiere conocimiento previo de la dinámica del entorno, pero aún así puede lograr un comportamiento óptimo. Discutiremos los métodos Monte Carlo simples pero poderosos y los métodos de aprendizaje por diferencia horaria, incluido Q-learning. Concluiremos el curso explorando cómo podemos combinar los dos mundos: algoritmos que pueden combinar planificación basada en modelos (similar a la programación dinámica) y actualizaciones en intervalos de tiempo para acelerar drásticamente el aprendizaje.

Al finalizar este curso podrás:
  • Comprender el aprendizaje por diferencias temporales y Monte Carlo como dos estrategias para estimar funciones de valor a partir de experiencias muestreadas.
  • Comprender la importancia de la exploración cuando se utiliza experiencia modelada en lugar de rutas de programación dinámicas dentro de un modelo.
  • Comprender las conexiones entre Monte Carlo, la programación dinámica y el aprendizaje por diferencia horaria.
  • Implementar e implementar el algoritmo TD, para evaluar funciones de valor.
  • Aplicar e implementar el esperado Sarsa y Q-learning (dos métodos TD para control)
  • Comprender la diferencia entre el control dentro y fuera de las políticas
  • Comprender la planificación con experiencia en simulación (a diferencia de las estrategias de planificación tradicionales)
  • Implementar un enfoque de RL basado en modelos, llamado Dyna, que utiliza experiencia de simulación.
  • Realice una investigación empírica para ver las mejoras en la eficiencia de las muestras al utilizar Dyna.
Las habilidades que adquirirás
  • Categoría: optimización de funciones
  • Categoría: Inteligencia Artificial (IA)
  • Categoría: aprendizaje repetido
  • Categoría: para máquina
  • Categoría: sistemas inteligentes

Predicción y control con optimización de funciones.

Curso 3

  • 21 horas
  • 4,8 (820 valoraciones)

Detalles del curso

¿Qué aprenderás?

En este curso aprenderás a resolver problemas con espacios de estados grandes, multidimensionales e infinitos posibles. Verá que la evaluación de funciones de valor se puede presentar como un problema de aprendizaje supervisado (optimización de funciones) que le permite crear agentes que equilibran cuidadosamente la generalización y la diferenciación para maximizar la recompensa. Comenzaremos este viaje explorando cómo los métodos de evaluación o predicción de políticas, como Monte Carlo y TD, pueden extenderse para definir la optimización de funciones. Aprenderá sobre técnicas de creación de características para RL y aprenderá representaciones utilizando redes neuronales y repetición. Terminaremos este curso con una inmersión profunda en los métodos de gradiente de políticas; Una forma de aprender políticas directamente sin aprender una función de valor. En este curso, resolverá dos tareas de control de modo continuo y explorará las ventajas de los métodos de gradiente de políticas en un entorno de operación continua. Requisitos previos: este curso se basa en gran medida en los fundamentos de los cursos 1 y 2, y los alumnos deben completarlos antes de comenzar este curso. Los estudiantes también deben sentirse cómodos con probabilidades y expectativas, álgebra lineal básica, cálculo básico, Python 3.0 (al menos un año) y la implementación de algoritmos de pseudocódigo.

Al finalizar este curso podrás:
  • Comprender cómo utilizar enfoques de aprendizaje supervisado para estimar funciones de valor.
  • Comprender los objetivos de predicción (estimación de valor) en la optimización de funciones
  • Aplicar TD con optimización de funciones (agregación de estados), en un entorno con espacio de estados infinito (espacio de estados continuo)
  • Comprender los enfoques de base fija y las redes neuronales para la creación de funciones.
  • Aplicar TD con optimización de funciones utilizando redes neuronales en un entorno de estado continuo.
  • Comprender las nuevas dificultades en la investigación al pasar a la optimización de funciones
  • Comparar la presentación de problemas de descuento para control versus la presentación de problemas de incentivos promedio
  • Aplicar Sarsa y Q-learning esperados con optimización de funciones en una tarea de control en modo continuo
  • Comprender los objetivos para la evaluación directa de políticas (objetivos de gradiente de políticas)
  • Aplicar un método de gradiente de políticas (llamado Actor-Crítico) en un entorno de estado discreto
Las habilidades que adquirirás
  • Categoría: optimización de funciones
  • Categoría: Inteligencia Artificial (IA)
  • Categoría: aprendizaje repetido
  • Categoría: para máquina
  • Categoría: sistemas inteligentes

Sistema de aprendizaje completo y mantenido (capstone)

Curso 4

  • 15 horas
  • 4,7 (627 valoraciones)

Detalles del curso

¿Qué aprenderás?

En este curso final, combinará sus conocimientos de los cursos 1, 2 y 3 para implementar una solución RL completa para un problema. Este final le permitirá ver cómo cada componente (formulación de problemas, selección de algoritmos, selección de parámetros y diseño de representación) encaja en una solución completa y cómo tomar decisiones apropiadas al aplicar RL en el mundo real. Este proyecto requerirá que implemente tanto el entorno de estimulación para su problema como un agente de control con optimización de la función de la red neuronal. Además, realizarás un estudio científico de tu sistema de aprendizaje para desarrollar tu capacidad de evaluar la solidez de Aganti RL. Para utilizar RL en el mundo real, es fundamental (a) formular adecuadamente el problema como un proceso de decisión de Markov, (b) elegir los algoritmos apropiados, (c) identificar qué opciones en su implementación tendrán un gran impacto en el rendimiento, y (d) ) para verificar el comportamiento esperado de sus algoritmos. Este punto culminante es útil para cualquiera que planee utilizar RL para resolver problemas del mundo real. Para tener éxito en este curso, deberá completar los cursos 1, 2 y 3 de esta especialización o su equivalente.

Al finalizar este curso podrás:
  • Complete una solución RL al problema, comenzando con la formulación del problema, eligiendo un algoritmo apropiado e implementándolo, y terminando con una investigación empírica sobre la efectividad de la solución.
Las habilidades que adquirirás
  • Categoría: optimización de funciones
  • Categoría: Inteligencia Artificial (IA)
  • Categoría: aprendizaje repetido
  • categoría: a máquina
  • Categoría: sistemas inteligentes