Online cursus – gecertificeerde professionele specialisatie in versterkend leren van de Universiteit van Alberta

Beheers de concepten van versterkend leren. Implementeer een complete RL-oplossing en begrijp hoe u AI-tools kunt gebruiken om problemen uit de echte wereld op te lossen.

Suggested by: Coursera (What is Coursera?)

Professional Certificate

Gemiddeld niveau

No prior knowledge required

Time to complete the course

7-day free trial

No unnecessary risks

Skills you will acquire in the course

  • functie schattingen
  • kunstmatige intelligentie (AI)
  • computer leren
  • Versterkend leren
  • intelligente systemen

What you will learn in the course

Courses for which the course is suitable

  • game-ontwikkelaar (AI)
  • Ontwikkelt klantinteractiesystemen
  • Ontwikkel slimme assistenten
  • Aanbeveling systeemontwikkelaar
  • Ketenmanager
  • Ontwikkelaar van industriële besturingen
  • Sleutel op het gebied van financiële ontwikkeling
  • Manager van olie- en gasleidingen
  • Ontwikkelaar van industriële besturingssystemen

Stage – een reeks van 4-delige cursussen

De specialisatie in versterkend leren omvat 4 cursussen die de kracht van adaptieve leersystemen en kunstmatige intelligentie (AI) onderzoeken. Om het volledige potentieel van kunstmatige intelligentie te benutten zijn aangepaste leersystemen nodig. Je leert hoe oplossingen voor versterkend leren (RL) echte problemen helpen oplossen door de interactie van vallen en opstaan, door een complete RL-oplossing van begin tot eind te implementeren.

Aan het einde van de stage zullen de leerlingen de basisprincipes van veel van de moderne technologieën op het gebied van kunstmatige intelligentie (AI) begrijpen en zullen ze klaar zijn om door te gaan naar meer geavanceerde cursussen of om AI-ideatietools toe te passen op problemen uit de echte wereld. De inhoud zal zich richten op “kleinschalige” problemen om de grondbeginselen van versterkend leren te begrijpen, terwijl het wordt gegeven door wereldberoemde experts van de Universiteit van Alberta, Faculteit Wetenschappen.

De tools die in deze specialisatie worden geleerd, kunnen worden aangepast aan:

  • game-ontwikkeling (AI)
  • Klantinteractie (hoe een website met klanten omgaat)
  • Slimme helpers
  • Aanbevolen systemen
  • Beheer van de toeleveringsketen
  • industriële controle
  • Financiële ontwikkeling
  • Olie- en gasleidingen
  • Industriële besturingssystemen

Toegepast leerproject

Door middel van programmeeropdrachten en quizzen kunnen studenten:

  • Ze zullen een versterkend leersysteem bouwen dat automatische beslissingen kan nemen.
  • Begrijp hoe RL zich verhoudt tot en past onder de bredere paraplu van machine learning, deep learning, begeleid en onbewaakt leren.
  • Ze zullen de ruimte van RL-algoritmen begrijpen (leren door temporele verschillen, Monte Carlo, Cersa, Q-learning, Policy Gradient, Dina en meer).
  • Zij zullen begrijpen hoe u uw taak als een RL-probleem kunt formuleren en hoe u een oplossing kunt implementeren.

Details of the courses that make up the specialization

De basisprincipes van behouden leren

Cursus 1

  • 15 uur
  • 4,8 (2.771 beoordelingen)

Cursusdetails

wat ga je leren
  • problemen omschrijven als Markov-besluitvormingsprocessen
  • Begrijp de basismethoden voor verkenning en de balans tussen verkenning en exploitatie
  • Begrijp waardefuncties als een algemeen hulpmiddel voor het nemen van optimale beslissingen
  • Weet hoe u dynamisch programmeren kunt toepassen als een effectieve oplossingsbenadering voor een industrieel besturingsprobleem
De vaardigheden die je gaat verwerven
  • Categorie: functie-optimalisatie
  • Categorie: Kunstmatige Intelligentie (AI)
  • Categorie: herhaald leren
  • Categorie: voor machine
  • Categorie: slimme systemen

Voorbeeldgebaseerde leermethoden

Cursus 2

  • 22 uur
  • 4,8 (1.228 beoordelingen)

Cursusdetails

wat ga je leren

In deze cursus leer je over verschillende algoritmen die vrijwel optimaal beleid kunnen leren op basis van interactie met de omgeving – waarbij je leert van de persoonlijke ervaring van de agent. Leren uit praktijkervaring is indrukwekkend omdat het geen voorkennis van de dynamiek van de omgeving vereist, maar toch optimaal gedrag kan bereiken. We bespreken de eenvoudige maar krachtige Monte Carlo-methoden en leermethoden voor tijdsverschil, waaronder Q-learning. We sluiten de cursus af door te onderzoeken hoe we de twee werelden kunnen combineren: algoritmen die modelgebaseerde planning kunnen combineren (vergelijkbaar met dynamisch programmeren) en time-lapse-updates om het leren dramatisch te versnellen.

Aan het einde van deze cursus kun je:
  • Begrijp het leren van tijdsverschillen en Monte Carlo als twee strategieën voor het schatten van waardefuncties op basis van bemonsterde ervaringen
  • Begrijp het belang van verkenning bij het gebruik van gemodelleerde ervaringen in plaats van dynamische programmeerroutes binnen een model
  • Begrijp de verbanden tussen Monte Carlo, dynamisch programmeren en leren van tijdsverschillen
  • Implementeer en implementeer het TD-algoritme voor het evalueren van waardefuncties
  • Toepassen en implementeren van voorspellende Sarsa en Q-learning (twee TD-methoden voor controle)
  • Begrijp het verschil tussen controle binnen het beleid en controle buiten het beleid
  • Begrijp planning met simulatie-ervaring (in tegenstelling tot traditionele planningsstrategieën)
  • Implementeer een modelgebaseerde benadering van RL, genaamd Dyna, die gebruikmaakt van simulatie-ervaring
  • Voer empirisch onderzoek uit om de verbeteringen in de monsterefficiëntie te zien bij het gebruik van Dyna
De vaardigheden die je gaat verwerven
  • Categorie: functie-optimalisatie
  • Categorie: Kunstmatige Intelligentie (AI)
  • Categorie: herhaald leren
  • Categorie: voor machine
  • Categorie: slimme systemen

Voorspelling en controle met functie-optimalisatie

Cursus 3

  • 21 uur
  • 4,8 (820 beoordelingen)

Cursusdetails

wat ga je leren

In deze cursus leer je hoe je problemen met grote, multidimensionale en oneindig mogelijke toestandsruimten kunt oplossen. Je zult zien dat de evaluatie van waardefuncties kan worden gepresenteerd als een probleem van leren onder toezicht – functie-optimalisatie – waardoor je agenten kunt bouwen die generalisatie en differentiatie zorgvuldig in evenwicht brengen om de beloning te maximaliseren. We beginnen deze reis door te onderzoeken hoe beleidsevaluatie- of voorspellingsmethoden zoals Monte Carlo en TD kunnen worden uitgebreid tot het definiëren van functieoptimalisatie. Je leert over technieken voor het bouwen van features voor RL en het leren van representaties met behulp van neurale netwerken en herhaling. We sluiten deze cursus af met een diepgaande duik in beleidsgradiëntmethoden; Een manier om beleid direct te leren zonder een waardefunctie te leren. In deze cursus los je twee continue moduscontroletaken op en onderzoek je de voordelen van beleidsgradiëntmethoden in een continue bedrijfsomgeving. Vereisten: Deze cursus bouwt sterk voort op de fundamenten van cursus 1 en 2, en studenten moeten deze voltooien voordat ze aan deze cursus beginnen. Leerlingen moeten ook vertrouwd zijn met waarschijnlijkheden en verwachtingen, elementaire lineaire algebra, elementaire calculus, Python 3.0 (minstens één jaar) en het implementeren van pseudocode-algoritmen.

Aan het einde van deze cursus kun je:
  • Begrijp hoe u begeleide leerbenaderingen kunt gebruiken om waardefuncties te schatten
  • Begrijp doelen voor voorspelling (waardeschatting) onder functieoptimalisatie
  • Pas TD toe met functie-optimalisatie (statusaggregatie), in een omgeving met oneindige toestandsruimte (continue toestandsruimte)
  • Begrijp vaste basisbenaderingen en neurale netwerken voor het bouwen van functies
  • Pas TD toe met functie-optimalisatie met behulp van neurale netwerken in een continue omgeving
  • Begrijp de nieuwe moeilijkheden in onderzoek bij de overstap naar functieoptimalisatie
  • Om de presentatie van verdisconteringsproblemen voor controle te vergelijken met de presentatie van gemiddelde prikkelproblemen
  • Pas de verwachte Sarsa- en Q-learning toe met functie-optimalisatie in een continue controletaak
  • Begrijp doelstellingen voor directe beleidsevaluatie (beleidsgradiëntdoelstellingen)
  • Pas een beleidsgradiëntmethode (genaamd Actor-Critic) toe in een discrete statusomgeving
De vaardigheden die je gaat verwerven
  • Categorie: functie-optimalisatie
  • Categorie: Kunstmatige Intelligentie (AI)
  • Categorie: herhaald leren
  • Categorie: voor machine
  • Categorie: slimme systemen

Compleet onderhouden leersysteem (sluitsteen)

Cursus 4

  • 15 uur
  • 4,7 (627 beoordelingen)

Cursusdetails

wat ga je leren

In deze laatste cursus combineer je je kennis uit cursus 1, 2 en 3 om een ​​complete RL-oplossing voor een probleem te implementeren. Met deze sluitsteen kunt u zien hoe elk onderdeel – probleemformulering, algoritmeselectie, parameterselectie en representatieontwerp – samen past in een complete oplossing, en hoe u de juiste keuzes kunt maken bij het toepassen van RL in de echte wereld. Voor dit project moet u zowel de stimulatieomgeving voor uw probleem implementeren als een controleagent met optimalisatie van de neurale netwerkfunctie. Daarnaast voert u een wetenschappelijk onderzoek uit naar uw leersysteem om uw vermogen te ontwikkelen om de robuustheid van Aganti RL te evalueren. Om RL in de echte wereld te gebruiken, is het van cruciaal belang om (a) het probleem correct te formuleren als een Markov-beslissingsproces, (b) de juiste algoritmen te kiezen, (c) te identificeren welke keuzes in uw implementatie een grote impact zullen hebben op de prestaties, en (d) ) om het verwachte gedrag van uw algoritmen te verifiëren. Deze sluitsteen is nuttig voor iedereen die van plan is RL te gebruiken om problemen uit de echte wereld op te lossen. Om voor deze cursus te slagen, moet je de cursussen 1, 2 en 3 van deze specialisatie of het equivalent daarvan voltooien.

Aan het einde van deze cursus kun je:
  • Voltooi een RL-oplossing voor het probleem, beginnend met het formuleren van het probleem, het kiezen van een geschikt algoritme en het implementeren ervan, en eindigend met empirisch onderzoek naar de effectiviteit van de oplossing.
De vaardigheden die je gaat verwerven
  • Categorie: functie-optimalisatie
  • Categorie: Kunstmatige Intelligentie (AI)
  • Categorie: herhaald leren
  • Categorie: voor machine
  • Categorie: slimme systemen