Online cursus – gecertificeerde professionele specialisatie in versterkend leren van de Universiteit van Alberta

Beheers de concepten van versterkend leren. Implementeer een complete RL-oplossing en begrijp hoe u AI-tools kunt gebruiken om problemen uit de echte wereld op te lossen.

Suggested by: Coursera (What is Coursera?)

Start your Coursera.com free trial today

Online cursus - gecertificeerde professionele specialisatie in versterkend leren van de Universiteit van Alberta

Professional Certificate

Gemiddeld niveau

No prior knowledge required

Time to complete the course

7-day free trial

No unnecessary risks

Skills you will acquire in the course

functie schattingen
kunstmatige intelligentie (AI)
computer leren
Versterkend leren
intelligente systemen

What you will learn in the course

Courses for which the course is suitable

game-ontwikkelaar (AI)
Ontwikkelt klantinteractiesystemen
Ontwikkel slimme assistenten
Aanbeveling systeemontwikkelaar
Ketenmanager
Ontwikkelaar van industriële besturingen
Sleutel op het gebied van financiële ontwikkeling
Manager van olie- en gasleidingen
Ontwikkelaar van industriële besturingssystemen

Stage – een reeks van 4-delige cursussen

De specialisatie in versterkend leren omvat 4 cursussen die de kracht van adaptieve leersystemen en kunstmatige intelligentie (AI) onderzoeken. Om het volledige potentieel van kunstmatige intelligentie te benutten zijn aangepaste leersystemen nodig. Je leert hoe oplossingen voor versterkend leren (RL) echte problemen helpen oplossen door de interactie van vallen en opstaan, door een complete RL-oplossing van begin tot eind te implementeren.

Aan het einde van de stage zullen de leerlingen de basisprincipes van veel van de moderne technologieën op het gebied van kunstmatige intelligentie (AI) begrijpen en zullen ze klaar zijn om door te gaan naar meer geavanceerde cursussen of om AI-ideatietools toe te passen op problemen uit de echte wereld. De inhoud zal zich richten op “kleinschalige” problemen om de grondbeginselen van versterkend leren te begrijpen, terwijl het wordt gegeven door wereldberoemde experts van de Universiteit van Alberta, Faculteit Wetenschappen.

De tools die in deze specialisatie worden geleerd, kunnen worden aangepast aan:

game-ontwikkeling (AI)
Klantinteractie (hoe een website met klanten omgaat)
Slimme helpers
Aanbevolen systemen
Beheer van de toeleveringsketen
industriële controle
Financiële ontwikkeling
Olie- en gasleidingen
Industriële besturingssystemen

Toegepast leerproject

Door middel van programmeeropdrachten en quizzen kunnen studenten:

Ze zullen een versterkend leersysteem bouwen dat automatische beslissingen kan nemen.
Begrijp hoe RL zich verhoudt tot en past onder de bredere paraplu van machine learning, deep learning, begeleid en onbewaakt leren.
Ze zullen de ruimte van RL-algoritmen begrijpen (leren door temporele verschillen, Monte Carlo, Cersa, Q-learning, Policy Gradient, Dina en meer).
Zij zullen begrijpen hoe u uw taak als een RL-probleem kunt formuleren en hoe u een oplossing kunt implementeren.

Details of the courses that make up the specialization

De basisprincipes van behouden leren

Cursus 1

15 uur
4,8 (2.771 beoordelingen)

Cursusdetails

wat ga je leren

problemen omschrijven als Markov-besluitvormingsprocessen
Begrijp de basismethoden voor verkenning en de balans tussen verkenning en exploitatie
Begrijp waardefuncties als een algemeen hulpmiddel voor het nemen van optimale beslissingen
Weet hoe u dynamisch programmeren kunt toepassen als een effectieve oplossingsbenadering voor een industrieel besturingsprobleem

De vaardigheden die je gaat verwerven

Categorie: functie-optimalisatie
Categorie: Kunstmatige Intelligentie (AI)
Categorie: herhaald leren
Categorie: voor machine
Categorie: slimme systemen

Voorbeeldgebaseerde leermethoden

Cursus 2

22 uur
4,8 (1.228 beoordelingen)

Cursusdetails

wat ga je leren

In deze cursus leer je over verschillende algoritmen die vrijwel optimaal beleid kunnen leren op basis van interactie met de omgeving – waarbij je leert van de persoonlijke ervaring van de agent. Leren uit praktijkervaring is indrukwekkend omdat het geen voorkennis van de dynamiek van de omgeving vereist, maar toch optimaal gedrag kan bereiken. We bespreken de eenvoudige maar krachtige Monte Carlo-methoden en leermethoden voor tijdsverschil, waaronder Q-learning. We sluiten de cursus af door te onderzoeken hoe we de twee werelden kunnen combineren: algoritmen die modelgebaseerde planning kunnen combineren (vergelijkbaar met dynamisch programmeren) en time-lapse-updates om het leren dramatisch te versnellen.

Aan het einde van deze cursus kun je:

Begrijp het leren van tijdsverschillen en Monte Carlo als twee strategieën voor het schatten van waardefuncties op basis van bemonsterde ervaringen
Begrijp het belang van verkenning bij het gebruik van gemodelleerde ervaringen in plaats van dynamische programmeerroutes binnen een model
Begrijp de verbanden tussen Monte Carlo, dynamisch programmeren en leren van tijdsverschillen
Implementeer en implementeer het TD-algoritme voor het evalueren van waardefuncties
Toepassen en implementeren van voorspellende Sarsa en Q-learning (twee TD-methoden voor controle)
Begrijp het verschil tussen controle binnen het beleid en controle buiten het beleid
Begrijp planning met simulatie-ervaring (in tegenstelling tot traditionele planningsstrategieën)
Implementeer een modelgebaseerde benadering van RL, genaamd Dyna, die gebruikmaakt van simulatie-ervaring
Voer empirisch onderzoek uit om de verbeteringen in de monsterefficiëntie te zien bij het gebruik van Dyna

De vaardigheden die je gaat verwerven

Categorie: functie-optimalisatie
Categorie: Kunstmatige Intelligentie (AI)
Categorie: herhaald leren
Categorie: voor machine
Categorie: slimme systemen

Voorspelling en controle met functie-optimalisatie

Cursus 3

21 uur
4,8 (820 beoordelingen)

Cursusdetails

wat ga je leren

In deze cursus leer je hoe je problemen met grote, multidimensionale en oneindig mogelijke toestandsruimten kunt oplossen. Je zult zien dat de evaluatie van waardefuncties kan worden gepresenteerd als een probleem van leren onder toezicht – functie-optimalisatie – waardoor je agenten kunt bouwen die generalisatie en differentiatie zorgvuldig in evenwicht brengen om de beloning te maximaliseren. We beginnen deze reis door te onderzoeken hoe beleidsevaluatie- of voorspellingsmethoden zoals Monte Carlo en TD kunnen worden uitgebreid tot het definiëren van functieoptimalisatie. Je leert over technieken voor het bouwen van features voor RL en het leren van representaties met behulp van neurale netwerken en herhaling. We sluiten deze cursus af met een diepgaande duik in beleidsgradiëntmethoden; Een manier om beleid direct te leren zonder een waardefunctie te leren. In deze cursus los je twee continue moduscontroletaken op en onderzoek je de voordelen van beleidsgradiëntmethoden in een continue bedrijfsomgeving. Vereisten: Deze cursus bouwt sterk voort op de fundamenten van cursus 1 en 2, en studenten moeten deze voltooien voordat ze aan deze cursus beginnen. Leerlingen moeten ook vertrouwd zijn met waarschijnlijkheden en verwachtingen, elementaire lineaire algebra, elementaire calculus, Python 3.0 (minstens één jaar) en het implementeren van pseudocode-algoritmen.

Aan het einde van deze cursus kun je:

Begrijp hoe u begeleide leerbenaderingen kunt gebruiken om waardefuncties te schatten
Begrijp doelen voor voorspelling (waardeschatting) onder functieoptimalisatie
Pas TD toe met functie-optimalisatie (statusaggregatie), in een omgeving met oneindige toestandsruimte (continue toestandsruimte)
Begrijp vaste basisbenaderingen en neurale netwerken voor het bouwen van functies
Pas TD toe met functie-optimalisatie met behulp van neurale netwerken in een continue omgeving
Begrijp de nieuwe moeilijkheden in onderzoek bij de overstap naar functieoptimalisatie
Om de presentatie van verdisconteringsproblemen voor controle te vergelijken met de presentatie van gemiddelde prikkelproblemen
Pas de verwachte Sarsa- en Q-learning toe met functie-optimalisatie in een continue controletaak
Begrijp doelstellingen voor directe beleidsevaluatie (beleidsgradiëntdoelstellingen)
Pas een beleidsgradiëntmethode (genaamd Actor-Critic) toe in een discrete statusomgeving

De vaardigheden die je gaat verwerven

Categorie: functie-optimalisatie
Categorie: Kunstmatige Intelligentie (AI)
Categorie: herhaald leren
Categorie: voor machine
Categorie: slimme systemen

Compleet onderhouden leersysteem (sluitsteen)

Cursus 4

15 uur
4,7 (627 beoordelingen)

Cursusdetails

wat ga je leren

In deze laatste cursus combineer je je kennis uit cursus 1, 2 en 3 om een complete RL-oplossing voor een probleem te implementeren. Met deze sluitsteen kunt u zien hoe elk onderdeel – probleemformulering, algoritmeselectie, parameterselectie en representatieontwerp – samen past in een complete oplossing, en hoe u de juiste keuzes kunt maken bij het toepassen van RL in de echte wereld. Voor dit project moet u zowel de stimulatieomgeving voor uw probleem implementeren als een controleagent met optimalisatie van de neurale netwerkfunctie. Daarnaast voert u een wetenschappelijk onderzoek uit naar uw leersysteem om uw vermogen te ontwikkelen om de robuustheid van Aganti RL te evalueren. Om RL in de echte wereld te gebruiken, is het van cruciaal belang om (a) het probleem correct te formuleren als een Markov-beslissingsproces, (b) de juiste algoritmen te kiezen, (c) te identificeren welke keuzes in uw implementatie een grote impact zullen hebben op de prestaties, en (d) ) om het verwachte gedrag van uw algoritmen te verifiëren. Deze sluitsteen is nuttig voor iedereen die van plan is RL te gebruiken om problemen uit de echte wereld op te lossen. Om voor deze cursus te slagen, moet je de cursussen 1, 2 en 3 van deze specialisatie of het equivalent daarvan voltooien.

Aan het einde van deze cursus kun je:

Voltooi een RL-oplossing voor het probleem, beginnend met het formuleren van het probleem, het kiezen van een geschikt algoritme en het implementeren ervan, en eindigend met empirisch onderzoek naar de effectiviteit van de oplossing.

De vaardigheden die je gaat verwerven

Categorie: functie-optimalisatie
Categorie: Kunstmatige Intelligentie (AI)
Categorie: herhaald leren
Categorie: voor machine
Categorie: slimme systemen

Online cursus – gecertificeerde professionele specialisatie in versterkend leren van de Universiteit van Alberta

Professional Certificate

Gemiddeld niveau

Time to complete the course

7-day free trial

Skills you will acquire in the course

What you will learn in the course

Courses for which the course is suitable

Stage – een reeks van 4-delige cursussen

De tools die in deze specialisatie worden geleerd, kunnen worden aangepast aan:

Toegepast leerproject

Details of the courses that make up the specialization

De basisprincipes van behouden leren

Cursus 1

Cursusdetails

wat ga je leren

De vaardigheden die je gaat verwerven

Voorbeeldgebaseerde leermethoden

Cursus 2

Cursusdetails

wat ga je leren

Aan het einde van deze cursus kun je:

De vaardigheden die je gaat verwerven

Voorspelling en controle met functie-optimalisatie

Cursus 3

Cursusdetails

wat ga je leren

Aan het einde van deze cursus kun je:

De vaardigheden die je gaat verwerven

Compleet onderhouden leersysteem (sluitsteen)

Cursus 4

Cursusdetails

wat ga je leren

Aan het einde van deze cursus kun je:

De vaardigheden die je gaat verwerven

Gerelateerde producten

Online cursus – gecertificeerde professionele specialisatie in IoT-systemen en industriële toepassingen van LearnQuest

Online cursus – gecertificeerde professionele specialisatie in Java-programmering en software-engineering van Duke University

Online cursus – gecertificeerde professionele specialisatie in data science van Johns Hopkins University

Online cursus – gecertificeerde professionele specialisatie in Java als tweede taal door LearnQuest