Beheers de concepten van versterkend leren. Implementeer een complete RL-oplossing en begrijp hoe u AI-tools kunt gebruiken om problemen uit de echte wereld op te lossen.
Suggested by: Coursera (What is Coursera?)
No prior knowledge required
No unnecessary risks
De specialisatie in versterkend leren omvat 4 cursussen die de kracht van adaptieve leersystemen en kunstmatige intelligentie (AI) onderzoeken. Om het volledige potentieel van kunstmatige intelligentie te benutten zijn aangepaste leersystemen nodig. Je leert hoe oplossingen voor versterkend leren (RL) echte problemen helpen oplossen door de interactie van vallen en opstaan, door een complete RL-oplossing van begin tot eind te implementeren.
Aan het einde van de stage zullen de leerlingen de basisprincipes van veel van de moderne technologieën op het gebied van kunstmatige intelligentie (AI) begrijpen en zullen ze klaar zijn om door te gaan naar meer geavanceerde cursussen of om AI-ideatietools toe te passen op problemen uit de echte wereld. De inhoud zal zich richten op “kleinschalige” problemen om de grondbeginselen van versterkend leren te begrijpen, terwijl het wordt gegeven door wereldberoemde experts van de Universiteit van Alberta, Faculteit Wetenschappen.
Door middel van programmeeropdrachten en quizzen kunnen studenten:
In deze cursus leer je over verschillende algoritmen die vrijwel optimaal beleid kunnen leren op basis van interactie met de omgeving – waarbij je leert van de persoonlijke ervaring van de agent. Leren uit praktijkervaring is indrukwekkend omdat het geen voorkennis van de dynamiek van de omgeving vereist, maar toch optimaal gedrag kan bereiken. We bespreken de eenvoudige maar krachtige Monte Carlo-methoden en leermethoden voor tijdsverschil, waaronder Q-learning. We sluiten de cursus af door te onderzoeken hoe we de twee werelden kunnen combineren: algoritmen die modelgebaseerde planning kunnen combineren (vergelijkbaar met dynamisch programmeren) en time-lapse-updates om het leren dramatisch te versnellen.
In deze cursus leer je hoe je problemen met grote, multidimensionale en oneindig mogelijke toestandsruimten kunt oplossen. Je zult zien dat de evaluatie van waardefuncties kan worden gepresenteerd als een probleem van leren onder toezicht – functie-optimalisatie – waardoor je agenten kunt bouwen die generalisatie en differentiatie zorgvuldig in evenwicht brengen om de beloning te maximaliseren. We beginnen deze reis door te onderzoeken hoe beleidsevaluatie- of voorspellingsmethoden zoals Monte Carlo en TD kunnen worden uitgebreid tot het definiëren van functieoptimalisatie. Je leert over technieken voor het bouwen van features voor RL en het leren van representaties met behulp van neurale netwerken en herhaling. We sluiten deze cursus af met een diepgaande duik in beleidsgradiëntmethoden; Een manier om beleid direct te leren zonder een waardefunctie te leren. In deze cursus los je twee continue moduscontroletaken op en onderzoek je de voordelen van beleidsgradiëntmethoden in een continue bedrijfsomgeving. Vereisten: Deze cursus bouwt sterk voort op de fundamenten van cursus 1 en 2, en studenten moeten deze voltooien voordat ze aan deze cursus beginnen. Leerlingen moeten ook vertrouwd zijn met waarschijnlijkheden en verwachtingen, elementaire lineaire algebra, elementaire calculus, Python 3.0 (minstens één jaar) en het implementeren van pseudocode-algoritmen.
In deze laatste cursus combineer je je kennis uit cursus 1, 2 en 3 om een complete RL-oplossing voor een probleem te implementeren. Met deze sluitsteen kunt u zien hoe elk onderdeel – probleemformulering, algoritmeselectie, parameterselectie en representatieontwerp – samen past in een complete oplossing, en hoe u de juiste keuzes kunt maken bij het toepassen van RL in de echte wereld. Voor dit project moet u zowel de stimulatieomgeving voor uw probleem implementeren als een controleagent met optimalisatie van de neurale netwerkfunctie. Daarnaast voert u een wetenschappelijk onderzoek uit naar uw leersysteem om uw vermogen te ontwikkelen om de robuustheid van Aganti RL te evalueren. Om RL in de echte wereld te gebruiken, is het van cruciaal belang om (a) het probleem correct te formuleren als een Markov-beslissingsproces, (b) de juiste algoritmen te kiezen, (c) te identificeren welke keuzes in uw implementatie een grote impact zullen hebben op de prestaties, en (d) ) om het verwachte gedrag van uw algoritmen te verifiëren. Deze sluitsteen is nuttig voor iedereen die van plan is RL te gebruiken om problemen uit de echte wereld op te lossen. Om voor deze cursus te slagen, moet je de cursussen 1, 2 en 3 van deze specialisatie of het equivalent daarvan voltooien.