Çevrimiçi kurs – Alberta Üniversitesi’nin takviye öğreniminde sertifikalı profesyonel uzmanlık

Takviyeli öğrenme kavramlarına hakim olun. Eksiksiz bir RL çözümü uygulayın ve gerçek dünyadaki sorunları çözmek için yapay zeka araçlarının nasıl kullanılacağını anlayın.

Suggested by: Coursera (What is Coursera?)

Professional Certificate

Orta seviye

No prior knowledge required

Time to complete the course

7-day free trial

No unnecessary risks

Skills you will acquire in the course

  • fonksiyon tahminleri
  • yapay zeka (AI)
  • bilgisayar öğrenimi
  • Takviyeli öğrenme
  • akıllı sistemler

What you will learn in the course

Courses for which the course is suitable

  • oyun geliştiricisi (AI)
  • Müşteri etkileşim sistemleri geliştirir
  • Akıllı asistanlar geliştirin
  • Öneri sistemleri geliştiricisi
  • Tedarik zinciri yöneticisi
  • Endüstriyel kontrol geliştiricisi
  • Finansal gelişim alanında anahtar
  • Petrol ve gaz hatları müdürü
  • Endüstriyel kontrol sistemleri geliştiricisi

Staj – 4 bölümlük kurs serisi

Takviyeli öğrenmede uzmanlaşma, uyarlanabilir öğrenme sistemlerinin ve yapay zekanın (AI) gücünü araştıran 4 ders içerir. Yapay zekanın tüm potansiyelinden yararlanmak için uyarlanmış öğrenme sistemlerine ihtiyaç vardır. Takviyeli öğrenme (RL) çözümlerinin, baştan sona eksiksiz bir RL çözümü uygulayarak, deneme yanılma etkileşimi yoluyla gerçek dünyadaki sorunları çözmeye nasıl yardımcı olduğunu öğreneceksiniz.

Stajın sonunda öğrenciler, yapay zekadaki (AI) birçok modern teknolojinin temellerini anlayacak ve daha ileri düzey kurslara geçmeye veya yapay zeka fikir araçlarını gerçek dünya sorunlarına uygulamaya hazır olacaklar. İçerik, Alberta Üniversitesi Fen Fakültesi’nden dünyaca ünlü uzmanlar tarafından öğretilirken, takviyeli öğrenmenin temellerini anlamak için “küçük ölçekli” problemlere odaklanacak.

Bu uzmanlıkta öğrenilen araçlar aşağıdakilere uyarlanabilir:

  • oyun geliştirme (AI)
  • Müşteri etkileşimi (bir web sitesinin müşterilerle nasıl etkileşime girdiği)
  • Akıllı yardımcılar
  • Tavsiye sistemleri
  • Tedarik zinciri yönetimi
  • endüstriyel kontrol
  • Finansal gelişme
  • Petrol ve gaz hatları
  • Endüstriyel kontrol sistemleri

Uygulamalı öğrenme projesi

Programlama ödevleri ve sınavlar aracılığıyla öğrenciler:

  • Otomatik kararların nasıl alınacağını bilen bir takviyeli öğrenme sistemi kuracaklar.
  • RL’nin daha geniş makine öğrenimi, derin öğrenme, denetimli ve denetimsiz öğrenme şemsiyesi ile nasıl ilişkili olduğunu ve bu şemsiyenin altında yer aldığını anlayın.
  • RL algoritmalarının alanını anlayacaklar (zamansal fark yoluyla öğrenme, Monte Carlo, Cersa, Q-öğrenme, Politika Gradyan, Dina ve daha fazlası).
  • Görevinizi bir RL problemi olarak nasıl formüle edeceklerini ve bir çözümü uygulamaya nasıl başlayacaklarını anlayacaklar.

Details of the courses that make up the specialization

Kalıcı öğrenmenin temelleri

Kurs 1

  • 15 saat
  • 4,8 (2.771 derecelendirme)

Kurs detayları

ne öğreneceksin
  • Sorunları Markov karar verme süreçleri olarak tanımlayın
  • Temel keşif yöntemlerini ve keşif/kullanım dengesini anlayın
  • Optimum kararlar almak için genel bir araç olarak değer fonksiyonlarını anlamak
  • Endüstriyel kontrol problemine etkili bir çözüm yaklaşımı olarak dinamik programlamanın nasıl uygulanacağını bilmek
Kazanacağınız beceriler
  • Kategori: fonksiyon optimizasyonu
  • Kategori: Yapay Zeka (AI)
  • kategori: tekrarlanan öğrenme
  • Kategori: makine için
  • Kategori: akıllı sistemler

Örnek tabanlı öğrenme yöntemleri

Kurs 2

  • 22 saat
  • 4,8 (1.228 derecelendirme)

Kurs detayları

ne öğreneceksin

Bu kursta, çevreyle etkileşime dayalı olarak optimale yakın politikaları öğrenebilen, aracının kişisel deneyiminden öğrenebilen çeşitli algoritmalar hakkında bilgi edineceksiniz. Uygulamalı deneyimlerden öğrenmek etkileyicidir çünkü çevrenin dinamikleri hakkında önceden bilgi gerektirmez, ancak yine de en uygun davranışı elde edebilir. Basit ama güçlü Monte Carlo yöntemlerini ve Q-öğrenme dahil zaman farkı öğrenme yöntemlerini tartışacağız. Dersi, iki dünyayı nasıl birleştirebileceğimizi keşfederek sonlandıracağız: öğrenmeyi önemli ölçüde hızlandırmak için model tabanlı planlamayı (dinamik programlamaya benzer) ve hızlandırılmış güncellemeleri birleştirebilen algoritmalar.

Bu kursun sonunda şunları yapabileceksiniz:
  • Örneklenmiş deneyimden değer fonksiyonlarını tahmin etmeye yönelik iki strateji olarak zaman farkı öğrenmeyi ve Monte Carlo’yu anlayın
  • Bir model içindeki dinamik programlama rotaları yerine modellenmiş deneyimi kullanırken keşfetmenin önemini anlayın
  • Monte Carlo, dinamik programlama ve zaman farkı öğrenimi arasındaki bağlantıları anlayın
  • Değer fonksiyonlarını değerlendirmek için TD algoritmasını uygulayın ve uygulayın
  • Beklenen Sarsa ve Q-öğrenmeyi uygulayın ve uygulayın (kontrol için iki TD yöntemi)
  • Politikaya bağlı kontrol ile politikaya aykırı kontrol arasındaki farkı anlayın
  • Simülasyon deneyimiyle planlamayı anlayın (geleneksel planlama stratejilerinin aksine)
  • Simülasyon deneyimini kullanan, Dyna adı verilen RL’ye model tabanlı bir yaklaşım uygulayın
  • Dyna’yı kullanırken numune verimliliğindeki gelişmeleri görmek için ampirik araştırma yapın
Kazanacağınız beceriler
  • Kategori: fonksiyon optimizasyonu
  • Kategori: Yapay Zeka (AI)
  • Kategori: tekrarlanan öğrenme
  • Kategori: makine için
  • Kategori: akıllı sistemler

Fonksiyon optimizasyonu ile tahmin ve kontrol

Kurs 3

  • 21 saat
  • 4,8 (820 puan)

Kurs detayları

ne öğreneceksin

Bu derste büyük, çok boyutlu ve sonsuz olası durum uzaylarıyla ilgili problemlerin nasıl çözüleceğini öğreneceksiniz. Değer fonksiyonlarının değerlendirilmesinin, ödülü en üst düzeye çıkarmak için genelleştirme ve farklılaşmayı dikkatli bir şekilde dengeleyen aracılar oluşturmanıza olanak tanıyan denetimli öğrenme – işlev optimizasyonu – sorunu olarak sunulabileceğini göreceksiniz. Bu yolculuğa Monte Carlo ve TD gibi politika değerlendirme veya tahmin yöntemlerinin fonksiyon optimizasyonunu tanımlamaya nasıl genişletilebileceğini keşfederek başlayacağız. RL için özellik oluşturma teknikleri ve sinir ağları ve tekrarlama kullanılarak temsillerin öğrenilmesi hakkında bilgi edineceksiniz. Bu kursu politika değişim yöntemlerine derinlemesine bir bakışla bitireceğiz; Bir değer fonksiyonunu öğrenmeden politikayı doğrudan öğrenmenin bir yolu. Bu kursta iki sürekli mod kontrol görevini çözecek ve sürekli çalışma ortamında politika gradyan yöntemlerinin avantajlarını keşfedeceksiniz. Önkoşullar: Bu kurs, kurs 1 ve 2’nin temelleri üzerine kuruludur ve öğrencilerin bu kursa başlamadan önce bunları tamamlamaları gerekir. Öğrenciler ayrıca olasılıklar ve beklentiler, temel doğrusal cebir, temel matematik, Python 3.0 (en az bir yıl) ve sözde kod algoritmalarının uygulanması konusunda da rahat olmalıdır.

Bu kursun sonunda şunları yapabileceksiniz:
  • Değer fonksiyonlarını değerlendirmek için denetimli öğrenme yaklaşımlarının nasıl kullanılacağını anlamak
  • Fonksiyon optimizasyonu altında tahmin (değer tahmini) hedeflerini anlayın
  • Sonsuz durum alanına (sürekli durum alanı) sahip bir ortamda TD’yi fonksiyon optimizasyonu (durum toplama) ile uygulayın
  • Özellik oluşturmaya yönelik sabit temel yaklaşımları ve sinir ağlarını anlayın
  • Sürekli durum ortamında sinir ağlarını kullanarak fonksiyon optimizasyonu ile TD’yi uygulayın
  • Fonksiyon optimizasyonuna geçerken araştırmadaki yeni zorlukları anlayın
  • Kontrol için iskonto problemlerinin sunumunu ortalama teşvik problemlerinin sunumuyla karşılaştırmak
  • Sürekli modlu bir kontrol görevinde fonksiyon optimizasyonu ile beklenen Sarsa ve Q-öğrenmeyi uygulayın
  • Doğrudan politika değerlendirmesinin hedeflerini anlayın (politika değişim hedefleri)
  • Ayrık durum ortamında bir politika gradyanı yöntemi (Aktör-Eleştirmen olarak adlandırılır) uygulayın
Kazanacağınız beceriler
  • Kategori: fonksiyon optimizasyonu
  • Kategori: Yapay Zeka (AI)
  • Kategori: tekrarlanan öğrenme
  • Kategori: makine için
  • Kategori: akıllı sistemler

Tam bakımlı öğrenme sistemi (kapak taşı)

Kurs 4

  • 15 saat
  • 4,7 (627 değerlendirme)

Kurs detayları

ne öğreneceksin

Bu son kursta, bir soruna eksiksiz bir RL çözümü uygulamak için 1, 2 ve 3. kurslardaki bilgilerinizi birleştireceksiniz. Bu özet, her bileşenin (problem formülasyonu, algoritma seçimi, parametre seçimi ve gösterim tasarımı) eksiksiz bir çözümde nasıl bir araya geldiğini ve gerçek dünyada RL’yi uygularken uygun seçimlerin nasıl yapılacağını görmenizi sağlayacaktır. Bu proje, hem sorununuz için uyarım ortamını hem de sinir ağı işlevi optimizasyonuna sahip bir kontrol aracısını uygulamanızı gerektirecektir. Ayrıca Aganti RL’nin sağlamlığını değerlendirme yeteneğinizi geliştirmek için öğrenme sisteminiz üzerinde bilimsel bir çalışma yürüteceksiniz. RL’yi gerçek dünyada kullanmak için (a) sorunu bir Markov karar süreci olarak doğru bir şekilde formüle etmek, (b) uygun algoritmaları seçmek, (c) uygulamanızdaki hangi seçimlerin performans üzerinde büyük bir etkiye sahip olacağını belirlemek, ve (d) ) algoritmalarınızın beklenen davranışını doğrulamak için. Bu kapak taşı, gerçek dünyadaki sorunları çözmek için RL’yi kullanmayı planlayan herkes için faydalıdır. Bu kursta başarılı olmak için bu uzmanlığın 1, 2 ve 3 numaralı kurslarını veya eşdeğerlerini tamamlamanız gerekecektir.

Bu kursun sonunda şunları yapabileceksiniz:
  • Sorunun formüle edilmesiyle başlayıp, uygun bir algoritmanın seçilmesi ve uygulanmasıyla başlayıp, çözümün etkinliğine ilişkin ampirik araştırmayla sona eren soruna bir RL çözümü tamamlayın.
Kazanacağınız beceriler
  • Kategori: fonksiyon optimizasyonu
  • Kategori: Yapay Zeka (AI)
  • Kategori: tekrarlanan öğrenme
  • Kategori: makine için
  • Kategori: akıllı sistemler