دورة عبر الإنترنت – تخصص احترافي معتمد في التعلم المعزز من جامعة ألبرتا

إتقان مفاهيم التعلم المعزز. قم بتنفيذ حل RL كامل وفهم كيفية استخدام أدوات الذكاء الاصطناعي لحل مشكلات العالم الحقيقي.

Suggested by: Coursera (What is Coursera?)

Professional Certificate

المستوى المتوسط

No prior knowledge required

Time to complete the course

7-day free trial

No unnecessary risks

Skills you will acquire in the course

  • تقديرات الوظيفة
  • الذكاء الاصطناعي (AI)
  • تعلم الكمبيوتر
  • تعزيز التعلم
  • أنظمة ذكية

What you will learn in the course

Courses for which the course is suitable

  • مطور الألعاب (الذكاء الاصطناعي)
  • تطوير أنظمة التفاعل مع العملاء
  • تطوير المساعدين الأذكياء
  • مطور أنظمة التوصية
  • مدير سلسلة التوريد
  • مطور التحكم الصناعي
  • مفتاح في مجال التطوير المالي
  • مدير خطوط النفط والغاز
  • مطور أنظمة التحكم الصناعية

التدريب – سلسلة من الدورات المكونة من 4 أجزاء

يتضمن التخصص في التعلم المعزز 4 دورات تستكشف قوة أنظمة التعلم التكيفي والذكاء الاصطناعي (AI). لاستغلال الإمكانات الكاملة للذكاء الاصطناعي، هناك حاجة إلى أنظمة تعليمية مكيفة. سوف تتعلم كيف تساعد حلول التعلم المعزز (RL) في حل مشاكل العالم الحقيقي من خلال التفاعل بين التجربة والخطأ، من خلال تنفيذ حل التعلم المعزز الكامل من البداية إلى النهاية.

بحلول نهاية التدريب، سوف يفهم المتعلمون أساسيات العديد من التقنيات الحديثة في الذكاء الاصطناعي (AI) وسيكونون جاهزين للانتقال إلى دورات أكثر تقدمًا أو تطبيق أدوات التفكير في الذكاء الاصطناعي على مشاكل العالم الحقيقي. سيركز المحتوى على المشكلات “صغيرة الحجم” لفهم أساسيات التعلم المعزز، بينما يتم تدريسه على يد خبراء مشهورين عالميًا من كلية العلوم بجامعة ألبرتا.

يمكن تكييف الأدوات المستفادة في هذا التخصص مع:

  • تطوير الألعاب (الذكاء الاصطناعي)
  • تفاعل العملاء (كيف يتفاعل موقع الويب مع العملاء)
  • مساعدين أذكياء
  • أنظمة التوصية
  • إدارة سلسلة التوريد
  • التحكم الصناعي
  • التطور المالي
  • خطوط النفط والغاز
  • أنظمة التحكم الصناعية

مشروع التعلم التطبيقي

من خلال مهام البرمجة والاختبارات، يقوم الطلاب بما يلي:

  • سوف يقومون ببناء نظام التعلم المعزز الذي يعرف كيفية اتخاذ القرارات التلقائية.
  • فهم كيفية ارتباط RL وتناسبها تحت المظلة الأوسع للتعلم الآلي والتعلم العميق والتعلم الخاضع للإشراف وغير الخاضع للإشراف.
  • سوف يفهمون مساحة خوارزميات RL (التعلم من خلال الاختلاف الزمني، Monte Carlo، Cersa، Q-learning، Policy Gradient، Dina والمزيد).
  • سوف يفهمون كيفية صياغة مهمتك كمشكلة RL، وكيفية البدء في تنفيذ الحل.

Details of the courses that make up the specialization

أساسيات التعلم المحتفظ به

الدورة 1

  • 15 ساعة
  • 4.8 (2,771 تقييمًا)

تفاصيل الدورة

ماذا ستتعلم
  • وصف المشكلات بأنها عمليات صنع القرار لماركوف
  • فهم طرق الاستكشاف الأساسية وتوازن الاستكشاف/الاستغلال
  • فهم وظائف القيمة، كأداة عامة لاتخاذ القرارات المثلى
  • معرفة كيفية تطبيق البرمجة الديناميكية كنهج حل فعال لمشكلة التحكم الصناعي
المهارات التي سوف تكتسبها
  • الفئة: تحسين الوظيفة
  • التصنيف: الذكاء الاصطناعي (AI)
  • التصنيف: التعلم المتكرر
  • الفئة: للآلة
  • التصنيف: الأنظمة الذكية

أساليب التعلم المبنية على الأمثلة

الدورة 2

  • 22 ساعة
  • 4.8 (1,228 تقييمًا)

تفاصيل الدورة

ماذا ستتعلم

ستتعرف في هذه الدورة التدريبية على العديد من الخوارزميات التي يمكنها تعلم سياسات شبه مثالية بناءً على التفاعل مع البيئة – التعلم من تجربة الوكيل الشخصية. إن التعلم من الخبرة العملية أمر مثير للإعجاب لأنه لا يتطلب معرفة مسبقة بديناميكيات البيئة، ولكن لا يزال بإمكانه تحقيق السلوك الأمثل. سنناقش أساليب مونت كارلو البسيطة والقوية، وطرق التعلم بفارق التوقيت بما في ذلك التعلم Q. سنختتم الدورة باستكشاف كيف يمكننا الجمع بين العالمين: الخوارزميات التي يمكنها الجمع بين التخطيط القائم على النموذج (على غرار البرمجة الديناميكية) والتحديثات المتتابعة لتسريع التعلم بشكل كبير.

في نهاية هذه الدورة سوف تكون قادرا على:
  • فهم التعلم بفارق التوقيت ومونت كارلو كاستراتيجيتين لتقدير وظائف القيمة من تجربة العينات
  • فهم أهمية الاستكشاف عند استخدام الخبرة النموذجية بدلاً من مسارات البرمجة الديناميكية داخل النموذج
  • فهم الروابط بين مونت كارلو والبرمجة الديناميكية والتعلم بفارق التوقيت
  • تنفيذ وتنفيذ خوارزمية TD لتقييم وظائف القيمة
  • تطبيق وتنفيذ أسلوبي Sarsa وQ-learning المتوقعين (طريقتان للتحكم في TD)
  • فهم الفرق بين السيطرة على السياسة والسيطرة خارج السياسة
  • فهم التخطيط من خلال تجربة المحاكاة (على عكس استراتيجيات التخطيط التقليدية)
  • قم بتنفيذ نهج قائم على النموذج في RL، يسمى Dyna، والذي يستخدم تجربة المحاكاة
  • قم بإجراء بحث تجريبي لمعرفة التحسينات في كفاءة العينة عند استخدام Dyna
المهارات التي سوف تكتسبها
  • الفئة: تحسين الوظيفة
  • التصنيف: الذكاء الاصطناعي (AI)
  • التصنيف: التعلم المتكرر
  • فئة: إلى الآلة
  • التصنيف: الأنظمة الذكية

التنبؤ والتحكم مع تحسين الوظيفة

الدورة 3

  • 21 ساعة
  • 4.8 (820 تقييمًا)

تفاصيل الدورة

ماذا ستتعلم

ستتعلم في هذه الدورة كيفية حل المشكلات ذات المساحات الكبيرة والمتعددة الأبعاد واللامحدودة. سترى أن تقييم وظائف القيمة يمكن تقديمه كمشكلة للتعلم الخاضع للإشراف – تحسين الوظيفة – والذي يسمح لك ببناء وكلاء يوازنون بعناية بين التعميم والتمايز لتحقيق أقصى قدر من المكافأة. سنبدأ هذه الرحلة باستكشاف كيف يمكن توسيع نطاق تقييم السياسات أو أساليب التنبؤ مثل مونت كارلو وTD ليشمل تحديد تحسين الوظيفة. سوف تتعلم حول تقنيات بناء الميزات لـ RL وتعلم التمثيلات باستخدام الشبكات العصبية والتكرار. سننهي هذه الدورة بالتعمق في أساليب التدرج في السياسة؛ طريقة لتعلم السياسة مباشرة دون تعلم وظيفة القيمة. في هذه الدورة، ستحل مهمتين للتحكم في الوضع المستمر وتستكشف مزايا أساليب تدرج السياسة في بيئة التشغيل المستمر. المتطلبات الأساسية: تعتمد هذه الدورة بشكل قوي على أسس الدورتين 1 و 2، ويجب على المتعلمين إكمالها قبل البدء في هذه الدورة. يجب أن يكون المتعلمون أيضًا مرتاحين للاحتمالات والتوقعات، والجبر الخطي الأساسي، وحساب التفاضل والتكامل الأساسي، وPython 3.0 (سنة واحدة على الأقل)، وتنفيذ خوارزميات الكود الزائف.

في نهاية هذه الدورة سوف تكون قادرا على:
  • فهم كيفية استخدام أساليب التعلم تحت الإشراف لتقييم وظائف القيمة
  • فهم أهداف التنبؤ (تقدير القيمة) ضمن تحسين الوظيفة
  • تطبيق TD مع تحسين الوظيفة (تجميع الحالة)، في بيئة ذات مساحة حالة لا نهائية (مساحة حالة مستمرة)
  • فهم مناهج الأساس الثابت والشبكات العصبية لبناء الميزات
  • تطبيق TD مع تحسين الوظيفة باستخدام الشبكات العصبية في بيئة الحالة المستمرة
  • فهم الصعوبات الجديدة في البحث عند الانتقال إلى تحسين الوظيفة
  • لمقارنة عرض مشاكل الخصم للتحكم مقابل عرض مشاكل الحوافز المتوسطة
  • تطبيق Sarsa وQ-learning المتوقع مع تحسين الوظيفة في مهمة التحكم في الوضع المستمر
  • فهم أهداف التقييم المباشر للسياسة (أهداف التدرج في السياسة)
  • قم بتطبيق أسلوب تدرج السياسة (يسمى الممثل الناقد) في بيئة حالة منفصلة
المهارات التي سوف تكتسبها
  • الفئة: تحسين الوظيفة
  • التصنيف: الذكاء الاصطناعي (AI)
  • التصنيف: التعلم المتكرر
  • الفئة: للآلة
  • التصنيف: الأنظمة الذكية

استكمال نظام التعلم المستمر (كابستون)

الدورة 4

  • 15 ساعة
  • 4.7 (627 تقييمًا)

تفاصيل الدورة

ماذا ستتعلم

في هذه الدورة التدريبية النهائية، ستجمع بين معرفتك من الدورات 1 و2 و3 لتنفيذ حل RL كامل لمشكلة ما. سيسمح لك هذا التتويج برؤية كيف يتناسب كل مكون – صياغة المشكلة، واختيار الخوارزمية، واختيار المعلمة، وتصميم التمثيل – معًا في حل كامل، وكيفية اتخاذ الخيارات المناسبة عند تطبيق RL في العالم الحقيقي. سيتطلب منك هذا المشروع تنفيذ بيئة التحفيز لمشكلتك وعامل تحكم مع تحسين وظيفة الشبكة العصبية. بالإضافة إلى ذلك، ستجري دراسة علمية لنظام التعلم الخاص بك لتطوير قدرتك على تقييم قوة Aganti RL. لاستخدام RL في العالم الحقيقي، من الضروري (أ) صياغة المشكلة بشكل صحيح كعملية قرار ماركوف، (ب) اختيار الخوارزميات المناسبة، (ج) تحديد الاختيارات في التنفيذ الخاص بك سيكون لها تأثير كبير على الأداء، و (د) ) للتحقق من السلوك المتوقع للخوارزميات الخاصة بك. يعد هذا التتويج مفيدًا لأي شخص يخطط لاستخدام RL لحل مشكلات العالم الحقيقي. للنجاح في هذه الدورة، سوف تحتاج إلى إكمال الدورات 1 و 2 و 3 من هذا التخصص أو ما يعادلها.

في نهاية هذه الدورة سوف تكون قادرا على:
  • أكمل حل RL للمشكلة، بدءًا من صياغة المشكلة واختيار الخوارزمية المناسبة وتنفيذها، وصولاً إلى البحث التجريبي حول فعالية الحل.
المهارات التي سوف تكتسبها
  • الفئة: تحسين الوظيفة
  • التصنيف: الذكاء الاصطناعي (AI)
  • التصنيف: التعلم المتكرر
  • الفئة: للآلة
  • التصنيف: الأنظمة الذكية