إتقان مفاهيم التعلم المعزز. قم بتنفيذ حل RL كامل وفهم كيفية استخدام أدوات الذكاء الاصطناعي لحل مشكلات العالم الحقيقي.
Suggested by: Coursera (What is Coursera?)
No prior knowledge required
No unnecessary risks
يتضمن التخصص في التعلم المعزز 4 دورات تستكشف قوة أنظمة التعلم التكيفي والذكاء الاصطناعي (AI). لاستغلال الإمكانات الكاملة للذكاء الاصطناعي، هناك حاجة إلى أنظمة تعليمية مكيفة. سوف تتعلم كيف تساعد حلول التعلم المعزز (RL) في حل مشاكل العالم الحقيقي من خلال التفاعل بين التجربة والخطأ، من خلال تنفيذ حل التعلم المعزز الكامل من البداية إلى النهاية.
بحلول نهاية التدريب، سوف يفهم المتعلمون أساسيات العديد من التقنيات الحديثة في الذكاء الاصطناعي (AI) وسيكونون جاهزين للانتقال إلى دورات أكثر تقدمًا أو تطبيق أدوات التفكير في الذكاء الاصطناعي على مشاكل العالم الحقيقي. سيركز المحتوى على المشكلات “صغيرة الحجم” لفهم أساسيات التعلم المعزز، بينما يتم تدريسه على يد خبراء مشهورين عالميًا من كلية العلوم بجامعة ألبرتا.
من خلال مهام البرمجة والاختبارات، يقوم الطلاب بما يلي:
ستتعرف في هذه الدورة التدريبية على العديد من الخوارزميات التي يمكنها تعلم سياسات شبه مثالية بناءً على التفاعل مع البيئة – التعلم من تجربة الوكيل الشخصية. إن التعلم من الخبرة العملية أمر مثير للإعجاب لأنه لا يتطلب معرفة مسبقة بديناميكيات البيئة، ولكن لا يزال بإمكانه تحقيق السلوك الأمثل. سنناقش أساليب مونت كارلو البسيطة والقوية، وطرق التعلم بفارق التوقيت بما في ذلك التعلم Q. سنختتم الدورة باستكشاف كيف يمكننا الجمع بين العالمين: الخوارزميات التي يمكنها الجمع بين التخطيط القائم على النموذج (على غرار البرمجة الديناميكية) والتحديثات المتتابعة لتسريع التعلم بشكل كبير.
ستتعلم في هذه الدورة كيفية حل المشكلات ذات المساحات الكبيرة والمتعددة الأبعاد واللامحدودة. سترى أن تقييم وظائف القيمة يمكن تقديمه كمشكلة للتعلم الخاضع للإشراف – تحسين الوظيفة – والذي يسمح لك ببناء وكلاء يوازنون بعناية بين التعميم والتمايز لتحقيق أقصى قدر من المكافأة. سنبدأ هذه الرحلة باستكشاف كيف يمكن توسيع نطاق تقييم السياسات أو أساليب التنبؤ مثل مونت كارلو وTD ليشمل تحديد تحسين الوظيفة. سوف تتعلم حول تقنيات بناء الميزات لـ RL وتعلم التمثيلات باستخدام الشبكات العصبية والتكرار. سننهي هذه الدورة بالتعمق في أساليب التدرج في السياسة؛ طريقة لتعلم السياسة مباشرة دون تعلم وظيفة القيمة. في هذه الدورة، ستحل مهمتين للتحكم في الوضع المستمر وتستكشف مزايا أساليب تدرج السياسة في بيئة التشغيل المستمر. المتطلبات الأساسية: تعتمد هذه الدورة بشكل قوي على أسس الدورتين 1 و 2، ويجب على المتعلمين إكمالها قبل البدء في هذه الدورة. يجب أن يكون المتعلمون أيضًا مرتاحين للاحتمالات والتوقعات، والجبر الخطي الأساسي، وحساب التفاضل والتكامل الأساسي، وPython 3.0 (سنة واحدة على الأقل)، وتنفيذ خوارزميات الكود الزائف.
في هذه الدورة التدريبية النهائية، ستجمع بين معرفتك من الدورات 1 و2 و3 لتنفيذ حل RL كامل لمشكلة ما. سيسمح لك هذا التتويج برؤية كيف يتناسب كل مكون – صياغة المشكلة، واختيار الخوارزمية، واختيار المعلمة، وتصميم التمثيل – معًا في حل كامل، وكيفية اتخاذ الخيارات المناسبة عند تطبيق RL في العالم الحقيقي. سيتطلب منك هذا المشروع تنفيذ بيئة التحفيز لمشكلتك وعامل تحكم مع تحسين وظيفة الشبكة العصبية. بالإضافة إلى ذلك، ستجري دراسة علمية لنظام التعلم الخاص بك لتطوير قدرتك على تقييم قوة Aganti RL. لاستخدام RL في العالم الحقيقي، من الضروري (أ) صياغة المشكلة بشكل صحيح كعملية قرار ماركوف، (ب) اختيار الخوارزميات المناسبة، (ج) تحديد الاختيارات في التنفيذ الخاص بك سيكون لها تأثير كبير على الأداء، و (د) ) للتحقق من السلوك المتوقع للخوارزميات الخاصة بك. يعد هذا التتويج مفيدًا لأي شخص يخطط لاستخدام RL لحل مشكلات العالم الحقيقي. للنجاح في هذه الدورة، سوف تحتاج إلى إكمال الدورات 1 و 2 و 3 من هذا التخصص أو ما يعادلها.



