• 1403/02/29 - 08:27
  • -تعداد بازدید: 12
  • - تعداد بازدیدکننده: 12
  • زمان مطالعه : 4 دقیقه

جلسه دفاع رساله: رضا کاکویی، گروه کنترل

عنوان رساله: گسترش الگوریتم یادگیری تقویتی مبتنی بر مدل برای برنامه‌ریزی دوسویه‌‌ هم‌پیوند با گرایش نزدیک‌شوندگی پاولفی

ارائه کننده: رضا کاکویی استاد راهنما: دکتر محمد تقی حمیدی بهشتی استاد مشاور اول: دکتر مهدی کرامتیاستاد ناظر داخلی اول: دکتر وحید جوهری مجید استاد ناظر داخل دوم: دکتر مهدی سجودی استاد ناظر خارجی اول: دکتر بابک نجار اعرابی (دانشگاه تهران) استاد ناظر خارجی دوم: دکتر عبدالحسین وهابی (دانشگاه تهران) تاریخ: ۱۴۰۳/۰۲/۳۰ ساعت: ۱۵ مکان: دانشکده مهندسی برق و کامپیوتر، بلوک ۶، طبقه سوم، آزمایشگاه ابزار دقیق و اتوماسیون صنعتی، اتاق ۳۸، گروه کنترل

چکیده: شناسایی و مدل‌ سازی سازوکارهای گوناگون مغز که فرآیندهای شناختی مانند تصمیم‌ گیری را هدایت می‌ کنند، دست‌ کم از سه جنبه‌ ی مختلف حائز اهمیت فراوانی می‌ باشد. نخست از دیدگاه علمی، شناسایی فرآیندهای شناختی راهی است به سوی کشف نادانسته‌ هایی در مورد مغز انسان؛ همان ارگان پیچیده‌ ای که دنیای مدرن امروزی را خلق کرده است. دوم از دیدگاه پزشکی، درک سازوکارهای مغزی می‌ تواند بابی به روی پاسخ‌ گویی به چالش‌ های متفاوتی باشد که امروزه پزشکان در مواجهه با بسیاری از بیماری‌ های مغزی با آن روبرو هستند. سوم از دیدگاه مهندسی است که خود از دو منظر می‌ تواند درخور توجه باشد: اول، درک مناسب‌ تر روابط و تعاملات بین اجزای گوناگون مغزی به منظور ارائه نظریه‌ های ابتکاری در جهت تفسیر فرآیندهای مغزی، و دوم یاری رساندن به خود فضای مهندسی است. بدان معنا که مدل‌ های کشف شده شاید الهام بخش ابداع الگوریتم‌ هایی گردند که در حل مسائل مهندسی کاراترند. در این بین شناسایی و مدل‌ سازی سازوکارهای نهفته در پشت فرآیند تصمیم‌ گیری، شایسته‌ ی توجه موشکافه‌ ای است. بدان جهت که تصمیم‌ گیری نقش مهمی در جوانب گوناگون زندگی بازی می‌ کند. پژوهش‌ های موجود نشان می‌ دهند که تصمیمات در مغز در بستر دو سازوکار مجزا و در عین حال مرتبط به هم شکل می‌ گیرند: یادگیری پاولفی و کنترل ابزاری. یادگیری پاولفی با آموختن پیوند محرک-پیامد به یادگیری منجر می‌ شود بدون آن‌ که به عمل انتخابی وابسته باشد. همچنین پاسخ‌ های غریزی‌ ‌ ای را بازنمایی می‌ کند که در طول فرگشت در مغز ایجاد شده و به‌ وسیله‌ ی ایماهای محیط هدایت می‌ شوند. به‌ گونه‌ ای که انسان‌ ها گرایش به نزدیک‌ شدن به محرک‌ های نوید‌ دهنده‌ ی پاداش دارند در مقایسه با محرک‌ های خنثی، و محرک‌ هایی که نشان از دریافت تنبیهی دارند. در طرف مقابل کنترل ابزاری نوعی فرآیند یادگیری است که با توجه به عملی که از تصمیم‌ گیرنده سر زده، و بازخوردی که از طرف محیط در پاسخ به آن رفتار دریافت شده، موجب تقویت یا تضعیف احتمال بروز مجدد آن رفتار در آینده می‌ گردد. این کنترلگر به ما می‌ آموزد در هر شرایطی بهترین عمل برای انجام چیست. البته یادگیری ابزاری تنها به نتیجه‌ ی عمل کنونی بسنده نکرده، و ممکن است به ‌ صورت یک برنامه‌ ریزی روبه‌ جلو دنباله‌ ای از عمل‌ ها را ارزیابی کند. از طرفی، برنامه‌ ریزی روبه‌ جلو ممکن است تنها فرآیند برنامه‌ ریزی‌ ای نباشد که یادگیری ابزاری از آن استفاده می‌ کند. ممکن است انسان‌ ها از برنامه‌ ریزی روبه‌ وارو نیز به ‌ منظور ارزیابی توالی عمل‌ ها بهره برند. با این وجود برنامه‌ ریزی روبه‌ وارو کمتر تاکنون مورد توجه قرار گرفته است. پژوهش‌ های پیشین نشان دادند با وجود مستقل بودن یادگیری پاولفی و ابزاری، آن‌ ها با یکدیگر تعامل ‌ می‌ کنند. در حقیقت بایاس پاولفی نزدیک شوندگی روی برنامه‌ ریزی روبه‌ جلو تأثیر گذاشته و منجر به اتخاذ تصمیماتی می‌ شود که ممکن است از نظر کنترلگر ابزاری بهینه‌ نباشند. اما تأثیر یادگیری پاولفی روی برنامه‌ ریزی روبه‌ وارو هنوز مطالعه نشده است. در این رساله، ما یک آزمایش مسیریابی طراحی کردیم که امکان برنامه‌ ریزی‌ های روبه‌ جلو، روبه‌ وارو، و دوسویه در آن فراهم است، و ایماهای پاولفی نزدیک‌ ‌ شوندگی را نیز در نقشه‌ ها تعبیه نمودیم. تحلیل آماری داده‌ های جمع‌ آوری شده از آزمایش نه تنها از وجود برنامه‌ ریزی روبه‌ وارو حکایت می‌ کنند، بلکه نشان ‌ می‌ دهند که ایمای پاولفی نزدیک‌ شوندگی بر روی سه برنامه‌ ریزی تأثیر می‌ گذارد، هر چند که این تأثیر در برنامه‌ ریزی دوسویه بیش‌ تر از روبه‌ جلو، و در روبه‌ جلو بیش‌ تر از روبه‌ وارو است. به منظور بررسی دقیق‌ تر، تأثیر سه فاکتور دیگر شامل زمان تصمیم‌ گیری، پیچیدگی آزمایش، و شدت نزدیک‌ شوندگی ایمای پاولفی را روی برنامه‌ ریزی‌ ها نیز مورد بررسی قرار دادیم. همچنین در بستر یادگیری تقویتی، الگوریتم برنامه‌ ریزی دوسویه را تحت بایاس پاولفی گسترش دادیم. نتایج شبیه‌ سازی الگوریتم با نتایج برآمده از آزمایش سازگار بوده و بیان می‌ کنند که تأثیر بایاس پاولفی را می‌ توان به ‌ نوعی در قالب هرس درختان تصمیم مدل‌ سازی نمود. تأثیر فاکتورها را نیز به صورت ظرفیت گسترش درخت‌ های تصمیم در الگوریتم گسترش داده شده مدل کردیم.

  • گروه خبری : پژوهشی,حوزه دانشکده مهندسی برق و کامپیوتر,گروه کنترل
  • news code : 247

تصاویر