دانشکده مهندسی کامپیوتر- دفاعیه دکترا
جلسه دفاعیه از رساله دکتری

حذف تصاویر و رنگ‌ها  | تاریخ ارسال: 1396/10/5 | 

دانشجو مجید انجیدنی دانشجوی دکترای جناب آقای دکتر محمدرضا جاهدمطلق و دکتر محمود فتحی روز شنبه مورخ 1396/10/09 ساعت 17 در اتاق دفاعیه دکترا دانشکده مهندسی کامپیوتر از رساله دکتری خود تحت عنوان یادگیری ربات پادار صفحه‌ای به منظور بهبود قوام یا مصرف انرژی هنگام راه‌رفتن  دفاع خواهد کرد.
 

چکیده پایان نامه :

   طراحی گیت حرکتی برای ربات‌های دوپا با کف‌پای نقطه‌ای به صورت یک مساله بهینه‌سازی غیر‌خطی مقید فرموله می‌شود که توسط یک روش بهینه‌سازی عددی برون‌خط قابل حل می‌باشد. در حضور خطای مدل‌سازی ناشناخته یا تغییر محیط، گیت طراحی‌شده ممکن است ناکارا بوده و امکان بهبود برخط گیت بعد از بهینه‌سازی وجود ندارد. امروزه افزودن توانایی یادگیری به ربات‌ها، یکی از دغدغه‌های مهم پژوهش‌گران در جهت افزایش هوشمندی آن‌ها محسوب می‌شود و با این نگرش نیاز به یک روش یادگیری تقویتی برخط جهت یادگیری گیت حرکتی احساس می‌شود. در این رساله، روش کنترل بهینه تصادفی انتگرال مسیر تعمیم یافته (GPISOC) به مدل حلقه‌بسته ربات‌های دوپای صفحه‌ای با کف پای نقطه‌ای اعمال می‌شود که به یک الگوریتم یادگیری تقویتی برخط جدید جهت یادگیری گیت حرکتی به نام PI2-WG منجر می‌گردد. نتایج نشان می‌دهند که PI2-WG در تطبیق کنترل‌کننده ربات مدل‌سازی شده خرگوش‌، که یک ربات صفحه‌ای با کف پای نقطه‌ای می‌باشد، به منظور راه‌رفتن پایدار با خصوصیات موردنظر بسیار موفق عمل می‌کند. در ادامه این رساله، یادگیری گیت حرکتی در حضور محدوده‌ای از اغتشاشات شناخته‌شده مورد توجه قرار می‌گیرد و با توجه به این که گیت طراحی‌شده توسط PI2-WG ممکن است به این اغتشاشات مقاوم نباشد، نسخه مقاومی از PI2-WG به نام R-S-PI2-WG پیشنهاد می‌گردد که هوشمندی ربات را در مواجهه با اغتشاشات و خطاهای مدل‌سازی افزایش می‌دهد. ایده نسخه مقاوم حداقل کردن هزینه بدترین مسیرهای نمونه‌ای است که در حضور اغتشاشات تولید می‌شوند. باید توجه داشت که در این رساله، پایداری ربات دوپای صفحه‌ای با کف پای نقطه‌ای توسط کنترل‌کننده‌های نامتغیر با زمان تضمین می‌شود، اما طراحی کنترل‌کننده نامتغیر با زمان برای ربات‌های چهارپا، به دلیل دینامیک‌های ترکیبی پیچیده بسیار مشکل است. بنابراین، بجای طراحی یک کنترل‌کننده نامتغیر با زمان برای ربات چهارپا، ایده ابتکاری در این رساله، تجزیه ربات چهارپا به دو ربات دوپا می‌باشد که توسط دو کنترل‌کننده نامتغیر با زمان به طور هم‌زمان کنترل می‌شوند. سپس نشان می‌دهیم که چگونه الگوریتم یادگیری PI2-WG جهت تنظیم پارامترهای دو کنترل‌کننده چهارپا قابل توسعه است. نتایج نشان می‌دهد که توسط روش یادگیری پیشنهاد شده، راه‌رفتنی با پایداری نمایی و با خصوصیات موردنیاز بدست می‌آید و خطای مدل‌سازی به سرعت جبران می‌گردد.
 
کلمات کلیدی
ربات پادار، یادگیری تقویتی، خطی‌سازی فیدبک، راه‌رفتن پایدار و باقوام
 

Abstract:

 Designing a stable walking gait for biped robots with point-feet is stated as a constrained nonlinear optimization problem which is normally solved by an offline numerical optimization method. On the result of an unknown modeling error or environment change, the designed gait may be ineffective and an online gait improvement is impossible after the optimization. In this thesis, we apply Generalized Path Integral Stochastic Optimal Control to closed-loop model of planar biped robots with point-feet which leads to an online Reinforcement Learning algorithm to design the walking gait. The results show that the method is very successful to adapt the controller of RABBIT, which is a planar biped robot with point-feet, for stable walking with desired features. We have continued with designing stable walking gait for biped robots against a known range of disturbances, which is very important in real applications. Since, the gait designed by PI2-WG might not be robust enough against disturbances, we extend a robust version of PI2-WG to design an exponentially stable walking gait which is robust against modeling errors/disturbances and we call it R-S-PI2-WG. It is done by minimizing the costs of worst rollouts which are generated in presence of different modeling errors/disturbances. Time-invariant controllers generally guaranty the stability of a biped robot with point-feet which is a very interesting feature. However, complex hybrid dynamics of quadruped robots made designing the time-invariant controller very difficult. Therefore instead of designing a unique time-invariant controller for a quadruped robot, we decompose the robot into two biped robots which are controlled by two time-invariant controllers simultaneously. Then we introduce how to extend PI2-WG to adjust the parameters of the two controllers. The results show that using the proposed method, an (exponentially) stable walking including the desired features is attained for a new situation and the modeling error is quickly compensated.
 
Keywords
Legged robots, Reinforcement learning, Feedback linearization, Robust stable walking
 

ارائه ­دهنده:

مجید انجیدنی

  استاد راهنما:

  دکتر محمدرضا جاهدمطلق و دکتر محمود فتحی

استاد مشاور:

دکتر مجید نیلی احمدآبادی
 

  هیات داوران:

1دکتر ناصر مزینی؛ دکتر بهروز مینایی؛ دکتر منوچهر مرادی سبزوار؛ دکترسعید باقری شورکی

زمان : شنبه 09  خرداد ماه 1396

  ساعت 17

  مکان: دانشکده مهندسی کامپیوتر- طبقه دوم- اتاق دفاعیه دکترا

  از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

  دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

نشانی مطلب در وبگاه دانشکده مهندسی کامپیوتر:
http://idea.iust.ac.ir/find-14.11063.51871.fa.html
برگشت به اصل مطلب