دانشجو مجید انجیدنی دانشجوی دکترای جناب آقای دکتر محمدرضا جاهدمطلق و دکتر محمود فتحی روز شنبه مورخ 1396/10/09 ساعت 17 در اتاق دفاعیه دکترا دانشکده مهندسی کامپیوتر از رساله دکتری خود تحت عنوان یادگیری ربات پادار صفحهای به منظور بهبود قوام یا مصرف انرژی هنگام راهرفتن دفاع خواهد کرد.
چکیده پایان نامه :
طراحی گیت حرکتی برای رباتهای دوپا با کفپای نقطهای به صورت یک مساله بهینهسازی غیرخطی مقید فرموله میشود که توسط یک روش بهینهسازی عددی برونخط قابل حل میباشد. در حضور خطای مدلسازی ناشناخته یا تغییر محیط، گیت طراحیشده ممکن است ناکارا بوده و امکان بهبود برخط گیت بعد از بهینهسازی وجود ندارد. امروزه افزودن توانایی یادگیری به رباتها، یکی از دغدغههای مهم پژوهشگران در جهت افزایش هوشمندی آنها محسوب میشود و با این نگرش نیاز به یک روش یادگیری تقویتی برخط جهت یادگیری گیت حرکتی احساس میشود. در این رساله، روش کنترل بهینه تصادفی انتگرال مسیر تعمیم یافته (GPISOC) به مدل حلقهبسته رباتهای دوپای صفحهای با کف پای نقطهای اعمال میشود که به یک الگوریتم یادگیری تقویتی برخط جدید جهت یادگیری گیت حرکتی به نام PI2-WG منجر میگردد. نتایج نشان میدهند که PI2-WG در تطبیق کنترلکننده ربات مدلسازی شده خرگوش، که یک ربات صفحهای با کف پای نقطهای میباشد، به منظور راهرفتن پایدار با خصوصیات موردنظر بسیار موفق عمل میکند. در ادامه این رساله، یادگیری گیت حرکتی در حضور محدودهای از اغتشاشات شناختهشده مورد توجه قرار میگیرد و با توجه به این که گیت طراحیشده توسط PI2-WG ممکن است به این اغتشاشات مقاوم نباشد، نسخه مقاومی از PI2-WG به نام R-S-PI2-WG پیشنهاد میگردد که هوشمندی ربات را در مواجهه با اغتشاشات و خطاهای مدلسازی افزایش میدهد. ایده نسخه مقاوم حداقل کردن هزینه بدترین مسیرهای نمونهای است که در حضور اغتشاشات تولید میشوند. باید توجه داشت که در این رساله، پایداری ربات دوپای صفحهای با کف پای نقطهای توسط کنترلکنندههای نامتغیر با زمان تضمین میشود، اما طراحی کنترلکننده نامتغیر با زمان برای رباتهای چهارپا، به دلیل دینامیکهای ترکیبی پیچیده بسیار مشکل است. بنابراین، بجای طراحی یک کنترلکننده نامتغیر با زمان برای ربات چهارپا، ایده ابتکاری در این رساله، تجزیه ربات چهارپا به دو ربات دوپا میباشد که توسط دو کنترلکننده نامتغیر با زمان به طور همزمان کنترل میشوند. سپس نشان میدهیم که چگونه الگوریتم یادگیری PI2-WG جهت تنظیم پارامترهای دو کنترلکننده چهارپا قابل توسعه است. نتایج نشان میدهد که توسط روش یادگیری پیشنهاد شده، راهرفتنی با پایداری نمایی و با خصوصیات موردنیاز بدست میآید و خطای مدلسازی به سرعت جبران میگردد.
کلمات کلیدی
ربات پادار، یادگیری تقویتی، خطیسازی فیدبک، راهرفتن پایدار و باقوام
Abstract:
Designing a stable walking gait for biped robots with point-feet is stated as a constrained nonlinear optimization problem which is normally solved by an offline numerical optimization method. On the result of an unknown modeling error or environment change, the designed gait may be ineffective and an online gait improvement is impossible after the optimization. In this thesis, we apply Generalized Path Integral Stochastic Optimal Control to closed-loop model of planar biped robots with point-feet which leads to an online Reinforcement Learning algorithm to design the walking gait. The results show that the method is very successful to adapt the controller of RABBIT, which is a planar biped robot with point-feet, for stable walking with desired features. We have continued with designing stable walking gait for biped robots against a known range of disturbances, which is very important in real applications. Since, the gait designed by PI2-WG might not be robust enough against disturbances, we extend a robust version of PI2-WG to design an exponentially stable walking gait which is robust against modeling errors/disturbances and we call it R-S-PI2-WG. It is done by minimizing the costs of worst rollouts which are generated in presence of different modeling errors/disturbances. Time-invariant controllers generally guaranty the stability of a biped robot with point-feet which is a very interesting feature. However, complex hybrid dynamics of quadruped robots made designing the time-invariant controller very difficult. Therefore instead of designing a unique time-invariant controller for a quadruped robot, we decompose the robot into two biped robots which are controlled by two time-invariant controllers simultaneously. Then we introduce how to extend PI2-WG to adjust the parameters of the two controllers. The results show that using the proposed method, an (exponentially) stable walking including the desired features is attained for a new situation and the modeling error is quickly compensated.
Keywords
Legged robots, Reinforcement learning, Feedback linearization, Robust stable walking
ارائه دهنده:
مجید انجیدنی
استاد راهنما:
دکتر محمدرضا جاهدمطلق و دکتر محمود فتحی
استاد مشاور:
دکتر مجید نیلی احمدآبادی
هیات داوران:
1دکتر ناصر مزینی؛ دکتر بهروز مینایی؛ دکتر منوچهر مرادی سبزوار؛ دکترسعید باقری شورکی
زمان : شنبه 09 خرداد ماه 1396
ساعت 17
مکان: دانشکده مهندسی کامپیوتر- طبقه دوم- اتاق دفاعیه دکترا
از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
|