[صفحه اصلی ]     [ English ]  
بخش‌های اصلی
درباره دانشکده::
مدیریت دانشکده::
اعضای هیات علمی ::
معرفی افراد::
امور آموزش::
امور پژوهشی::
آموزش الکترونیکی::
پردیس شماره 2::
اخبار و رویدادها::
فضاهای آموزشی و تحقیقاتی ::
تسهیلات پایگاه::
::
ورود به سایت دروس

AWT IMAGE

نام کاربری
کلمه عبور

AWT IMAGE
رمز ورود را فراموش کرده‌اید؟

..
دفاعیه کارشناسی ارشد

دفاعیه کارشناسی ارشد

..
جستجو در پایگاه

جستجوی پیشرفته
..
دریافت اطلاعات پایگاه
نشانی پست الکترونیک خود را برای دریافت اطلاعات و اخبار پایگاه، در کادر زیر وارد کنید.
..
:: دفاعیه ارشد : جهانبخش محمدی - 95/9/29 ::
 | تاریخ ارسال: ۱۳۹۵/۹/۲۱ | 

AWT IMAGE

 آقای جانبخش محمدی دانشجوی کارشناسی ارشد جناب آقای دکترناصر مزینی  روز دوشنبه 29/9/95 ساعت 12در اتاق سمینار واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان شناسایی و استخراج اهداف میانی در یادگیری تقویتی عمیق

  چکیده پایان نامه:

عامل یادگیری تقویتی بر اساس مشاهدات خود از محیط در هر گام کنشی را انجام داده و یک سیگنال پاداش دریافت می­کند سپس بر اساس این پاداش رفتار خود را در درازمدت بهبود می­بخشد. اما با بزرگ شدن محیط پارامترهای تصمیم‌گیری نیز افزایش می­یابد و درنتیجه زمان یادگیری عامل بیشتر می­شود. یکی از راه­های غلبه بر این مشکل یادگیری مهارت در عامل­های یادگیری تقویتی است. مهارت را می‌توان به‌صورت  مجموعه­ایی از کنش پایه تعریف کرد. مزیت اصلی مهارت قابلیت استفاده مجدد از آن است، بدین‌صورت که عامل پس از یادگیری می­تواند آن را انتقال دهد یا درجایی دیگری استفاده کند.

چارچوب‌های سلسله ‌مراتبی در یادگیری تقویتی به عامل کمک می­کنند تا مهارت­ها را بهتر یاد‌بگیرد. در شیوه سنتی این ساختارهای سلسله ‌مراتبی از سوی طراح عامل به‌صورت دانش اولیه در عامل قرار داده می­شود که برای محیط­های بزرگ و از قبل ناشناخته این کار غیرممکن است، بنابراین عامل یادگیری تقویتی باید بتواند به‌صورت خودکار مهارت را یاد بگیرد. ازجمله روش­های کسب مهارت، شناسایی اهداف میانی و ایجاد مهارت­ها براساس آن­ها است.

در این پایان‌‌نامه ما به کمک دستاوردهای اخیر در حوزه یادگیری عمیق، اهداف میانی را شناسایی و استخراج کرده­ایم. روش کار بدین‌صورت است که با استفاده از توسعه یک الگوریتم یادگیری تقویتی عمیق سیاست عامل برای تعامل با محیط را پیدا‌کرده و به کمک آن گراف سیاست را تشکیل داده‌ایم. در ادامه با استفاده از یک معیار مرکزیت پل اهداف میانی را از گراف سیاست استخراج کرده‌ایم.

نتایج حاصل از الگوریتم پیشنهادی ما در دو محیط تاکسی و محیط چند اتاقه که از محیط­های استاندارد برای یادگیری مهارت هستند، نشان می­دهد که این الگوریتم به‌درستی اهداف میانی را شناسایی می­کند. همچنین نتایج الگوریتم پیشنهادی ما نشان می‌دهد که حتی بدون شناسایی اهداف میانی، الگوریتم یادگیری پیشنهادی ما سرعت یادگیری عامل را تسریع می‌کند.

  Abstract:

The Reinforcement Learning (RL) agent based on its observation in each step select an action and receive a reward signal then, according to this reward improve its behavior in long time. But with environment’s dimension enlargement, decision making parameters also increases and therefore learning time increases. One solution to this problem is agent automatic learning skills. The skill is a set of primitive action. The main advantage of an ability is to reuse skills therefore, after learning this skills the agent can transfer or use it somewhere else.

Hierarchal frameworks help to learning agent to learn skills more efficient. In traditional methods, this hierarchal frameworks are assumed as prior knowledge by designer. but this is impossible for large and unknown environments. So the reinforcement learning agent should be able to learn skills automatically. One method of skills learning is subgoal discovery and is to create skills based on them.

In this thesis we use recent achievements in deep reinforcement learning for identify and extract subgoals. We have developed a deep reinforcement learning algorithm for learning agent’s policy in environment and then based on this we create a policy graph. Finally, by using bridge centrality subgoals are extracted.

The results of proposed algorithm in taxi and room to room environment (this are standard environments for learning skills) show that this algorithm correctly identifies and extracts subgoals. Also results show that without skill acquisition proposed algorithm is able to accelerate learning.

  ارائه­ دهنده:

جهانبخش محمدی 

  اساتید راهنما:

  دکترناصر مزینی 

  استاد ممتحن داخلی : دکتر محمد رضا کنگاوری

  استاد ممتحن خارجی :دکتر سعید شیری

  زمان : دوشنبه 12 آذرماه

  ساعت 12

  مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق سمینار

  از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

  دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

دفعات مشاهده: 699 بار   |   دفعات چاپ: 56 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
سایر مطالب این بخش سایر مطالب این بخش نسخه قابل چاپ نسخه قابل چاپ ارسال به دوستان ارسال به دوستان
School of Computer Engineering
Persian site map - English site map - Created in 0.31 seconds with 928 queries by yektaweb 3278