دانشگاه علم و صنعت ایران - دانشکده مهندسی کامپیوتر

دانشکده مهندسی کامپیوتر- دفاعیه دکترا

جلسه دفاعیه از رساله دکتری

حذف تصاویر و رنگ‌ها | تاریخ ارسال: 1399/7/5 |

آقای محمد مهدی ارزانی دانشجوی دکترای آقایان دکتر محمود فتحی و دکتر احمد اکبری روز یکشنبه مورخ ۱۳۹۹/۰۷/۰۶ ساعت ۱۷:۳۰ از رساله دکتری خود تحت عنوان "ارایه یک مدل احتمالی به منظور پیش بینی فعالیت انسان" دفاع خواهند نمود.

ارائه دهنده:
محمد مهدی ارزانی
استاد راهنما:
دکتر محمود فتحی و دکتر احمد اکبری
استاد مشاور:
دکترحمید آقاجان و دکتر احسان عادلی
هیات داوران:

دکتر محسن سریانی؛ دکتر بهروز مینایی؛ دکتر نصراله مقدم؛ دکتر رشاد حسینی

زمان : یکشنبه ۰۶ مهرماه ۱۳۹۹

ساعت ۱۷:۳۰

نحوه ی برگزاری: به صورت الکترونیک

چکیده پایان نامه :

بازشناسی خودکار فعالیت‌های انسان، بخشی جدایی‌ناپذیر از هر برنامه تعاملی با انسان است. همچنین به منظور ارتباط مؤثر با انسان سامانه‌ها معمولاً نیاز دارند تا پیش از اینکه فعالیت تمام شود آن را تشخیص دهند. با این وجود بازشناسی زود هنگام فعالیت‌ها با چالش‌هایی همراه است. یکی از چالش‌های عمده برای بازشناسی و پیش‌بینی فعالیت، تنوع در نحوه اجرای فعالیت افراد است. افراد فعالیت‌های یکسان را به اشکال مختلفی انجام می‌دهند. همچنین بعضی از فعالیت‌ها ساده، سریع و کوتاه هستند، در حالی که بسیاری دیگر پیچیده و دارای جزییات هستند و در مدت زمان طولانی انجام می‌شوند. در این پایان‌نامه، ما با استفاده از تعریف روابط در قالب پیش‌بینی ساختاری، روشی را ارائه کردیم که می‌تواند فعالیت‌های ساده و پیچیده را توأمان تشخیص دهد. ما از داده اسکلت که از حس‌گرهای عمق ارزان ‌قیمت به دست آمده است و توصیف سطح بالایی از بدن انسان است، استفاده کردیم. با استفاده از داده اسکلت سه‌بعدی روش ما در برابر تغییرات محیطی ازجمله تغییرات نور، پیش‌زمینه پیچیده، تغییرات شکل بدن و تغییر زاویه دید و ... مقاوم خواهد بود. ما مدل گرافی احتمالی جدیدی را معرفی کردیم که قادر است، فعالیت‌های پیچیده و ساده را در قالب مسئله دنباله برچسب‌ها بازشناسی و پیش بینی کند. برای بهینه‌سازی پارامترهای مدل گرافی احتمالی، از روش پیش‌بینی ساختاری توزیع شده استفاده می‌کنیم. انواع مختلف فعالیت‌ها در فضاهای گسترده‌ای از فعالیت‌های ممکن قرار می‌گیرند که نیاز به مدل‌های مختلف با پارامترهای مختلفی دارند. برای حل مشکل پارامترهای مختلف در مدل‌ها ما مکانیزم تعویض رده را ارائه کردیم تا بین مدل‌های مختلف تعویض نماید. در این روش ساختار مدل گرافی احتمالی ثابت است ولی ماژول تعویض رده بین مجموعه پارامترهای مختلف تعویض می‌کند. مدل گرافی احتمالی ما دارای متغیرهای پنهان است ولی با استفاده از الگوریتم‌های خوشه‌بندی تبدیل به مدلی با متغیر‌های آشکار می‌شود و از این طریق مقدار دهی اولیه انجام می‌شود. با این روش سرعت آموزش افزایش پیدا می‌کند ولی دقت کاهش پیدا نمی‌کند. همچنین روش ما به روش‌های خوشه‌بندی حساس است و ما الگوریتم‌های مختلف خوشه‌بندی به منظور مقدار دهی اولیه را بررسی کردیم. ما روش ارائه شده را برروی سه مجموعه داده CAD-۶۰، UT-Kinectو Florence ۳D که هر دو نوع فعالیت ساده و پیچیده را پوشش می‌دهند به طور گسترده مورد آزمایش قرار دادیم و به ترتیب دقت‌های درستی تشخیص۹۷.۶٪ ، ۱۰۰٪ و ۹۶.۱۱٪ به دست آمد. همچنین هنگامی که نیمی از ویدیو مشاهده شده بود ما دقت درستی تشخیص ۹۳.۳۳٪ و ۹۶.۹٪ را برای مجموعه داده‌های CAD-۶۰ و UT-Kinectبه دست آوردیم. نتایج نشان می‌دهد که روش ما می‌تواند هر دو نوع فعالیت ساده و پیچیده را به طور مؤثر بازنشناسی و پیش بینی کند، در حالی که اکثر آثار قبلی تنها بر یکی از این دو نوع تمرکز می‌کنند.

Abstract

To communicate with people, robots and vision-based interactive systems often need to understand human activities in advance before the activity is performed completely. However, predicting activities in advance is a very challenging task, because some activities are simple while others are complex and comprised of several smaller atomic sub-activities. In this thesis, we propose a method capable of recognizing and early prediction of simple and complex human activities by formulating it as a structured prediction task using probabilistic graphical models (PGM). We use skeletons captured from low-cost depth sensors as high-level descriptions of the human body. Using ۳D skeletons, our method will be robust to the environmental factors (i.e., illumination, complex background, human body shapes, view-point, etc.). In addition, there are different types of activities that systems need to interpret for seamless interaction with humans. We recognize the activities within the context of graphical models in a sequence-labeling framework.We propose a new structured prediction strategy based on probabilistic graphical models (PGMs) to recognize both types of activities (i.e., complex and simple). These activity types are often spanned in very diverse subspaces in the space of all possible activities, which would require different model parameterizations. In order to deal with these parameterization and structural breaks across models, a category-switching scheme is proposed to switch over the models based on the activity types. For parameter optimization, we utilize a distributed structured prediction technique to implement our model in a distributed setting. Our proposed model utilizes a fully observed PGM coupled with a clustering scheme for initialization. Using a fully observed model for initialization, the learning speed increased but the accuracy does not change. Also, our method is sensitive to clustering methods that are used to determine the middle states, we evaluate test different clustering, methods. We test our method on three popular datasets: CAD-۶۰, UT-Kinect, and Florence ۳D and obtain recognition accuracies of ۹۷.۶%, ۱۰۰%, and ۹۶.۱۱%, respectively. These datasets cover both simple and complex activities. When only half of the clip is observed, we achieve ۹۳.۳۳% and ۹۶.۹% prediction accuracy on CAD-۶۰ and UT-Kinect datasets, respectively.:

دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

نشانی مطلب در وبگاه دانشکده مهندسی کامپیوتر:
http://idea.iust.ac.ir/find-14.11063.61012.fa.html
برگشت به اصل مطلب