آقای محمد مهدی ارزانی دانشجوی دکترای آقایان دکتر محمود فتحی و دکتر احمد اکبری روز یکشنبه مورخ ۱۳۹۹/۰۷/۰۶ ساعت ۱۷:۳۰ از رساله دکتری خود تحت عنوان "ارایه یک مدل احتمالی به منظور پیش بینی فعالیت انسان" دفاع خواهند نمود. |
ارائه دهنده:
محمد مهدی ارزانی
استاد راهنما:
دکتر محمود فتحی و دکتر احمد اکبری
استاد مشاور:
دکترحمید آقاجان و دکتر احسان عادلی
هیات داوران:
دکتر محسن سریانی؛ دکتر بهروز مینایی؛ دکتر نصراله مقدم؛ دکتر رشاد حسینی
زمان : یکشنبه ۰۶ مهرماه ۱۳۹۹
ساعت ۱۷:۳۰
نحوه ی برگزاری: به صورت الکترونیک
چکیده پایان نامه :
بازشناسی خودکار فعالیتهای انسان، بخشی جداییناپذیر از هر برنامه تعاملی با انسان است. همچنین به منظور ارتباط مؤثر با انسان سامانهها معمولاً نیاز دارند تا پیش از اینکه فعالیت تمام شود آن را تشخیص دهند. با این وجود بازشناسی زود هنگام فعالیتها با چالشهایی همراه است. یکی از چالشهای عمده برای بازشناسی و پیشبینی فعالیت، تنوع در نحوه اجرای فعالیت افراد است. افراد فعالیتهای یکسان را به اشکال مختلفی انجام میدهند. همچنین بعضی از فعالیتها ساده، سریع و کوتاه هستند، در حالی که بسیاری دیگر پیچیده و دارای جزییات هستند و در مدت زمان طولانی انجام میشوند. در این پایاننامه، ما با استفاده از تعریف روابط در قالب پیشبینی ساختاری، روشی را ارائه کردیم که میتواند فعالیتهای ساده و پیچیده را توأمان تشخیص دهد. ما از داده اسکلت که از حسگرهای عمق ارزان قیمت به دست آمده است و توصیف سطح بالایی از بدن انسان است، استفاده کردیم. با استفاده از داده اسکلت سهبعدی روش ما در برابر تغییرات محیطی ازجمله تغییرات نور، پیشزمینه پیچیده، تغییرات شکل بدن و تغییر زاویه دید و ... مقاوم خواهد بود. ما مدل گرافی احتمالی جدیدی را معرفی کردیم که قادر است، فعالیتهای پیچیده و ساده را در قالب مسئله دنباله برچسبها بازشناسی و پیش بینی کند. برای بهینهسازی پارامترهای مدل گرافی احتمالی، از روش پیشبینی ساختاری توزیع شده استفاده میکنیم. انواع مختلف فعالیتها در فضاهای گستردهای از فعالیتهای ممکن قرار میگیرند که نیاز به مدلهای مختلف با پارامترهای مختلفی دارند. برای حل مشکل پارامترهای مختلف در مدلها ما مکانیزم تعویض رده را ارائه کردیم تا بین مدلهای مختلف تعویض نماید. در این روش ساختار مدل گرافی احتمالی ثابت است ولی ماژول تعویض رده بین مجموعه پارامترهای مختلف تعویض میکند. مدل گرافی احتمالی ما دارای متغیرهای پنهان است ولی با استفاده از الگوریتمهای خوشهبندی تبدیل به مدلی با متغیرهای آشکار میشود و از این طریق مقدار دهی اولیه انجام میشود. با این روش سرعت آموزش افزایش پیدا میکند ولی دقت کاهش پیدا نمیکند. همچنین روش ما به روشهای خوشهبندی حساس است و ما الگوریتمهای مختلف خوشهبندی به منظور مقدار دهی اولیه را بررسی کردیم. ما روش ارائه شده را برروی سه مجموعه داده CAD-۶۰، UT-Kinectو Florence ۳D که هر دو نوع فعالیت ساده و پیچیده را پوشش میدهند به طور گسترده مورد آزمایش قرار دادیم و به ترتیب دقتهای درستی تشخیص۹۷.۶٪ ، ۱۰۰٪ و ۹۶.۱۱٪ به دست آمد. همچنین هنگامی که نیمی از ویدیو مشاهده شده بود ما دقت درستی تشخیص ۹۳.۳۳٪ و ۹۶.۹٪ را برای مجموعه دادههای CAD-۶۰ و UT-Kinectبه دست آوردیم. نتایج نشان میدهد که روش ما میتواند هر دو نوع فعالیت ساده و پیچیده را به طور مؤثر بازنشناسی و پیش بینی کند، در حالی که اکثر آثار قبلی تنها بر یکی از این دو نوع تمرکز میکنند.
Abstract
To communicate with people, robots and vision-based interactive systems often need to understand human activities in advance before the activity is performed completely. However, predicting activities in advance is a very challenging task, because some activities are simple while others are complex and comprised of several smaller atomic sub-activities. In this thesis, we propose a method capable of recognizing and early prediction of simple and complex human activities by formulating it as a structured prediction task using probabilistic graphical models (PGM). We use skeletons captured from low-cost depth sensors as high-level descriptions of the human body. Using ۳D skeletons, our method will be robust to the environmental factors (i.e., illumination, complex background, human body shapes, view-point, etc.). In addition, there are different types of activities that systems need to interpret for seamless interaction with humans. We recognize the activities within the context of graphical models in a sequence-labeling framework.We propose a new structured prediction strategy based on probabilistic graphical models (PGMs) to recognize both types of activities (i.e., complex and simple). These activity types are often spanned in very diverse subspaces in the space of all possible activities, which would require different model parameterizations. In order to deal with these parameterization and structural breaks across models, a category-switching scheme is proposed to switch over the models based on the activity types. For parameter optimization, we utilize a distributed structured prediction technique to implement our model in a distributed setting. Our proposed model utilizes a fully observed PGM coupled with a clustering scheme for initialization. Using a fully observed model for initialization, the learning speed increased but the accuracy does not change. Also, our method is sensitive to clustering methods that are used to determine the middle states, we evaluate test different clustering, methods. We test our method on three popular datasets: CAD-۶۰, UT-Kinect, and Florence ۳D and obtain recognition accuracies of ۹۷.۶%, ۱۰۰%, and ۹۶.۱۱%, respectively. These datasets cover both simple and complex activities. When only half of the clip is observed, we achieve ۹۳.۳۳% and ۹۶.۹% prediction accuracy on CAD-۶۰ and UT-Kinect datasets, respectively.:
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
|