دانشگاه علم و صنعت ایران - دانشکده مهندسی کامپیوتر

دانشکده مهندسی کامپیوتر- دفاعیه دکترا

محمد حاجی زاده صفار

حذف تصاویر و رنگ‌ها | تاریخ ارسال: 1403/8/1 |

دانشجو محمد حاجی زاده صفار دانشجوی دکتر عادل ترکمان رحمانی مورخ : ۱۴۰۳/۱۱/۰۸ ساعت: ۸:۰۰ صبح از رساله دکتری خود با عنوان "تشخیص بی‌درنگ اشیا در ویدئو بر روی دستگاه‌های توکار با استفاده از شبکه‌های عصبی عمیق " دفاع خواهند نمود.

ارائه دهنده:
محمد حاجی زاده صفار
استاد راهنما:
دکتر عادل ترکمان رحمانی
استاد مشاور:
استاد مشاور:
دکتر محمود فتحی
دکتر محمد سبکرو
هیات داوران:
دکتر رضا صفابخش
دکتر بابک نجار اعرابی
دکترمحسن سریانی
دکتر محمدرضا محمدی

زمان ۸ بهمن ماه ۱۴۰۳

ساعت: : ۸:۰۰ صبح

مکان : دانشکده کامپیوتر- طبقه سوم. اتاق جلسات دفاع دکتری

چکیده پایان نامه :

تشخیص اشیا، به معنای تعیین موقعیت و مختصات اشیا موجود در صحنه به همراه دسته‌بندی رده مربوط به هر یک از آن‌ها است. این موضوع یکی از پردازش‌های پایه‌ای قابل‌تعریف در بسیاری از فعالیت‌های سطح بالای حوزه بینایی ماشین مانند تشخیص فعالیت، تجزیه اجزای صحنه، توصیف صحنه، خلاصه‌سازی و فهم معنایی است. تشخیص اشیا به‌صورت کلی به دو زیر بخش با عنوان تشخیص اشیا موجود در تصویر و تشخیص اشیا موجود در ویدئو تقسیم می‌شود.
بهبود دقت، سرعت و توان پردازشی همواره موردتوجه محققان قرار گرفته است که بخش زیادی از آن معطوف به توان پردازشی پردازنده‌های گرافیکی و دستگاه‌های مبتنی بر سرورهای قدرتمند است. راهکارهای مبتنی بر پردازنده‌های گرافیکی و توان پردازشی بالا، کاربردهای متنوع و زیادی در دنیای واقعی دارند. اما در مقابل، راهکارهای مبتنی بر دستگاه‌های توکار کمتر موردتوجه قرار گرفته و از کانون توجهات خارج بوده است. درحالی‌که در سال‌های اخیر، کاربردهای زیادی از تحلیل‌های هوشمند بر روی ویدئو به‌صورت محاسبات مبتنی بر لبه و بر روی دستگاه‌های توکار ارائه شده‌اند. توان پردازشی محدود، حجم مدل برای قرارگرفتن در حافظه و توان مصرفی سخت‌افزار، از جمله پیچیدگی‌های این حوزه هستند.
در این رساله روشی کارا مبتنی بر شبکه‌های عصبی عمیق جهت تشخیص اشیا موجود در ویدئو، به‌صورت بی‌درنگ (سرعت پردازشی بالاتر از ۱۵ فریم بر ثانیه) و با توان پردازشی قابل‌اجرا بر روی دستگاه‌های توکار ارائه شده است. برای یک تشخیص اشیا ویدئویی قوی، ابتدا باید یک تشخیص اشیا قوی بر روی تصاویر داشته باشیم تا بتوان آن را با استفاده از تکنیک‌هایی به ویدئو تعمیم داد. در راستای بهبود تشخیص اشیا بر روی تصاویر، در این پژوهش ابتدا یک Backbone جدید بر پایه MobileNet و همراه با اصلاحاتی از جمله عملگرهای هم‌گشتی جداپذیر عمقی و ارتباطات پرشی بنام MobileDenseNet ارائه شده است. در ادامه یک ساختار Neck جدید بر پایه معماری هرمی بنام FCPNLite طراحی و پیاده‌سازی شد که شبکه پایه را برای استخراج ویژگی از تصاویر ورودی تقویت کرده است. همچنین برای به اشتراک گذاشتن وزن‌ها در قسمت Head نیز ایده نیمه اشتراکی بودن وزن‌ها پیاده‌سازی شد که باعث افزایش دقت شده است. در نهایت شکل تولید و مشخصات جعبه‌های اولیه هم مقداری تغییر کرده است و برای اشیا کوچک‌تر موجود در دادگان و در کل دقت نهایی بهبود ایجاد کرده است. با انجام این موارد دقت تشخیص اشیا بر روی تصاویر در این پژوهش به نسبت سایر مقالات بهتر شد. علاوه بر این، با معرفی یک سلول بازگشتی جدید به نام GCRU برای انتشار ویژگی در طول زمان و تغییرات دیگری از جمله استفاده از شبکه‌های دوگانه و افزایش بازه فریم‌های گذشته، به دقت ۶۷.۵ درصد و سرعت ۶۲ فریم بر ثانیه بر روی معماری MobileDenseNet و دقت ۶۸.۷ درصد و
و سرعت ۶۲ فریم بر ثانیه بر روی معماری MobileDenseNet و دقت ۶۸.۷ درصد و سرعت ۵۲ فریم بر ثانیه بر روی معماری EfficientNet رسیدیم که بهترین عملکرد در بین راهکارهای مشابه در این حوزه است.

Abstract
and coordinates of the objects in the scene along with the classification of each of them. This topic is one of the basic ones that can be defined in many high-level activities in the field of machine vision, such as activity recognition, scene analysis, scene description, summarization, semantic understanding, etc. Object detection is divided into two sub-sections called object detection in images and object detection in videos.
Improving accuracy, speed and processing power has always been the focus of researchers, a large part of which is focused on the processing power of GPUs and devices based on powerful servers. Solutions based on GPUs and high processing power have many diverse applications in the real world, and current research has put many solutions in front of commercial product developers. On the other hand, solutions based on built-in devices have received less attention and have been out of the spotlight. The limited processing power, the size of the model to be placed in the memory, and the consumption of the hardware, are among the complexities of this field.
In this thesis, an efficient method is presented based on deep neural networks to detect objects in video, in real time (processing speed higher than ۱۵ frames per second) and with processing power that can be used on embedded devices. For a robust video object detection, we must first have a robust object detection on images so that it can be extended to video using some techniques. In order to improve the recognition of objects on images, in this research, a new backbone and neck was first designed and implemented, which has strengthened the basic network. In addition, to share the weights in the head part, the idea of Half Share of the weights was implemented, which has increased the accuracy. Finally, the specifications of the prior boxes have also changed a bit and have improved for smaller objects and overall final accuracy. By doing these, the accuracy of object detection on the images in this research improved compared to other articles. In addition, with the introduction of a new recurrent cell called GCRU for feature propagation over time and other changes, including dual networks and increasing the interval of previous frames, accuracy of ۶۷.۵% and speed of ۶۲ frames per second on the MobileDenseNet architecture has been achived. In addition, we reached ۶۸.۷% accuracy and a speed of ۵۲ frames per second on the EfficientNet architecture, which is the best performance among similar solutions in this field.

نشانی مطلب در وبگاه دانشکده مهندسی کامپیوتر:
http://idea.iust.ac.ir/find-14.11063.80786.fa.html
برگشت به اصل مطلب