دانشجو محمد حاجی زاده صفار دانشجوی دکتر عادل ترکمان رحمانی مورخ : ۱۴۰۳/۱۱/۰۸ ساعت: ۸:۰۰ صبح از رساله دکتری خود با عنوان "تشخیص بیدرنگ اشیا در ویدئو بر روی دستگاههای توکار با استفاده از شبکههای عصبی عمیق " دفاع خواهند نمود. |
ارائه دهنده:
محمد حاجی زاده صفار
استاد راهنما:
دکتر عادل ترکمان رحمانی
استاد مشاور:
استاد مشاور:
دکتر محمود فتحی
دکتر محمد سبکرو
هیات داوران:
دکتر رضا صفابخش
دکتر بابک نجار اعرابی
دکترمحسن سریانی
دکتر محمدرضا محمدی
زمان ۸ بهمن ماه ۱۴۰۳
ساعت: : ۸:۰۰ صبح
مکان : دانشکده کامپیوتر- طبقه سوم. اتاق جلسات دفاع دکتری
چکیده پایان نامه :
تشخیص اشیا، به معنای تعیین موقعیت و مختصات اشیا موجود در صحنه به همراه دستهبندی رده مربوط به هر یک از آنها است. این موضوع یکی از پردازشهای پایهای قابلتعریف در بسیاری از فعالیتهای سطح بالای حوزه بینایی ماشین مانند تشخیص فعالیت، تجزیه اجزای صحنه، توصیف صحنه، خلاصهسازی و فهم معنایی است. تشخیص اشیا بهصورت کلی به دو زیر بخش با عنوان تشخیص اشیا موجود در تصویر و تشخیص اشیا موجود در ویدئو تقسیم میشود.
بهبود دقت، سرعت و توان پردازشی همواره موردتوجه محققان قرار گرفته است که بخش زیادی از آن معطوف به توان پردازشی پردازندههای گرافیکی و دستگاههای مبتنی بر سرورهای قدرتمند است. راهکارهای مبتنی بر پردازندههای گرافیکی و توان پردازشی بالا، کاربردهای متنوع و زیادی در دنیای واقعی دارند. اما در مقابل، راهکارهای مبتنی بر دستگاههای توکار کمتر موردتوجه قرار گرفته و از کانون توجهات خارج بوده است. درحالیکه در سالهای اخیر، کاربردهای زیادی از تحلیلهای هوشمند بر روی ویدئو بهصورت محاسبات مبتنی بر لبه و بر روی دستگاههای توکار ارائه شدهاند. توان پردازشی محدود، حجم مدل برای قرارگرفتن در حافظه و توان مصرفی سختافزار، از جمله پیچیدگیهای این حوزه هستند.
در این رساله روشی کارا مبتنی بر شبکههای عصبی عمیق جهت تشخیص اشیا موجود در ویدئو، بهصورت بیدرنگ (سرعت پردازشی بالاتر از ۱۵ فریم بر ثانیه) و با توان پردازشی قابلاجرا بر روی دستگاههای توکار ارائه شده است. برای یک تشخیص اشیا ویدئویی قوی، ابتدا باید یک تشخیص اشیا قوی بر روی تصاویر داشته باشیم تا بتوان آن را با استفاده از تکنیکهایی به ویدئو تعمیم داد. در راستای بهبود تشخیص اشیا بر روی تصاویر، در این پژوهش ابتدا یک Backbone جدید بر پایه MobileNet و همراه با اصلاحاتی از جمله عملگرهای همگشتی جداپذیر عمقی و ارتباطات پرشی بنام MobileDenseNet ارائه شده است. در ادامه یک ساختار Neck جدید بر پایه معماری هرمی بنام FCPNLite طراحی و پیادهسازی شد که شبکه پایه را برای استخراج ویژگی از تصاویر ورودی تقویت کرده است. همچنین برای به اشتراک گذاشتن وزنها در قسمت Head نیز ایده نیمه اشتراکی بودن وزنها پیادهسازی شد که باعث افزایش دقت شده است. در نهایت شکل تولید و مشخصات جعبههای اولیه هم مقداری تغییر کرده است و برای اشیا کوچکتر موجود در دادگان و در کل دقت نهایی بهبود ایجاد کرده است. با انجام این موارد دقت تشخیص اشیا بر روی تصاویر در این پژوهش به نسبت سایر مقالات بهتر شد. علاوه بر این، با معرفی یک سلول بازگشتی جدید به نام GCRU برای انتشار ویژگی در طول زمان و تغییرات دیگری از جمله استفاده از شبکههای دوگانه و افزایش بازه فریمهای گذشته، به دقت ۶۷.۵ درصد و سرعت ۶۲ فریم بر ثانیه بر روی معماری MobileDenseNet و دقت ۶۸.۷ درصد و
و سرعت ۶۲ فریم بر ثانیه بر روی معماری MobileDenseNet و دقت ۶۸.۷ درصد و سرعت ۵۲ فریم بر ثانیه بر روی معماری EfficientNet رسیدیم که بهترین عملکرد در بین راهکارهای مشابه در این حوزه است.
Abstract
and coordinates of the objects in the scene along with the classification of each of them. This topic is one of the basic ones that can be defined in many high-level activities in the field of machine vision, such as activity recognition, scene analysis, scene description, summarization, semantic understanding, etc. Object detection is divided into two sub-sections called object detection in images and object detection in videos.
Improving accuracy, speed and processing power has always been the focus of researchers, a large part of which is focused on the processing power of GPUs and devices based on powerful servers. Solutions based on GPUs and high processing power have many diverse applications in the real world, and current research has put many solutions in front of commercial product developers. On the other hand, solutions based on built-in devices have received less attention and have been out of the spotlight. The limited processing power, the size of the model to be placed in the memory, and the consumption of the hardware, are among the complexities of this field.
In this thesis, an efficient method is presented based on deep neural networks to detect objects in video, in real time (processing speed higher than ۱۵ frames per second) and with processing power that can be used on embedded devices. For a robust video object detection, we must first have a robust object detection on images so that it can be extended to video using some techniques. In order to improve the recognition of objects on images, in this research, a new backbone and neck was first designed and implemented, which has strengthened the basic network. In addition, to share the weights in the head part, the idea of Half Share of the weights was implemented, which has increased the accuracy. Finally, the specifications of the prior boxes have also changed a bit and have improved for smaller objects and overall final accuracy. By doing these, the accuracy of object detection on the images in this research improved compared to other articles. In addition, with the introduction of a new recurrent cell called GCRU for feature propagation over time and other changes, including dual networks and increasing the interval of previous frames, accuracy of ۶۷.۵% and speed of ۶۲ frames per second on the MobileDenseNet architecture has been achived. In addition, we reached ۶۸.۷% accuracy and a speed of ۵۲ frames per second on the EfficientNet architecture, which is the best performance among similar solutions in this field.
|