دانشگاه علم و صنعت ایران - دانشکده مهندسی کامپیوتر

دانشکده مهندسی کامپیوتر- دفاعیه دکترا

جلسه دفاعیه از رساله دکتری

حذف تصاویر و رنگ‌ها | تاریخ ارسال: 1398/2/17 |

ارائه دهنده:
رضا مرادی

استاد راهنما:
دکتر رضا برنگی

استاد مشاور:
دکتر بهروز مینایی

هیات داوران:

آقای دکتر محمود فتحی، آقای دکتر ناصر مزینی
آقای دکتر محمد رحمتی، آقای دکتر نصراله مقدم چرکری

زمان : سه شنبه 17 اردیبهشت ماه 1398

ساعت 17:00

مکان: دانشکده مهندسی کامپیوتر- طبقه دوم- اتاق دفاعیه دکترا

چکیده پایان نامه :

در سال‌های اخیر مدل‌های عمیق نقش مهمی در توسعه کاربردهای هوش مصنوعی مخصوصاً در حوزه‌های پردازش گفتار، پردازش زبان‌های طبیعی و بینایی ماشین داشته‌اند. شبکه‌های پیچشی عمیق یکی از مدل‌های عمیق هستند که در بینایی ماشین نتایج درخشانی ارائه داده‌اند. با این وجود به‌دلیل تعداد زیاد پارامترها، محققین با چالش‌هایی از قبیل کاهش حجم محاسبات، کاهش حافظه مصرفی، کاهش مدت فرآیند یادگیری، افزایش دقت عملکرد و تمایل شدید به بیش‌برازش مواجه بوده‌اند. در این رساله با هدف بهبود چالش‌های مذکور، دو شبکه پیچشی مجزا به‌منظور رده‌بندی مجموعه داده‌های MNIST، CIFAR-10 و CIFAR-100 پیشنهاد شده است. معماری دو شبکه پیچشی مبتنی بر شبکه‌های باقی‌مانده و آغازگر طراحی شده و با بهره‌گیری از اصول بنیادین حاکم بر شبکه‌های پیچشی، میزان افزونگی تقلیل داده شده است. در مدل پیشنهادی اول، با به‌کارگیری ازدیاد تصادفی داده‌های ورودی و ادغام تصادفی، عمومیت‌پذیری تقویت شده است و با تحمیل تعامد نقشه‌ویژگی‌ها در تابع هزینه مدل، میزان استقلال دو‌به‌دوی نقشه ویژگی‌های تقویت شده و به تبع آن افزونگی رایج در آنها کاهش داده شده است. در مدل پیشنهادی دوم، با اعمال حذف تصادفی در نقشه ویژگی‌ها، عمومیت‌پذیری تقویت شده است و با تحمیل تُنُکی عمقی بر نقشه ‌ویژگی‌ها، با ایجاد بازنمایی توزیع‌شده، تفسیرپذیری و کارایی بازنمایی ساخته شده بهبود داده شده است. در فرآیند آموزش، با به‌کارگیری یک نرخ یادگیری نمایی پریودیک، تنها با صرف زمانی در حدود آموزش یک مدل پیچشی، یک ماشین ترکیبی متشکل از معماری واحد اما با پارامترهای متفاوت ساخته شده است. به‌منظور ارزیابی مدل‌ها و صحت عملکرد روش‌های پیشنهادی، از تحلیل حجم محاسبات، تحلیل حافظه مصرفی، تحلیل خطا، نمودار پراکندگی و دقت رده‌بندی استفاده شده است. در نهایت دقت‌های بدست آمده در نتیجه به‌کارگیری ایده‌های پیشنهادی، 77/99، 98/93 و 12/80 هستند که به ترتیب برای مجموعه داده‌های MNIST ، CIFAR-10 و CIFAR-100 حاصل شده است.

کلید واژه‌ها: شبکه‌ پیچشی عمیق، طراحی معماری مدل، تنظیم‌سازی، نقشه‌ویژگی‌های متعامد، نقشه‌ویژگی‌های تُنُک، حذف تصادفی نقشه‌ویژگی‌ها، مدل ترکیبی کم‌هزینه.

Abstract:

In recent years, deep models have played an important role in the development of artificial intelligence applications, especially in the areas of speech processing, natural language processing, and computer vision. Deep convolutional neural networks are one of the deep models that have provided brilliant results in computer vision domain. However, due to the large number of parameters, researchers have faced challenges such as reducing computational costs, reducing memory usage, increasing the performance accuracy, reducing the learning process time, and preventing overfitting effect. In this thesis, in order to improve these challenges, two separate convolutional neural networks are proposed for the classification of MNIST, CIFAR-10 and CIFAR-100 data sets. The architecture of two convolutional networks are based on residual and inception networks. They are designed to reduce the common redundancy in convolutional networks by taking advantage of the fundamental principles governing these networks. In the first proposed model named OrthoMaps, by taking advantage of data augmentation and fractional pooling generalizability of the network has been improved. Also, by imposing mutual orthogonality of feature maps in the model cost function, the mutual independence of feature maps is reinforced and consequently, feature maps redundancy has been reduced. In the second proposed model named SparseMaps, by applying dropout on feature maps, generalizability has been improved and by imposing depth-wise sparsity on feature maps interpretability and efficiency of representation have been improved. In the training process, using a periodic learning rate, with time spent training a single model, an ensemble machine composed of one architecture but with different parameters is made. In order to evaluate the models and the validity of the proposed methods, computational and memory costs analysis, error analysis, feature space scatter plot and classification accuracy are used. In the end, the best attained accuracy are 99.77, 93.98 and 80.12 for MNIST, CIFAR-10, and CIFAR-100 datasets, respectively.

Keywords: deep convolutional neural networks, model architecture design, regularization, orthogonal feature maps, sparse feature maps, feature maps dropout, low-cost ensemble.

دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

نشانی مطلب در وبگاه دانشکده مهندسی کامپیوتر:
http://idea.iust.ac.ir/find-14.11063.56400.fa.html
برگشت به اصل مطلب