علی اصغر داودآبادی

آقای علی اصغر داودآبادی دانشجوی دکترای آقایان دکتر حاکم بیت الهی و دکتر محمود فتحی روز یکشنبه مورخ ۱۴۰۱/۰۷/۱۷ ساعت ۱۷:۰۰ از رساله دکتری خود با عنوان "شتاب‌دهنده‌های عمومی قابل بازپیکربندی در پردازنده‌های نهفته "دفاع خواهند نمود.

ارائه دهنده:
علی اصغر داودآبادی

استاد راهنما:
دکترحاکم بیت الهی و
دکتر محمود فتحی
استاد مشاور:
دکتر رضا برنگی
هیات داوران:

دکتر علی جهانیان ؛ دکتر پژمان لطفی کامران؛ دکترمحسن سریانی دکتر امیر مهدی حسینی منزه

زمان :۱۷ مهرماه ۱۴۰۱

ساعت ۱۷:۰۰

چکیده پایان نامه :

یکی از روشهای جدید افزایش کارایی و سرعت پردازنده‌ها، استفاده از پردازشگرهای قابل بازپیکربندی است. در این روش از یک سخت‌افزار قابل بازپیکربندی، در کنار پردازنده استفاده می‌شود. این سخت‌افزار بعضی از وظایف پردازشی پردازنده اصلی را به عهده گرفته و با سرعت بیشتر و یا به بیان دیگر در زمان کمتر انجام می‌دهد و باعث افزایش کارایی پردازنده می‌شود. در بعضی از متون، کتب و مقالات این روش "شتاب‌دهنده‌های سخت‌افزاری قابل بازپیکربندی پویا" نیز نامیده می‌شود. انتظار می‌رود که با استفاده گسترده از این روش بتوان به افزایش سرعت بیشتری در پردازندهها رسید. در مبحث، شتاب‌دهنده‌های قابل بازپیکربندی پویا، چالش‌های بسیاری از قبیل حجم سخت‌افزار شتاب‌دهنده، زمان نگاشت-بازپیکربندی بالا و تعداد زیاد بیتهای پیکربندی وجود دارند. در این رساله دکتری، سه شتاب‌دهنده قابل بازپیکربندی ارائه خواهد شد که سخت‌افزار آن به نسبت کارهای مشابه آن‌ها کوچک‌تر شده، زمان و حجم بیت‌های پیکربندی نیز کمتر می‌شود. هسته اصلی شتاب‌دهنده‌های پیشنهادی، با استفاده از معماری خاصی در کنار پردازنده قرار خواهد گرفت. بطور خلاصه در این رساله دکتری، بر روی طراحی شتاب‌دهنده برای پردازنده‌های نهفته در سه محور تمرکز گردیده است. در محور اول و دوم، شتاب‌دهنده بر اساس CGRA یک شتاب‌دهنده پویا است، به نوعی طراحی خواهد شد که چندین دستورالعمل زبان ماشین پی‌درپی را بتوان در آن نگاشت نمود و در یک سیکل اجرا کرد. روش نگاشت اول بر اساس وابستگی بین دستورالعمل‌های متوالی است. در روش ابداعی که روش نگاشت دوم می‌باشد، دیگر نیازی به وابستگی بین دستورالعمل‌ها نیست. در این دو روش از آنجا که تمامی مراحل در سخت‌افزار انجام می‌شود، تشخیص، نگاشت و پیکربندی با سرعت بالا انجام می‌گیرد. نتایج نشان می‌دهد که تا سی و هفت درصد افزایش سرعت در محاسبات عددی، منطقی و اعداد صحیح می‌تواند ایجاد شود. همچنین افزایش سطح تراشه در حدود بیست درصد است. در محور سوم واحد سخت‌افزاری قابل بازپیکربندی شبکه‌های یادگیری عمیق همگشتی؛ یک شتاب‌دهنده شبکه‌های یادگیری عمیق همگشتی طراحی شده است که بتواند در کنار پردازنده‌های کوچک و نهفته قرار گیرد و این پردازنده‌ها که عموماً قادر به اجرای این شبکه‌ها‌ نیستند، را قادر به اجرای این شبکه‌های همگشتی بگرداند. نتایج پیاده‌سازی این محور نشان می‌دهد که بین بیست تا صد فریم تصویر ۲۲۴×۲۲۴ پیکسل در شبکه‌هایی از نوع ResNet و MobileNet در این شتاب‌دهنده‌ها قابل اجرا می‌باشد.

Abstract:

Reconfigurable computing in modern processors are one of the new techniques to improve the performance and speed of processors. The reconfigurable hardware locates beside the main processor. The reconfigurable hardware is in the charge of intensive tasks and completes them quicker than the main processor. Some articles and books call the method the “reconfigurable accelerators”. The reconfigurable hardware is the type of coarse grain and in short, it is called CGRA (Coarse Grained Reconfigurable Architecture). There are some main bottlenecks and challenges in the research area of adding reconfigurable computing to processors including large area, high mapping and reconfigurable time, large volume of reconfigurable bits and the static nature of the reconfigurable hardware. This thesis proposal proposes three reconfigurable accelerator architectures. In first and second architectures, The CGRA is the heart of accelerator. In proposed architectures several sequential machine language instructions are mapped to CGRA to run in one clock cycle. In first architecture the mapping algorithm is relays on data dependency between instructions. In second architecture we propose a new mapping technique such that could map more instructions to CGA more effectively. Since all the steps are done in the hardware, the speed of detection, mapping and configuration will be very high. The results illustrate that our proposed CGRA architectures improve the speed of integer and logic instructions in the processors up to ۳۷ percent. The estimated area overhead for the proposed CGRA is about ۲۰ percent. In third accelerator we propose a new accelerator for convolutional neural network that could accelerate some AI networks on embedded processor. Mostly embedded processor cannot run convolution neural networks. The results illustrate that our proposed AI accelerator could run some AI networks such as MobileNet and ResNet on ۲۲۴x۲۲۴ pixel images ۲۰-۱۰۰ frames per second.

محل برگزاری:
دانشکده مهندسی کامپیوتر

دفعات مشاهده: ۲۴۵۸ بار | دفعات چاپ: ۳۸۲ بار | دفعات ارسال به دیگران: ۰ بار | ۰ نظر


سایر مطالب این بخش	نسخه قابل چاپ	ارسال به دوستان

Persian site map - English site map - Created in 0.18 seconds with 55 queries by YEKTAWEB 4665