آقای
علی اصغر داودآبادی دانشجوی دکترای آقایان دکتر حاکم بیت الهی و دکتر محمود فتحی روز یکشنبه مورخ ۱۴۰۱/۰۷/۱۷ ساعت ۱۷:۰۰ از رساله دکتری خود با عنوان "شتابدهندههای عمومی قابل بازپیکربندی در پردازندههای نهفته
"دفاع خواهند نمود. |
ارائه دهنده:
علی اصغر داودآبادی
استاد راهنما:
دکترحاکم بیت الهی و
دکتر محمود فتحی
استاد مشاور:
دکتر رضا برنگی
هیات داوران:
دکتر علی جهانیان ؛ دکتر پژمان لطفی کامران؛ دکترمحسن سریانی دکتر امیر مهدی حسینی منزه
زمان :۱۷ مهرماه ۱۴۰۱
ساعت ۱۷:۰۰
چکیده پایان نامه :
یکی از روشهای جدید افزایش کارایی و سرعت پردازندهها، استفاده از پردازشگرهای قابل بازپیکربندی است. در این روش از یک سختافزار قابل بازپیکربندی، در کنار پردازنده استفاده میشود. این سختافزار بعضی از وظایف پردازشی پردازنده اصلی را به عهده گرفته و با سرعت بیشتر و یا به بیان دیگر در زمان کمتر انجام میدهد و باعث افزایش کارایی پردازنده میشود. در بعضی از متون، کتب و مقالات این روش "شتابدهندههای سختافزاری قابل بازپیکربندی پویا" نیز نامیده میشود. انتظار میرود که با استفاده گسترده از این روش بتوان به افزایش سرعت بیشتری در پردازندهها رسید. در مبحث، شتابدهندههای قابل بازپیکربندی پویا، چالشهای بسیاری از قبیل حجم سختافزار شتابدهنده، زمان نگاشت-بازپیکربندی بالا و تعداد زیاد بیتهای پیکربندی وجود دارند. در این رساله دکتری، سه شتابدهنده قابل بازپیکربندی ارائه خواهد شد که سختافزار آن به نسبت کارهای مشابه آنها کوچکتر شده، زمان و حجم بیتهای پیکربندی نیز کمتر میشود. هسته اصلی شتابدهندههای پیشنهادی، با استفاده از معماری خاصی در کنار پردازنده قرار خواهد گرفت. بطور خلاصه در این رساله دکتری، بر روی طراحی شتابدهنده برای پردازندههای نهفته در سه محور تمرکز گردیده است. در محور اول و دوم، شتابدهنده بر اساس CGRA یک شتابدهنده پویا است، به نوعی طراحی خواهد شد که چندین دستورالعمل زبان ماشین پیدرپی را بتوان در آن نگاشت نمود و در یک سیکل اجرا کرد. روش نگاشت اول بر اساس وابستگی بین دستورالعملهای متوالی است. در روش ابداعی که روش نگاشت دوم میباشد، دیگر نیازی به وابستگی بین دستورالعملها نیست. در این دو روش از آنجا که تمامی مراحل در سختافزار انجام میشود، تشخیص، نگاشت و پیکربندی با سرعت بالا انجام میگیرد. نتایج نشان میدهد که تا سی و هفت درصد افزایش سرعت در محاسبات عددی، منطقی و اعداد صحیح میتواند ایجاد شود. همچنین افزایش سطح تراشه در حدود بیست درصد است. در محور سوم واحد سختافزاری قابل بازپیکربندی شبکههای یادگیری عمیق همگشتی؛ یک شتابدهنده شبکههای یادگیری عمیق همگشتی طراحی شده است که بتواند در کنار پردازندههای کوچک و نهفته قرار گیرد و این پردازندهها که عموماً قادر به اجرای این شبکهها نیستند، را قادر به اجرای این شبکههای همگشتی بگرداند. نتایج پیادهسازی این محور نشان میدهد که بین بیست تا صد فریم تصویر ۲۲۴×۲۲۴ پیکسل در شبکههایی از نوع ResNet و MobileNet در این شتابدهندهها قابل اجرا میباشد.
Abstract:
Reconfigurable computing in modern processors are one of the new techniques to improve the performance and speed of processors. The reconfigurable hardware locates beside the main processor. The reconfigurable hardware is in the charge of intensive tasks and completes them quicker than the main processor. Some articles and books call the method the “reconfigurable accelerators”. The reconfigurable hardware is the type of coarse grain and in short, it is called CGRA (Coarse Grained Reconfigurable Architecture). There are some main bottlenecks and challenges in the research area of adding reconfigurable computing to processors including large area, high mapping and reconfigurable time, large volume of reconfigurable bits and the static nature of the reconfigurable hardware. This thesis proposal proposes three reconfigurable accelerator architectures. In first and second architectures, The CGRA is the heart of accelerator. In proposed architectures several sequential machine language instructions are mapped to CGRA to run in one clock cycle. In first architecture the mapping algorithm is relays on data dependency between instructions. In second architecture we propose a new mapping technique such that could map more instructions to CGA more effectively. Since all the steps are done in the hardware, the speed of detection, mapping and configuration will be very high. The results illustrate that our proposed CGRA architectures improve the speed of integer and logic instructions in the processors up to ۳۷ percent. The estimated area overhead for the proposed CGRA is about ۲۰ percent. In third accelerator we propose a new accelerator for convolutional neural network that could accelerate some AI networks on embedded processor. Mostly embedded processor cannot run convolution neural networks. The results illustrate that our proposed AI accelerator could run some AI networks such as MobileNet and ResNet on ۲۲۴x۲۲۴ pixel images ۲۰-۱۰۰ frames per second.
محل برگزاری:
دانشکده مهندسی کامپیوتر
|