ارائه دهنده:
رضا ابراهیمی
استاد راهنما:
احمد اکبری
استاد مشاور:
دکتر بابک ناصرشریف
هیات داوران:
دکتر ناصر مزینی
دکتر جهانشاه کبودیان
زمان:
چهار شنبه ۱۴۰۰/۰۳/۱۲
آقای رضا ابراهیمی دانشجوی کارشناسی ارشد آقای دکتر احمد اکبری روز چهارشنبه ۱۲ خرداد ماه ساعت ۱۱:۰۰ از پروژه کارشناسی ارشد خود تحت عنوان "دادهافزایی با استفاده از روشهای مبتنی بر انتقال یادگیری برای بازشناسی احساسات در گفتاری
" دفاع خواهند نمود.
چکیده پایان نامه:
بازشناسی احساسات در گفتار با توجه به گسترش واسطهای ارتباطی بین انسان و ماشین، یکی از عوامل تأثیرگذار در افزایش دقت و کارایی بازشناسی گفتار استاخیرا بیش از پیش مورد توجه قرار گرفته است. بازشناسی احساسات در گفتار، به دنبال مشخص کردن احساس یک قطعه صوتیبخش از گفتار میباشداست. حالت احساسی ادا نمودن یک جمله، مستقل از معنای نوشتاری آن، در برداشت معنایی از آن جمله تأثیر گذار است. از چالشهای کلیدی حوزه بازشناسی احساسات در گفتار، حال آنکه محدودیت داده آموزشی برای تولید و آموزش مدل از چالشهای کلیدی حوزه بازشناسی احساسات در گفتار میباشداست. به دلیل محدودیت منابع آموزشی و با در نظر گرفتن هزینهبر بودن تولید دادههای آموزشی جدید ، روشهای دادهافزایی برای تولید دادگان جدید به کمک دادگان موجود و انتقال یادگیری از مدلهای مشابه، به عنوان روشهای مؤثر در این زمینه مطرح هستند. به منظور بهبود دقت، در این پایاننامه ترکیب این دو روشروشهای انتقال یادگیری و داده افزایی برای کمک به حل معضل محدودیت داده، ارائه شده است.
به منظور انتقال یادگیری،در کار حاضر برای انتقال یادگیری، از دو مجموعه دادگان از دو زبان مختلف انگلیسی (مجموعه دادگان IEMOCAP) که منابع غنیتریبا دادگان بیشتر دارد و آلمانی (مجموعه دادگان EmoDB) که منابع با مجموعه دادگان محدودتری دارد، انتخاب استفاده شده است. در انتقال یادگیری ، پارامترهای مدل آموزش یافته بر روی زبان انگلیسی (مدل پایه) با استفاده از فرآیند آموزش مجدد بر روی بخشی از دادگان زبان المانی، مجددا تنظیم می شوند. در کار حاضر مدل پایه یک مدل CNN-LSTM هدف از انتخاب دو زبان مختلف، (۱) انتقال یادگیری بین دو مجموعهی شبیه در راهحل مسئله و به ظاهر متفاوت (۲) بررسی عملکرد است که در ورودی خود ویژگیهای لگاریتم طیف نمای مل ) (Mel-spectogram را می پذیرد. روش دادهافزایی برای افزایش داده های برچسب دار زبان المانی برای فرایند بازاموزش مدل پایه صورت می گیرد. روش داده افزایی مورد استفاده در این پایان نامه روش SpecAugment هم در حوزه زمان و هم در حوزه فرکانس است که آن نیز بر روی لگاریتم طیف نمای مل عمل میکند.
روش پیشنهادی ترکیبی داده افزایی و انتقال یادگیری در بهترین حالت بر روی دادگان EMODB به نرخ بازشناسی ...۷۰ درصد دست یافته است که نسبت به حالتی که انتقال یادگیری انجام نشود حدود ....۹ درصد و نسبت به حالتی که داده افزایی صورت نگیرد حدود ....۸ درصد
بهبود نشان میدهد. علاوه بر اینکه این نرخ بازشناسی نسبت به مدلی که تنها روی EMODB آموزش یافته باشد نیز حدود ۸ درصد بهبود را نشان میدهد. .........
[bn۲]
به منظور بهبود نتایج آلمانی به دلیل وجود منابع بسیار محدود است. در روش پیشنهادی ابتدا انتقال یادگیری از زبان غنیتر به زبان محدود انجام شده و سپس دادهافزایی به فرایند انتقال یادگیری اضافه میشود. در مرحله دادهافزایی، بهترین نتایج دادهافزایی با توجه به مدل زبان محدود مستقل از انتقال یادگیری، بهدست آمد که دقت نتایج آن حدود ۸۰٪ نسبت به زبان محدود بوده که حدود ۱۰٪ بهبود را در برابر نتایج بهترین روشهای قبلی نشان میدهد. علاوه بر این با استفاده از روش ترکیبی و با بهرهگیری از ۲۰٪ دادگان مجموعه محدود، نتایج تحقیقات قبلی بهدست آمد. بنابراین جدای از افزایش دقت، نیاز به داده دامنه مقصد برای انتقال یادگیری، به کمک دادهافزایی کاهش یافت.
واژههای کلیدی: انتقال یادگیری، دادهافزایی، بازشناسی احساسات در گفتار، SpecAugment
[bn۱]
در اینجا درصدهای بهبود را با توجه به کارتان در بهترین حالت ذکر نمایید. دقت کنید در این حالت درصدها متعلق به زمانی است که مدل پایه شما بر روی iemocap اموزش دیده است.
[bn۲]
در اینجا درصد باید با حالتی مقایسه شود که مدل پایه صرفا روی emodb اموزش یافته است و داده افزایی هم استفاده نکرده اید.
"دفاع بهصورت آنلاین برگزار میشود"
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
|