[صفحه اصلی ]   [ English ]  
بخش‌های اصلی
درباره دانشکده::
مدیریت دانشکده::
اعضای هیات علمی ::
معرفی افراد::
امور آموزش::
امور پژوهشی::
آموزش الکترونیکی::
پردیس شماره 2::
اخبار و رویدادها::
فضاهای آموزشی و تحقیقاتی ::
تسهیلات پایگاه::
::
ورود به سایت دروس

AWT IMAGE

نام کاربری
کلمه عبور

AWT IMAGE
رمز ورود را فراموش کرده‌اید؟

..
دفاعیه کارشناسی ارشد

دفاعیه کارشناسی ارشد

..
جستجو در پایگاه

جستجوی پیشرفته
..
دریافت اطلاعات پایگاه
نشانی پست الکترونیک خود را برای دریافت اطلاعات و اخبار پایگاه، در کادر زیر وارد کنید.
..
:: فائزه بنی اردلان ::
 | تاریخ ارسال: ۱۳۹۴/۸/۲۶ | 

AWT IMAGE

  خانم فائزه بنی اردلان دانشجوی کارشناسی ارشد آقای دکتر احمد اکبری روز سه شنبه 94/08/26 ساعت 15:30 در اتاق سمینار واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان بهبود ویژگی های گفتار نویزی با استفاده از شبکه های عصبی گلوگاه دفاع نمود.

چکیده

بحث مقاوم سازی سیستم‌های بازشناسی گفتار در برابر نویزهای محیطی به ویژه نویزهای ناایستان همواره مورد توجه بوده است. یکی از روش‌های موثر در این زمینه، توجه به تاثیرات نویز در سطح زیرباندهای فرکانسی و پردازش در سطح زیرباندی است. از سوی دیگر استفاده از شبکه‌های عصبی عمیق در سطح مدل‌سازی آکوستیک و همینطور استخراج و تبدیل ویژگی برای بازشناسی گفتار نیز در سال‌های اخیر مورد توجه قرار گرفته است. از این رو، در پایان نامه‌ی حاضر پیشنهاد می‌شود تا از یک شبکه‌ی عصبی خودرمزگذار عمیق کاهنده‌ی نویز با تابع هدف وزن‌دار برای حذف نویز از سطح زیرباندهای مل استفاده شود که در این راستا استفاده از دو روند آموزش متفاوت برای شبکه مد نظر قرار گرفته شده است. در این شبکه از یک تابع خطای وزن‌دار استفاده شده است تا به نحوه‌ی تأثیر نویز بر بازه‌های مختلف فرکانسی بیشتر توجه شود و اهمیت زیرباندهای مختلف فرکانسی یکسان در نظر گرفته نشود. بدین ترتیب زیرباندهایی که نویز بیشتری دارند با اهمیت کمتر و زیرباندهایی با نویز کمتر دارای اهمیت بیشتری در روند آموزش شبکه در نظر گرفته می‌شوند و شبکه حذف نویز را هوشمندانه انجام می‌دهد. علاوه بر این، از یک شبکه‌ی عصبی گلوگاه برای استخراج ویژگی‌های گلوگاه در سطح زیرباندهای مل استفاده شده است تا با الحاق این ویژگی‌های گلوگاهی به ویژگی‌های نویزی اولیه یک بردار ویژگی حاوی اطلاعات مفید ایجاد شود و در ادامه نیز با الحاق ویژگی‌های گلوگاه به ویژگی‌های حذف نویز شده‌ی حاصل از شبکه‌ی خودرمزگذار کاهنده‌ی نویز، یک بردار ویژگی مقاوم نسبت به نویز ایجاد شود. ورودی‌های شبکه عصبی عمیق خود رمزگذار در هر دو حالت مذکور شامل چندین قاب‌ متوالی گفتار است، در نتیجه شبکه عصبی عمیق رفتار درازمدت نویز در زیرباندهای مل در طول زمان را نیز می‌آموزد که منجر به حذف بهتر نویز و همچنین استخراج ویژگی‌های گلوگاهی مطلوب‌تر می‌شود. آزمایش‌های انجام شده روی دادگان Aurora2 نشان دهنده کارآیی روش پیشنهادی است در جایی که به طور میانگین حدود ۳۰٪ تا ۴۰٪ بهبود نسبت به ویژگی‌های نویزی اولیه (ویژگی‌های پایه) حاصل شده است.  

واژه‌های کلیدی: شبکه‌ی خودرمزگذار عمیق، شبکه‌ی خودرمزگذار کاهنده‌ی نویز، ویژگی‌های گلوگاهی،  آموزش آگاه به نویز

Abstract

Robustness of the speech recognition systems against environmental noises, especially non-stationary noises, has always been noticeable problem. One of the successful methods in this area is the consideration of the noise effects on different frequency sub-bands and so sub-bands speech processing. On the other hand, in recent years, deep neural networks have been widely used  in speech recognition for acoustic modeling and also feature extraction and transformation. Thus, in this thesis, we propose to use a Deep De-noising Auto-Encoder with the weighted training objective function for removing noise from Mel sub-bands. To this end, we use two different training method for the network. We use a weighted error function for considering the effect of noise on different frequency sub-bands. In this way, in the training process, we assign lower weights to the sub-bands containing higher level of noise, while we assign higher weights to sub-bands including lower level of noise. So, the network can train the noise behavior and performs better in removing noise. Moreover, we use a Bottleneck neural network for extracting bottleneck features from Mel sub-bands. Then, we append bottleneck features to initial noisy features to create a feature vector containing more useful information. Also, we construct a robust feature vector  with the appending bottleneck features to the de-noised features obtained from de-noising auto-encoder. Inputs of deep auto-encoder in both models include several successive frames of speech. As a result, the deep neural network learns the long-term behavior of noise in Mel sub-bands that can leads to a better noise removal and extracting more robust bottleneck features. Experimental results on Aorura2 database, show the proposed method performance where an average improvement about 30% to 40% has been obtained in comparison to the initial noisy features (basic features).

Keywords: Deep AutoEncoders, Deep Denoising AutoEncoders, Bottleneck features, Noise aware training

 

فائزه بنی اردلان

    رشته مهندسی کامپیوتر- هوش مصنوعی

  استاد راهنما:

  دکتر احمد اکبری

  استاد داور داخلی: دکتر ناصر مزینی

  استاد داور خارجی : دکتر محمدمهدی همایون پور

  تاریخ دفاع: سه شنبه 26 آبانماه 94

  زمان:ساعت 15:30

 

  مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق سمینار

 از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

 

  دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

 

 

 

 

 

 

دفعات مشاهده: 1529 بار   |   دفعات چاپ: 388 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
سایر مطالب این بخش سایر مطالب این بخش نسخه قابل چاپ نسخه قابل چاپ ارسال به دوستان ارسال به دوستان
School of Computer Engineering
Persian site map - English site map - Created in 0.178 seconds with 967 queries by yektaweb 3433