[صفحه اصلی ]   [ English ]  
بخش‌های اصلی
درباره دانشکده::
مدیریت دانشکده::
اعضای هیات علمی ::
معرفی افراد::
امور آموزش::
امور پژوهشی::
آموزش الکترونیکی::
پردیس شماره 2::
اخبار و رویدادها::
فضاهای آموزشی و تحقیقاتی ::
تسهیلات پایگاه::
::
ورود به سایت دروس

AWT IMAGE

نام کاربری
کلمه عبور

AWT IMAGE
رمز ورود را فراموش کرده‌اید؟

..
دفاعیه کارشناسی ارشد

دفاعیه کارشناسی ارشد

..
جستجو در پایگاه

جستجوی پیشرفته
..
دریافت اطلاعات پایگاه
نشانی پست الکترونیک خود را برای دریافت اطلاعات و اخبار پایگاه، در کادر زیر وارد کنید.
..
:: جلسه دفاعیه از رساله دکترا - خانم شیما طبیبیان ::
 | تاریخ ارسال: ۱۳۹۲/۲/۲۵ | 

AWT IMAGE

خانم شیما طبیبیان دانشجوی دکترای جناب آقای دکتر احمد اکبری روز دوشنبه 30/02/92 ساعت 18 در اتاق دفاعیه واقع در طبقه دوم دانشکده مهندسی کامپیوتر از رساله دکترای خود تحت عنوان بهبود دقت واژه یابی گفتار در سیستم های مبتنی بر مدل مخفی مارکف و رده بندهای متمایزساز دفاع خواهند نمود.

 

  چکیده پایان نامه:

 

  واژه یابی گفتار به معنای یافتن موقعیت کلمات یا عبارات ویژه در یک گفتار بدون محدودیت و رد کردن بخشهای نامرتبط گفتار می باشد. اغلب کارهای انجام شده در زمینه واژه یابی گفتار به دو دسته تقسیم می شوند: واژه یابی گفتار مبتنی بر مدل مخفی مارکف و واژه یابی گفتار مبتنی بر روشهای متمایزساز. در این پایان نامه با استفاده از هر دو رویکرد مبتنی بر مدل مخفی مارکف و روشهای متمایزساز، راهکاری برای واژه یابی گفتار پیشنهاد شده است که ضمن بهره گیری از بیشترین مزایای هر دو رویکرد، کاستی های آنها را تا حد امکان مرتفع گرداند. در راهکار پیشنهاد شده، واژه یاب گفتار یک رده بند دودویی است که کلاس جملات حاوی کلمات کلیدی را از کلاس سایر جملات تفکیک می کند. این رده بند دودویی از دو بخش استخراج ویژگی و رده بندی تشکیل شده است. نوآوریهای بخش استخراج ویژگی شامل پیشنهاد تابع اطمینان از حضور (که میزان اطمینان از حضور دنباله واجی کلمه کلیدی مورد جستجو در عبارت گفتار ورودی را مدل می نماید) و تابع اطمینان از کشش زمانی (که میزان اطمینان از اعتبار کشش زمانی واجهای کلمه کلیدی را محاسبه می کند و برای جبران فقدان مدل کشش زمانی واجها ارائه شده است) و پیشنهاد راهکاری برای ترکیب رویکرد مبتنی بر مدل مخفی مارکف و رده بند متمایزساز ( به منظور استفاده از اطلاعات سه واج در روش متمایزساز) می باشند. نوآوریهای بخش رده بندی شامل پیشنهاد دو روند آموزش برای آموزش رده بند تفکیک کننده دو کلاس مذکور (روند آموزش تکاملی با فرض تفکیک پذیری خطی و روند آموزش مبتنی بر هسته با فرض تفکیک ناپذیری خطی) و پیشنهاد دو روند جستجو برای مکان یابی کلمه کلیدی (نسخه سلسله مراتبی الگوریتم جستجوی ویتربی و الگوریتم جستجوی چند- بهترین که به ترتیب با هدف تسریع و بهبود دقت جستجوی مکان کلمه کلیدی پیشنهاد شده اند) هستند.

  چارچوب نهایی پیشنهادی برای واژه یابی گفتار متمایزساز، در برگیرنده بخش استخراج ویژگی پیشنهادی، رده بند مبتنی بر الگوریتم تکاملی و الگوریتم جستجوی چند- بهترین می باشد. مزیتهای چارچوب نهایی پیشنهادی شامل امکان استفاده از روش جستجوی چند- بهترین، امکان استفاده از اطلاعات سه واج، تناسب تابع هدفِ لحاظ شده برای آموزش واژه یاب گفتار با معیار ارزیابی کارایی آن، دقت و کارایی مطلوب واژه یاب گفتار و عدم نیاز به رویکرد مجزایی برای برخورد با بخشهای غیر کلیدی گفتار می باشد. دو مزیت اول از مزایای روشهای مبتنی بر مدل مخفی مارکف و سایر مزیتها مربوط به روشهای متمایزساز می باشند. از معایب چارچوب پیشنهادی می توان به عدم امکان استفاده از آن در کاربردهای بلادرنگ به دلیل پیچیدگی های محاسباتی ناشی از استخراج ویژگی های متمایزساز اشاره نمود. نتایج ارزیابی ها بر روی دادگان TIMIT حاکی از بهبود سرعت پاسخگویی سیستم (حدود 2/2 برابر) در مقابل افت نا محسوس دقت (حدود 4/0 درصد) در مقایسه با رویکردهای متمایزساز موجود برای واژه یابی گفتار می باشد. در مقایسه با رویکردهای مبتنی بر مدل مخفی مارکف، دقت واژه یاب گفتار پیشنهادی بهبود قابل توجهی (حدود 15 درصد) داشته است. همچنین، سرعت پاسخگویی واژه یاب گفتار پیشنهاد شده حدود 4 برابر کندتر از سرعت بلادرنگ می باشد که در مقایسه با روشهای مبتنی بر مدل مخفی مارکف (در سریع ترین عملکردشان) حدود 40 برابر کندتر عمل می کند.

  کلمات کلیدی: واژه یابی گفتار، روش مبتنی بر مدل مخفی مارکف، روشهای متمایزساز، هسته، جستجوی چند- بهترین، جستجوی سلسله مراتبی، سه-واج .

 

 

 : Abstract

  Keyword spotting (KWS) refers to discovering a set of target keywords in continuous speech utterances. We divide different KWS approaches into two main groups: HMM-based and Discriminative KWS (DKWS) approaches. In this thesis, we propose an approach for KWS which exploits the advantages of both HMM-based and DKWS approaches and compensate their disadvantages. We consider keyword spotter as a binary classifier that separates between class of sentences with target keywords and class of other sentences. This classifier consists of two important parts: feature extraction and classification. We propose two discriminative features for the feature extraction part. The first feature is a Presence Confidence Function (PCF), which measures the confidence of the target keyword occurrence in the corresponding frames of the input speech. The second feature is a Duration Confidence Function (DCF), which presents the confidence of the predicted duration of each phone for the target keyword. We propose an approach for combining HMM-based and discriminative methods in order to use information of triphones to improve PCF. PCF is more important than DCF and plays an important role in the KWS system performance. In the classification part, we propose two methods for training the classifier (an evolutionary algorithm for linear separation and a kernel-based approach for non-linear separation) and two search algorithms (a hierarchical version of the Viterbi algorithm for speed improvement and an N-best method for accuracy improvement) to find the target keyword position.

  The final proposed framework for keyword spotting includes the proposed feature extraction part, the evolutionary-based classifier, the N-best search method and the proposed approach for using information of triphones in the feature extraction part. The advantages of the proposed framework are possibility of exploiting N-best search method, possibility of exploiting diphones and triphones information, considering the evaluation measure of KWS systems as the training objective and suitable performance. The main disadvantage of the proposed framework is the high computational complexity of the feature extraction part. The results on TIMIT database indicate that the accuracy of the proposed KWS framework is about 15% better than the accuracy of HMM-based KWS approaches. Additionally, the speed of the proposed framework is 2.2 times better than that of the baseline discriminative KWS approach. This improvement costs 0.4% degradation in the accuracy of the proposed KWS framework.

 

  Keywords: spoken keyword spotting, HMM-based approach, discriminative approach, kernel, N-best search, hierarchical search, triphones information.

 

 

 

 

  ارائه­دهنده:

شیما طبیبیان

  ShimaTabibian@iust.ac.ir 

استاد راهنما:

  دکتر احمد اکبری

  هیات داوران:

  دکتر محمدرضا جاهد مطلق - دکتر ناصر مزینی - دکتر رضا برنگی-دکتر حسین صامتی - دکتر محمدمهدی همایون پور

  زمان : دوشنبه 30 اردیبهشت 1392

  ساعت 18 

مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق دفاعیه

  از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

  دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

 

دفعات مشاهده: 3042 بار   |   دفعات چاپ: 834 بار   |   دفعات ارسال به دیگران: 41 بار   |   0 نظر
سایر مطالب این بخش سایر مطالب این بخش نسخه قابل چاپ نسخه قابل چاپ ارسال به دوستان ارسال به دوستان
School of Computer Engineering
Persian site map - English site map - Created in 0.192 seconds with 965 queries by yektaweb 3525