آقای بهزاد زمانی دهکردی دانشجوی دکترای جناب آقای دکتر احمد اکبری روز سه شنبه مورخ 30/3/91 ساعت 16:30 در اتاق 106 واقع در طبقه اول دانشکده مهندسی کامپیوتر از رساله دکترای خود تحت عنوان ارائه چهارچوبی برای تبدیلات متمایز ساز ویژگی ها به منظور افزایش نرخ بازشناسی گفتار دفاع خواهند نمود. چکیده پایان نامه: سیستم های بازشناسی خودکار گفتار را میتوان متشکل از دو قسمت کلی دانست: بخش استخراج ویژگی و بخش مربوط به مدل کردن آماری ویژگیها و دسته بندی. ویژگیهای گفتاری باید خصوصیات برجستهتری از گفتار را تعیین کند که واحدهای مختلف گفتاری را از یکدیگر متمایز نماید. گاه این ویژگیها به واسطه لهجه و نحوه گویش گفتار، تغییر گویندگان یا حضور نویز خصوصیت متمایزسازی خود را تا اندازه زیادی از دست میدهند. تبدیل ویژگی میتواند پس از استخراج ویژگی بکار رود تا به این متمایزسازی کمک نماید. از یک نگاه روشهای تبدیل ویژگی را میتوان به دو گروه مبتنی بر داده و مبتنی بر کلاسبند تقسیم کرد. درواقع معیار تخمین تبدیل، تعیین کننده نوع تبدیل است. اگر معیار فقط برمبنای رفتار آماری ویژگیها باشد، روش مبتنی بر داده و اگر معیار بر اساس خطای کلاسبندی باشد، روش را مبتنی بر کلاسبند مینامند. طبعاً بهرهگیری از هر یک از این دو معیار به تنهایی، اطلاعات مربوط به معیار دیگر را در نظر نمیگیرد که چندان عادلانه نیست. چون هم باید به ماهیت ویژگیها توجه داشت و هم به نحوه عملکرد کلاسبند. از دیدگاهی دیگر، روشهای تبدیل ویژگی را میتوان به روشهای خطی و غیرخطی تقسیم نمود. روشهای تبدیل ویژگی خطی ویژگیهای جدید را براساس میانگین وزندار ویژگیهای اصلی بدست میآورد. اما تبدیلات غیرخطی با یک نگاشت غیرخطی عمل تبدیل را انجام میدهد. در این رساله هدف اعمال تبدیل بر ویژگی های گفتار با هدف متمایزسازی بیشتر ویژگی ها به منظور افزایش نرخ بازشناسی گفتار است. برای این منظور چارچوبی برای ترکیب و بهبود روشهای تبدیل ویژگی مبتنی بر داده و مبتنی بر کلاسبند در هر دو حوزه خطی و غیرخطی مطرح شده است. در این راستا ابتدا ترکیب در حوزه تبدیلات خطی صورت میگیرد و در ادامه پیشنهادی برای بهبود تبدیلها از دیدگاه غیرخطی بودن مطرح میشود. در رویکرد خطی، روشهای تبدیل ویژگی مبتنی بر داده خطی نظیر تحلیل مولفههای اصلی (PCA) و تحلیل متمایزساز خطی (LDA) با توجه به خطای کلاسبندی کمینه (MCE) و بهرهگیری از درستنماییهای مدل مخفی مارکوف و نیز الگوریتم ژنتیک به شکل خطی بهبود یافتهاند. در رویکرد غیرخطی، تبدیل مبتنی بر خطای کلاسبند کمینه (MCE) با استفاده از مفاهیم هسته به شکل غیرخطی ارائه و فرموله شده است و منجر به معرفی روش خطای کلاسبندی کمینه مبتنی بر هسته (Kernel MCE) گردیده است. به این ترتیب کارآیی روش خطی مذکور با جداسازی ویژگیهایی که بعضاً به صورت خطی قابل جداسازی نیستند، افزایش مییابد. به علاوه در روشهای تبدیل ویژگی غیرخطی مبتنی بر داده و هسته همچون تحلیل مولفههای اصلی مبتنی بر هسته (Kernel PCA) و تحلیل متمایزساز مبتنی بر هسته (kernel LDA) نیز به خطای کلاسبندی توجهی نمیشود. از این رو روشی پیشنهاد شده است تا تابع هسته برای این روشها به نحوی تعیین شود که در انجام نگاشت، خطای کلاسبندی نیز مد نظر قرار گیرد. این تابع هسته با استفاده از الگوریتم ژنتیک و برنامهریزی ژنتیک و ترکیب خطی و غیرخطی توابع هسته شناخته شده نظیر توابع هسته گاوسی و چندجملهای و با توجه به معیار خطای کلاسبندی کمینه و اطلاعات متقابل ویژگیها و کلاسها تعیین میگردد. نتایج آزمایشها بر روی دادگان گفتاری نشانگر آن است که روشهای پیشنهادی تبدیل ویژگی سبب افزایش کارایی روشهای کلاسیک تبدیل ویژگی شده اند. واژههای کلیدی: بازشناسی گفتار، تبدیل ویژگی، خطای کلاسبندی کمینه،تحلیل مولفههای اصلی، تحلیل متمایزساز خطی، تابع هسته.
: Abstract Automatic speech recognition systems contain two main parts, namely feature extraction and statistical modeling and classification parts. The extended feature should have good speech properties which discriminate different speech units. The discrimination power of these features decreases frequently due to different factors such as accent, presence of new speakers or noise. Feature transformation can be used after feature extraction to improve the discrimination power. Feature transformation methods can be divided to two categories: data-based and classier-based methods. In data-based methods the measure of transformation approximation is based in the statistical behavior of the features; but in classifier-based method, it is based on classifier’s error. In another sense, the feature transformation methods can be divided to linear and nonlinear methods. While linear methods calculate the new features as a weighted average of the original feature, nonlinear methods use a nonlinear mapping for this reason. In this dissertation, a new feature framework is proposed for combination and improvement of data-based and classifier-based methods in both linear and nonlinear domains. To do this, at first, the combination of transformation methods is performed in linear domain and then, its generalization to nonlinear domain is explored. Keywords: speech recognition, feature transformation, minimum classification error, principle component analysis, linear discriminant analysis, kernel function. ارائهدهنده: بهزاد زمانی دهکردی bzamani@iust.ac.ir استاد راهنما: دکتر احمد اکبری هیات داوران: 1- دکتر حمید شیخ زاده نجار 2 -دکتر محمد مهدی همایونپور 3- دکتر مجمدرضا جاهد مطلق 4- دکتر عادل ترکمان رحمانی 5-دکتر ناصر مزینی زمان : سه شنبه 30 خردادماه 1391 ساعت 16:30 مکان: دانشکده مهندسی کامپیوتر- طبقه اول- اتاق 106 از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند. دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی |