
خانم بهناز قیدر دانشجوی کارشناسی ارشد جناب آقایان دکتر مرتضی آنالویی و دکتر بهروز مینایی روز چهارشنبه 12/11/90 ساعت8:30 صبح در اتاق 304 واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان محاسبه شباهت جملات جهت استفاده در پیکره های موازی دوزبانه دفاع خواهند نمود.
چکیده پایان نامه:
توانایی قضاوت دقیق در مورد شباهت جملات زبان طبیعی برای بهبود عملکرد کاربردهای مختلفی مانند خلاصه سازی متن ، شناسایی تقلب، سیستم های پرسش و پاسخ، ترجمه ماشینی و ... ضروری به شمار می رود. اگرچه تحقیقات زیادی در زمینه تعیین شباهت متون انجام گرفته است ولی کمتر موضوع تشخیص شباهت متن های کوتاه به خصوص جملات مورد توجه قرار گرفته است. همچنین در بسیاری از موارد، با وجود درجه بالایی از شباهت میان جملات، به دلیل متفاوت بودن نمایش ظاهری جملات، شناسایی آنها مشکل میگردد. بنابراین نیاز به یک معیار شباهت معنایی موثر میباشد که با دریافت دو جمله تشخیص دهد که آیا دو جمله از نظر معنایی معادل یکدیگر میباشند یا خیر. تاکنون روشهایی برای شناسایی جملات مشابه در مراجع مختلف ارائه شده است که با اینکه دارای عملکرد نسبتا قابلقبولی در زمینه تشخیص جملات مشابه میباشند ولی در زمینه تشخیص جملات غیرمشابه عملکرد قابلقبولی نداشته و شاخص عدم پذیرش آنها بسیار کم میباشد. به منظور حل این مشکل، در این پایاننامه راهکاری جهت بهبود کارایی روشهای محاسبه شباهت جملات ارائه دادیم. ما در راهکار پیشنهادی خود جهت محاسبه شباهت جملات دو ایده را مطرح نمودیم: محاسبه متوسط شباهت کلمه به کلمه به جای در نظر گرفتن ماکزیمم مقدار و درنظر گرفتن ضریب پنالتی در معادله محاسبه شباهت جملات. با توجه به نتایج بدست آمده، بهکار بردن این راهکار، موجب بهبود شاخصهای عدم پذیرش و f1 میشود. همچنین این روش نسبت به سایر روشهای معرفی شده در ادبیات موضوع، به علت استفاده از یک منبع دادهای و یک روش محاسبه شباهت معنایی کلمه به کلمه، از سربار محاسباتی و زمانی کمتری برخوردار میباشد.
در بخش دیگر این پایاننامه ما ایده بررسی کیفیت پیکرههای موازی دوزبانه را با استفاده از شباهت جملات مطرح نمودیم. این کیفیت از دو جهت قابل بررسی است: افزونگی جملات مشابه در پیکره و ناسازگاری در ترجمه جملات. در واقع کاربردی که ما برای محاسبه شباهت جملات در این پایاننامه متصور میباشیم، بررسی کیفیت واحدهای همتراز انگلیسی و فارسی پیکره با استفاده از اطلاعات زبان مبدا و مقصد پیکره به صورت جداگانه است. در واقع ما جهت نیل به این مقصود، ابتدا راهکار پیشنهادی محاسبه شباهت جملات را به بخش فارسی و انگلیسی پیکره به صورت جداگانه اعمال نمودیم و سپس تحقیقی را پیرامون ارتباط شباهت دو جمله انگلیسی و همترازان فارسی آنها انجام دادیم. نتایج حاصل نشان میدهد که استفاده از روشهای شباهت جملات در بررسی کیفیت پیکرههای موازی میتواند موثر واقع گردد.
واژههای کلیدی: شباهت جملات، پیکره موازی دوزبانه، پردازش زبانطبیعی
Abstract:
Sentence similarity detection plays an important role in improving the performance of various natural language processing applications such as text summarization, plagiarism detection, question answering systems and machine translation. In general, there is extensive literature on measuring the similarity between documents, but there are few publications relating to the measurement of similarity between sentences. In many cases, despite high degree of semantic similarity between sentences, different sentence variants and surface representation make them difficult to detect. Thus there is a need for an effective semantic similarity measure for determining whether two sentences are semantically equivalent or not. Some of existing sentence similarity methods have relatively acceptable performance in identifying similar sentences, but most measures have a very low rejection rate and can not identify dissimilar ones. In order to solve this problem, we present an approach for retrieving similar sentences. We present this measure based on two ideas. First idea relies on average word similarity instead of maximum word similarity between two sentences. Second idea is based on using penalty factor in computing sentence similarity. According to the results, using the proposed method improves rejection and f1-measure metrics. Also, due to the use of just one method for calculating the semantic similarity of words in knowledge base, the computational overhead and time complexity of proposed method is lower in related to other sentence similarity methods.
In this thesis we examine the idea of the quality of bilingual parallel corpus using the sentence similarity concept. This quality could be investigated in two directions: sentence redundancy and inconsistency in the translation of sentences. Indeed we aim to use sentence similarity for investigating the quality of English and Persian aligned sentences with information of each language separately. For achieving this goal we apply our proposed sentence similarity method on Persian and English part of parallel corpus separately, and then outline the research on the similarities between the results of each part. The results show that sentence similarity usage in studying the quality of parallel corpus can be an effective approach.
Keywords: Sentence Similarity, Bilingual parallel corpus, Natural language processing
ارائهدهنده:
بهناز قیدر
اساتید راهنما:
دکتر مرتضی آنالویی
دکتر بهروز مینایی
استاد ممتحن داخلی : دکتر محمدرضا کنگاوری
استاد ممتحن خارجی :دکتر هشام فیلی
زمان : چهارشنبه 12 بهمن ماه
ساعت 8:30 صبح
مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق 304
از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی