بهناز قیدر - 12/11/90

| تاریخ ارسال: 1390/11/5 |

AWT IMAGE

خانم بهناز قیدر دانشجوی کارشناسی ارشد جناب آقایان دکتر مرتضی آنالویی و دکتر بهروز مینایی روز چهارشنبه 12/11/90 ساعت8:30 صبح در اتاق 304 واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان محاسبه شباهت جملات جهت استفاده در پیکره های موازی دوزبانه دفاع خواهند نمود.

چکیده پایان نامه:

توانایی قضاوت دقیق در مورد شباهت جملات زبان طبیعی برای بهبود عملکرد کاربردهای مختلفی مانند خلاصه سازی متن ، شناسایی تقلب، سیستم های پرسش و پاسخ، ترجمه ماشینی و ... ضروری به شمار می رود. اگرچه تحقیقات زیادی در زمینه تعیین شباهت متون انجام گرفته است ولی کمتر موضوع تشخیص شباهت متن های کوتاه به خصوص جملات مورد توجه قرار گرفته است. همچنین در بسیاری از موارد، با وجود درجه بالایی از شباهت میان جملات، به دلیل متفاوت بودن نمایش ظاهری جملات، شناسایی آن‌ها مشکل می‌گردد. بنابراین نیاز به یک معیار شباهت معنایی موثر می‌باشد که با دریافت دو جمله تشخیص دهد که آیا دو جمله از نظر معنایی معادل یکدیگر می‌باشند یا خیر. تاکنون روش‌هایی برای شناسایی جملات مشابه در مراجع مختلف ارائه شده است که با اینکه دارای عملکرد نسبتا قابل‌قبولی در زمینه تشخیص جملات مشابه می‌باشند ولی در زمینه تشخیص جملات غیرمشابه عملکرد قابل‌قبولی نداشته و شاخص عدم پذیرش آن‌ها بسیار کم می‌باشد. به منظور حل این مشکل، در این پایان‌نامه راهکاری جهت بهبود کارایی روش‌های محاسبه شباهت جملات ارائه دادیم. ما در راهکار پیشنهادی خود جهت محاسبه شباهت جملات دو ایده را مطرح نمودیم: محاسبه متوسط شباهت کلمه به کلمه به جای در نظر گرفتن ماکزیمم مقدار و درنظر گرفتن ضریب پنالتی در معادله محاسبه شباهت جملات. با توجه به نتایج بدست آمده، به‌کار بردن این راهکار، موجب بهبود شاخص‌های عدم پذیرش و f1 می‌شود. همچنین این روش نسبت به سایر روش‌های معرفی شده در ادبیات موضوع، به علت استفاده از یک منبع داده‌ای و یک روش محاسبه شباهت معنایی کلمه به کلمه، از سربار محاسباتی و زمانی کمتری برخوردار می‌باشد.

در بخش دیگر این پایان‌نامه ما ایده بررسی کیفیت پیکره‌های موازی دوزبانه را با استفاده از شباهت جملات مطرح نمودیم. این کیفیت از دو جهت قابل بررسی است: افزونگی جملات مشابه در پیکره و ناسازگاری در ترجمه جملات. در واقع کاربردی که ما برای محاسبه شباهت جملات در این پایان‌نامه متصور می‌باشیم، بررسی کیفیت واحدهای هم‌تراز انگلیسی و فارسی پیکره با استفاده از اطلاعات زبان مبدا و مقصد پیکره به صورت جداگانه است. در واقع ما جهت نیل به این مقصود، ابتدا راهکار پیشنهادی محاسبه شباهت جملات را به بخش فارسی و انگلیسی پیکره به صورت جداگانه اعمال نمودیم و سپس تحقیقی را پیرامون ارتباط شباهت دو جمله انگلیسی و هم‌ترازان فارسی آن‌ها انجام دادیم. نتایج حاصل نشان می‌دهد که استفاده از روش‌های شباهت جملات در بررسی کیفیت پیکره‌های موازی می‌تواند موثر واقع گردد.

واژه‌های کلیدی: شباهت جملات، پیکره موازی دوزبانه، پردازش زبان‌طبیعی

Abstract:

Sentence similarity detection plays an important role in improving the performance of various natural language processing applications such as text summarization, plagiarism detection, question answering systems and machine translation. In general, there is extensive literature on measuring the similarity between documents, but there are few publications relating to the measurement of similarity between sentences. In many cases, despite high degree of semantic similarity between sentences, different sentence variants and surface representation make them difficult to detect. Thus there is a need for an effective semantic similarity measure for determining whether two sentences are semantically equivalent or not. Some of existing sentence similarity methods have relatively acceptable performance in identifying similar sentences, but most measures have a very low rejection rate and can not identify dissimilar ones. In order to solve this problem, we present an approach for retrieving similar sentences. We present this measure based on two ideas. First idea relies on average word similarity instead of maximum word similarity between two sentences. Second idea is based on using penalty factor in computing sentence similarity. According to the results, using the proposed method improves rejection and f1-measure metrics. Also, due to the use of just one method for calculating the semantic similarity of words in knowledge base, the computational overhead and time complexity of proposed method is lower in related to other sentence similarity methods.

In this thesis we examine the idea of the quality of bilingual parallel corpus using the sentence similarity concept. This quality could be investigated in two directions: sentence redundancy and inconsistency in the translation of sentences. Indeed we aim to use sentence similarity for investigating the quality of English and Persian aligned sentences with information of each language separately. For achieving this goal we apply our proposed sentence similarity method on Persian and English part of parallel corpus separately, and then outline the research on the similarities between the results of each part. The results show that sentence similarity usage in studying the quality of parallel corpus can be an effective approach.

Keywords: Sentence Similarity, Bilingual parallel corpus, Natural language processing

ارائهدهنده:

بهناز قیدر

اساتید راهنما:

دکتر مرتضی آنالویی

دکتر بهروز مینایی

استاد ممتحن داخلی : دکتر محمدرضا کنگاوری

استاد ممتحن خارجی :دکتر هشام فیلی

زمان : چهارشنبه 12 بهمن ماه

ساعت 8:30 صبح

مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق 304

از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

دفعات مشاهده: 4692 بار | دفعات چاپ: 1549 بار | دفعات ارسال به دیگران: 51 بار | 0 نظر