[صفحه اصلی ]   [ English ]  
بخش‌های اصلی
درباره دانشکده::
مدیریت دانشکده::
اعضای هیات علمی ::
معرفی افراد::
امور آموزش::
امور پژوهشی::
آموزش الکترونیکی::
پردیس شماره 2::
اخبار و رویدادها::
فضاهای آموزشی و تحقیقاتی ::
تسهیلات پایگاه::
::
ورود به سایت دروس

AWT IMAGE

نام کاربری
کلمه عبور

AWT IMAGE
رمز ورود را فراموش کرده‌اید؟

..
دفاعیه کارشناسی ارشد

دفاعیه کارشناسی ارشد

..
جستجو در پایگاه

جستجوی پیشرفته
..
دریافت اطلاعات پایگاه
نشانی پست الکترونیک خود را برای دریافت اطلاعات و اخبار پایگاه، در کادر زیر وارد کنید.
..
:: محمد عبدوس ::
 | تاریخ ارسال: ۱۳۹۴/۱۲/۸ | 

AWT IMAGE

آقای محمد عبدوس دانشجوی کارشناسی ارشد آقای دکتر بهروز مینایی روز  شنبه  94/12/15 ساعت 17:00 در اتاق سمینار واقع در طبقه سوم دانشکده کامپیوتر از پروژه کارشناسی ارشد خود تحت عنوان ارائه روشی جهت تشخیص واحدهای اسمی در زبان فارسی با استفاده از محتوای ویکی‌پدیای فارسی دفاع می­ نمایند 

چکیده

­

تشخیص واحدهای اسمی شاخه‌ای از  پردازش زبان طبیعی است که در آن کلیه‌ی اسامی خاص موجود در متن و متعلق به رده‌های مختلف معنایی شناسایی و استخراج می‌گردند و تحت رده‌های از پیش تعریف‌شده‌ای مانند اسم افراد، سازمان‌ها، مکان‌ها و... دسته‌بندی می‌شوند. هرچند که در دهه اخیر کارهای زیادی بر روی سیستم‌های تشخیص واحد اسمی در زبان‌های مختلف و دامنه‌های مختلف انجام‌شده است، اما در زبان فارسی با توجه به عدم وجود یک مجموعه داده کامل به همراه برچسب‌های غنی، تاکنون سامانه‌ای برای طبقه‌بندی اسامی ایجاد نشده است. تشخیص واحدهای اسمی در بسیاری از سیستم‌های مختلف پردازش زبان طبیعی مانند جستجوهای معنادار، ترجمه‌ی خودکار، استخراج خودکار رابطه‌های متن، کشف ارجاعات در متن، تشخیص گوینده نقل‌قول، خلاصه‌سازی متون و بسیاری دیگر از زمینه‌های مربوط به پردازش زبان‌های طبیعی کاربرد دارد. ما در این پژوهش ابتدا به معرفی سیستم تشخیص واحد اسمی در زبان فارسی می‌پردازیم. سپس تاریخچه‌ای از سیستم‌های تشخیص واحد اسمی را بیان می‌کنیم. در ادامه چالش‌های زبان فارسی در این حوزه را توضیح  و استاندارد ایجادشده برای سیستم‌های تشخیص واحد اسمی را مورد بررسی قرار می‌دهیم. پس از آن روش‌های مختلف پیاده‌سازی تشخیص واحد اسمی در زبان فارسی را شرح می‌دهیم. این روش‌ها را می‌توان به سه دسته روش‌های با قاعده، مبتنی بر واژگان و مبتنی بر یادگیری ماشین تقسیم کرد. ما در این پایان‌نامه هر سه روش را پیاده‌سازی کردیم و برای واژگان نیز بهترین منبع، استفاده از ویکی‌پدیا بود که منبع عظیمی از واحدهای اسمی را داراست. برای پیاده‌سازی روش‌های یادگیری ماشین نیاز به مجموعه داده برچسب خورده داشتیم که با توجه به عدم وجود آن دو پیکره‌ای را که بالغ ‌بر 400 هزار کلمه برچسب خورده بود تولید کردیم. یکی از این پیکره‌ها حاوی سه نوع برچسب مکان، سازمان و شخص می‌باشد و دیگری شامل مکان، شخص، سازمان، امکانات، محصول و رویداد است. بعد از ایجاد پیکره مدل میدان‌های تصادفی شرطی را آموزش دادیم. معیار F سیستم در حالت تشخیص سه نوع واحد اسمی 88 و شش نوع واحد اسمی 83 به دست آمد.  ارزیابی‌ها به روش ارزیابی متقاطع 5-تایی و بر اساس هر کلمه انجام ‌شده است.

واژه‌های کلیدی: شناسایی واحدهای اسمی، پردازش زبان طبیعی، مبتنی بر قاعده، مبتنی بر واژگان، پیکره، میدان‌های تصادفی شرطی

Abstract

Named entity recognition plays an important role in many NLP tasks. Named entity recognition is a system that can detect entities in texts and classify them into specific classes. There are three methods to create an NER[1] system those are Rule based, Lexicon based and Machine-learning based methods. In this thesis we created a system that uses rules and lexicons and Machine_learning methods to recognize Farsi named entities in Persian texts. For creating lexicons we used Farsi Wikipedia and extract about 40.000 unique Entity name in three types and 45.000 unique Entities in six types. Then, we create named entities corpus in two types. First corpus consists of 420.000 tokens and 7 classes and second corpus consists of 460.000 tokens and 13 classes.

After creating corpus the system learn the corpuses with Conditional Random Fields method. Evaluation was taken with 5-Fold-cross validation and reached F-measure %88 in three types and 83% in six types named entity. This result shows that our system is the best for Persain texts.

Keywords: Named Entity Recognition, Natural Language Processing, WikiPedia, Machine Learning Based, Conditional Rnadom Fields

 

محمد عبدوس

   رشته مهندسی کامپیوتر – هوش مصنوعی و رباتیک

استاد راهنما: دکتر بهروز مینایی

استاد داور داخلی: دکتر مرتضی آنالوئی

استاد داور خارجی:دکتر هشام فیلی

  تاریخ دفاع: شنبه 15 اسفند ماه 94

  زمان:ساعت 17:00

 

  مکان: دانشکده مهندسی کامپیوتر- طبقه سوم- اتاق سمینار

 از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.

 

  دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

 

 

 

 

 

 

دفعات مشاهده: 1250 بار   |   دفعات چاپ: 221 بار   |   دفعات ارسال به دیگران: 0 بار   |   0 نظر
سایر مطالب این بخش سایر مطالب این بخش نسخه قابل چاپ نسخه قابل چاپ ارسال به دوستان ارسال به دوستان
School of Computer Engineering
Persian site map - English site map - Created in 0.175 seconds with 935 queries by yektaweb 3388