مجید عسگری بیدهندی

| تاریخ ارسال: 1400/9/3 |

آقای مجید عسگری بیدهندی دانشجوی دکترای آقای دکتر بهروز مینایی بیدگلی مورخ ۱۴۰۰/۰۹/۰۶ ساعت ۱۵:۰۰ از رساله دکتری خود با عنوان " ساخت خودکار پایگاه‌های دانش با استفاده از تکنیک‌های استخراج آزاد اطلاعات " دفاع خواهند نمود.

ارائه دهنده:
مجید عسگری بیدهندی
استاد راهنما:
دکتر بهروز مینایی بیدگلی
هیات داوران:

دکتر احمد عبدالله‌زاده بارفروش ؛ دکتر هشام فیلی؛
دکتر مرتضی آنالویی؛ دکتر محمدرضا کنگاوری

زمان : ۰۶ آذرماه ۱۴۰۰

ساعت ۱۵:۰۰

محل برگزاری: : http://meeting.iust.ac.ir/

چکیده پایان نامه :

استخراج خودکار اطلاعاتِ ساخت‌یافته از سندهای متنی بدون ساختار بدون محدودشدن به دامنه‌ی ازپیش‌تعیین‌شده، استخراج آزاد اطلاعات نامیده می‌شود. موجودیت‌ها و گزاره‌های مشخص ممکن است به شکل‌های گوناگون در اطلاعات تولیدشده توسط استخراج‌گرهای آزاد اطلاعات ظاهر شوند، اما کانونی‌سازی این اطلاعات (نگاشت آن‌ها به موجودیت‌ها و روابط گراف دانش) می‌تواند منجر به ساده‌تر شدن، دقیق‌تر شدن، و سریع‌تر شدن عملیات‌های پردازش دانش همچون بازیابی دانش، استدلال خودکار، و بازنمایی دانش گردد. هدف از استخراج آزاد دانش، تولید سه‌تایی‌های گراف‌دانشی موجودیت-رابطه-موجودیت بدون محدودشدن به دامنه‌ی ازپیش‌تعیین‌شده می‌باشد.
مهمترین نوآوری این پژوهش، ارائه‌ی یک رویکرد جدید برای استخراج آزاد دانش است. این رویکرد با کانونی‌سازی سه‌تایی‌های تولید شده توسط استخراج آزاد اطلاعات و همجوشی آن با سایر روش‌های استخراج آزاد دانش، باعث بهبود عملکرد کلی فرآیند استخراج آزاد دانش بر اساس معیار F_۱ شده است.
علاوه بر رویکرد جدید ارائه شده، چند روش نوآورانه نیز در این پژوهش ارائه شده است. به عنوان نوآوری روشی اول، در این رساله با بازکاربست یک پیمانه‌ی همجوشی موجود در مرز دانشی برای استخراج اطلاعات، یک پیمانه‌ی همجوشی مستقل از آستانه را در مسئله استخراج آزاد دانش معرفی نموده‌ایم.
نوآوری دیگر عبارت است از ارائه‌ی یک روش جدید مستقل از زبان و بی‌ناظر برای پیونددهی موجودیت. این روش تنها با استفاده از متن مقالات ویکی‌پدیا و پیوندهای درونی میان صفحات، عملیات ابهام زدایی موجودیت را انجام می‌دهد. در این روش، غیر از داده‌های موجود در ویکی‌پدیا، نیاز به نظارت انسانی یا ساخت پیکره‌ی متنی دیگری وجود ندارد و قابل اعمال شدن به زبان‌های کم‌منبع می‌باشد.
نوآوری بعدی این پژوهش، ارائه‌ی یک روش جدید برای استفاده توأمان از تجزیه‌ی وابستگی و تجزیه‌ی سازه‌ای برای عملیات «استخراج آزاد دانش با استفاده از استخراج آزاد اطلاعات» است.
به عنوان نوآوری دیگر، یک روش جدید برای کانونی‌سازی روابط تولید شده توسط استخراج‌گر آزاد اطلاعات، به گزاره‌های گراف دانش معرفی شده است. این روش با کمک داده‌های تولید شده توسط استخراج‌گر دورناظر دانش، یک رده‌بند را برای کانونی‌سازی روابط آموزش می‌دهد.
استفاده از عبارات منظم توکن محور، که توسط افراد خبره توسعه داده شده و توسط یک آزمایشگاه زبان‌شناسی معتبر تایید شده‌اند، برای استخراج آزاد دانش در زبان فارسی نوآوری دیگر پیشنهاد شده در این رساله است.
آخرین نوآوری معرفی شده در این رساله، ارائه‌ی روشی است به منظور بهبود معیار F_۱ در مسأله‌ی استخراج آزاد دانش در زبان فارسی.
همچنین در این رساله اولین مجموعه‌ی داده‌ی طلایی استخراج آزاد دانش در زبان فارسی ارائه شده است. نتایج آزمایش‌ها حاکی از برتری رویکرد ارائه شده نسبت به سایر رویکرد‌های مرز دانشی، و نیز برتری روش‌های ارائه شده نسبت به روش‌های موجود در مرزهای دانش می‌باشد.

Abstract:

Automated construction of knowledge bases using techniques of Open Information Extraction
Automatic extraction of structured information from unstructured or semi-structured text documents without being limited to a predefined domain is called open information extraction (OIE). Specific entities and predicates may appear in various forms in the information generated by open information extractors. Canonicalizing this information (mapping them to knowledge graph entities and predicates) can make knowledge processing operations, such as knowledge retrieval, automated reasoning, and knowledge representation easier, more accurate, and faster.
The purpose of open knowledge extraction (OKE) is to produce knowledge-graph-triples of entity-relationship-entity without being limited to a predetermined domain.
The most important innovation of this research is to present a new approach to Open Knowledge Extraction (OKE). This approach has improved the overall performance of the OKE process based on the F_۱ measure by canonicalizing the triples produced by OIE and integrating it with other OKE methods. In addition to the new proposed approach, several innovative methods are also presented in this research. As the first innovative method of this dissertation, by re-applying a fusion module in the information extraction, we have introduced a threshold-independent fusion module for the OKE. Another innovation is the introduction of a new, language-agnostic, unsupervised method for Entity Linking (EL). This method performs the Entity Disambiguation (ED) only by using the text of Wikipedia articles and internal links between the pages. In this way, there is no need for human supervision or the construction of a corpus, and it can be applied in low-resource languages. The next innovation of this research is to present a new method for "OKE using OIE" by a joint application of dependency and constituency parsing trees. As another innovation, a new method for canonicalizing the relationships produced by OIE to the predicates of the knowledge graph. This approach, with the help of data generated by a distant-supervision knowledge extractor, trains a classifier to canonicalize relationships. The use of token-based regular expressions, developed by experts and approved by a reputable linguistics laboratory, for the OKE in the Persian language, is another innovation proposed in this dissertation.
The latest innovation presented in this dissertation provides a method to improve the F_۱ measure in the problem of OKE in the Persian language.
Also, the first gold dataset for the OKE in the Persian language is presented. The results of the experiments indicate the superiority of the proposed approach over state-of-the-art OKE approaches, as well as the superiority of the proposed methods over the state-of-the-art methods.

محل برگزاری: به صورت مجازی
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

دفعات مشاهده: 4736 بار | دفعات چاپ: 849 بار | دفعات ارسال به دیگران: 0 بار | 0 نظر