آقای
مجید عسگری بیدهندی دانشجوی دکترای آقای دکتر بهروز مینایی بیدگلی مورخ ۱۴۰۰/۰۹/۰۶ ساعت ۱۵:۰۰ از رساله دکتری خود با عنوان "
ساخت خودکار پایگاههای دانش با استفاده از تکنیکهای استخراج آزاد اطلاعات
" دفاع خواهند نمود. |
ارائه دهنده:
مجید عسگری بیدهندی
استاد راهنما:
دکتر بهروز مینایی بیدگلی
هیات داوران:
دکتر احمد عبداللهزاده بارفروش ؛ دکتر هشام فیلی؛
دکتر مرتضی آنالویی؛ دکتر محمدرضا کنگاوری
زمان : ۰۶ آذرماه ۱۴۰۰
ساعت ۱۵:۰۰
محل برگزاری: : http://meeting.iust.ac.ir/
چکیده پایان نامه :
استخراج خودکار اطلاعاتِ ساختیافته از سندهای متنی بدون ساختار بدون محدودشدن به دامنهی ازپیشتعیینشده، استخراج آزاد اطلاعات نامیده میشود. موجودیتها و گزارههای مشخص ممکن است به شکلهای گوناگون در اطلاعات تولیدشده توسط استخراجگرهای آزاد اطلاعات ظاهر شوند، اما کانونیسازی این اطلاعات (نگاشت آنها به موجودیتها و روابط گراف دانش) میتواند منجر به سادهتر شدن، دقیقتر شدن، و سریعتر شدن عملیاتهای پردازش دانش همچون بازیابی دانش، استدلال خودکار، و بازنمایی دانش گردد. هدف از استخراج آزاد دانش، تولید سهتاییهای گرافدانشی موجودیت-رابطه-موجودیت بدون محدودشدن به دامنهی ازپیشتعیینشده میباشد.
مهمترین نوآوری این پژوهش، ارائهی یک رویکرد جدید برای استخراج آزاد دانش است. این رویکرد با کانونیسازی سهتاییهای تولید شده توسط استخراج آزاد اطلاعات و همجوشی آن با سایر روشهای استخراج آزاد دانش، باعث بهبود عملکرد کلی فرآیند استخراج آزاد دانش بر اساس معیار F۱ شده است.
علاوه بر رویکرد جدید ارائه شده، چند روش نوآورانه نیز در این پژوهش ارائه شده است. به عنوان نوآوری روشی اول، در این رساله با بازکاربست یک پیمانهی همجوشی موجود در مرز دانشی برای استخراج اطلاعات، یک پیمانهی همجوشی مستقل از آستانه را در مسئله استخراج آزاد دانش معرفی نمودهایم.
نوآوری دیگر عبارت است از ارائهی یک روش جدید مستقل از زبان و بیناظر برای پیونددهی موجودیت. این روش تنها با استفاده از متن مقالات ویکیپدیا و پیوندهای درونی میان صفحات، عملیات ابهام زدایی موجودیت را انجام میدهد. در این روش، غیر از دادههای موجود در ویکیپدیا، نیاز به نظارت انسانی یا ساخت پیکرهی متنی دیگری وجود ندارد و قابل اعمال شدن به زبانهای کممنبع میباشد.
نوآوری بعدی این پژوهش، ارائهی یک روش جدید برای استفاده توأمان از تجزیهی وابستگی و تجزیهی سازهای برای عملیات «استخراج آزاد دانش با استفاده از استخراج آزاد اطلاعات» است.
به عنوان نوآوری دیگر، یک روش جدید برای کانونیسازی روابط تولید شده توسط استخراجگر آزاد اطلاعات، به گزارههای گراف دانش معرفی شده است. این روش با کمک دادههای تولید شده توسط استخراجگر دورناظر دانش، یک ردهبند را برای کانونیسازی روابط آموزش میدهد.
استفاده از عبارات منظم توکن محور، که توسط افراد خبره توسعه داده شده و توسط یک آزمایشگاه زبانشناسی معتبر تایید شدهاند، برای استخراج آزاد دانش در زبان فارسی نوآوری دیگر پیشنهاد شده در این رساله است.
آخرین نوآوری معرفی شده در این رساله، ارائهی روشی است به منظور بهبود معیار F۱ در مسألهی استخراج آزاد دانش در زبان فارسی.
همچنین در این رساله اولین مجموعهی دادهی طلایی استخراج آزاد دانش در زبان فارسی ارائه شده است. نتایج آزمایشها حاکی از برتری رویکرد ارائه شده نسبت به سایر رویکردهای مرز دانشی، و نیز برتری روشهای ارائه شده نسبت به روشهای موجود در مرزهای دانش میباشد.
Abstract:
Automated construction of knowledge bases using techniques of Open Information Extraction
Automatic extraction of structured information from unstructured or semi-structured text documents without being limited to a predefined domain is called open information extraction (OIE). Specific entities and predicates may appear in various forms in the information generated by open information extractors. Canonicalizing this information (mapping them to knowledge graph entities and predicates) can make knowledge processing operations, such as knowledge retrieval, automated reasoning, and knowledge representation easier, more accurate, and faster.
The purpose of open knowledge extraction (OKE) is to produce knowledge-graph-triples of entity-relationship-entity without being limited to a predetermined domain.
The most important innovation of this research is to present a new approach to Open Knowledge Extraction (OKE). This approach has improved the overall performance of the OKE process based on the F۱ measure by canonicalizing the triples produced by OIE and integrating it with other OKE methods. In addition to the new proposed approach, several innovative methods are also presented in this research. As the first innovative method of this dissertation, by re-applying a fusion module in the information extraction, we have introduced a threshold-independent fusion module for the OKE. Another innovation is the introduction of a new, language-agnostic, unsupervised method for Entity Linking (EL). This method performs the Entity Disambiguation (ED) only by using the text of Wikipedia articles and internal links between the pages. In this way, there is no need for human supervision or the construction of a corpus, and it can be applied in low-resource languages. The next innovation of this research is to present a new method for "OKE using OIE" by a joint application of dependency and constituency parsing trees. As another innovation, a new method for canonicalizing the relationships produced by OIE to the predicates of the knowledge graph. This approach, with the help of data generated by a distant-supervision knowledge extractor, trains a classifier to canonicalize relationships. The use of token-based regular expressions, developed by experts and approved by a reputable linguistics laboratory, for the OKE in the Persian language, is another innovation proposed in this dissertation.
The latest innovation presented in this dissertation provides a method to improve the F۱ measure in the problem of OKE in the Persian language.
Also, the first gold dataset for the OKE in the Persian language is presented. The results of the experiments indicate the superiority of the proposed approach over state-of-the-art OKE approaches, as well as the superiority of the proposed methods over the state-of-the-art methods.
محل برگزاری: به صورت مجازی
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
|