ارائه دهنده:
پروین کشوری فینی
استاد راهنما:
دکتر بهروز مینایی
هیات داوران:
دکتر محمدرضا کنگاوری؛ دکتر محمود نشاطی
زمان:
یگشنبه ۱۴۰۰/۰۱/۲۲
خانم پروین کشوری فینی کارشناسی ارشد آقای دکتر بهروز مینایی بیدگلی یکشنبه ۲۲ فروردین ماه ساعت ۱۴ از پروژه کارشناسی ارشد خود تحت عنوان "ارائه الگوریتمی برای نوع یابی و پیونددهی توأمان موجودیت در جداول متنی به زبان فارسی
" دفاع خواهند نمود
چکیده پایان نامه:
با افزایش روزافزون دادهها در اینترنت، وب به یکی از بزرگترین مخازن داده تبدیلشده است. وبسایتها حاوی اطلاعاتی ناهمگن به شکل صفحات متنی، تصاویر دیجیتالی و غیره هستند. جداول یکی از عناصر صفحات وب هستند که نمایش فشردهای از اطلاعات با پوشش موضوعی گستردهای را فراهم میکنند.
درک جدول، فرآیند کلی است که با استخراج یک جدول از صفحات وب شروع میشود و تا تفسیر معنایی آن را پوشش میدهد. هدف فرآیند تفسیر معنایی جداول، توانمندسازی ماشینها برای درک معنای دادههای موجود در جدول است. تفسیر معنایی جداول، یک زمینه درحالتوسعه در پردازش زبانهای طبیعی است که در بهبود عملکرد سیستمهایی ازجمله استخراج اطلاعات و موتورهای جستجو کاربرد دارد.
در این پایان نامه، الگوریتمی برای نوع یابی و پیونددهی موجودیت در جداول فارسی به پایگاه دانش فارسبیس ارائه میدهیم. چنین پژوهشی در زبان فارسی برای اولین بار است که انجام میشود. ما با پیونددهی سلولهای جدول به موجودیتهای مرجع نظیر آنها در پایگاه دانش فارسبیس و نوع سلولها با انواع نظیر آنها، تناظرهایی بین عناصر جدول و عناصر پایگاه دانش فارسبیس ایجاد میکنیم. در ابتدا پس از اعمال پیشپردازش روی جداول، مجموعه موجودیتهای نامزد برای هر موجودیت ارجاعی در سلولها را تولید میکنیم. سپس مجموعهای از مفاهیم مرتبط با هر نامزد را استخراج کرده و بهعنوان مجموعه کلاسهای نامزد برای نوع موجودیتهای ستون در نظر میگیریم. در مرحله بعد ابهامزدایی نوع موجودیتهای ستونها انجام میشود و در آخرین مرحله سعی میشود تا موجودیتهای ارجاعی، ابهامزدایی شوند.
ارزیابیها نشان میدهد که روش پیشنهادی در پیونددهی موجودیت حدود ۳۷% و در نوع یابی موجودیت حدود ۴% نسبت به خط مبنا نتایج بهتری دارد. نتایج الگوریتم پیونددهی موجودیتهای سلولها و حاشیهنویسی نوع ستونهای جداول بهطور همزمان، در زبان فارسی اولین بوده و قابل رقابت با روشهای استفاده شده در زبان انگلیسی است.
واژههای کلیدی: جداول وب- گراف دانش فارسی- ارتباطدهی موجودیت- نوع یابی موجودیت
"دفاع بهصورت آنلاین برگزار میشود"
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
|