خانم آسیه قنبرپور دانشجوی دکترای جناب آقای دکتر حسن نادری روز چهارشنبه مورخ 1397/08/23ساعت 13:00 از رساله دکتری خود تحت عنوان "جستجوی کلیدواژه در دادههای گرافی با تاکید بر وزن کلیدواژهها " با "درجه عالی" دفاع نمود.
چکیده پایان نامه :
جستجوی کلیدواژه، به عنوان جایگزینی برای زبانهای پرسوجوی ساختیافته، یک واسط ساده و کاربرپسند را به منظور جستجو و بازیابی اطلاعات از پایگاهدادههای با ساختار گرافی فراهم میکند. این روش نسبت به روشهای کلاسیک بازیابی اطلاعات در پایگاهدادهها، انتزاع کاربر از ساختار فضای جستجو را حفظ میکند. پرسوجوهای کلیدواژه به صورت مجموعهای از کلیدواژهها بیانمیشود و پاسخهای آنها به شکل مجموعهای از ساختارهای متصل هستند که روابط بین کلیدواژههای موردپرسش را در گراف نشان میدهند. سادگی بیان پرسوجو در این روش موجب شده است تا پیچیدگی کار با دادههای گرافی تماما به مرحله پردازش پرسوجو واگذار شود. در نتیجه، پاسخگویی به پرسوجوهای کلیدواژه، نیازمند پردازش پیچیده متنی و ساختاری دادههای گرافی میباشد. یکی از چالشهای عمده در پردازش پرسوجوی کلیدواژه، بازیابی مجموعه پاسخهای مرتبط به پرسوجو است که عموما به دلیل اندازه بزرگ این مجموعه، نیازمند زمان طولانی پردازش میباشد. در این رساله، روشهایی برای بازیابی پاسخهای یک پرسوجو با تاکید بر حفظ یک نظم تقریبی از ترتیب نهایی آنها ارائه شدهاست. این روشها با تخمین تقریبی وزن پاسخهای کاملنشده، سعی دارند پاسخهای برتر را قبل از دیگر پاسخها بازیابی نمایند. بازیابی پاسخها در یک نظم تقریبی، امکان ارائه مجموعه پاسخهای برتر قبل از بازیابی مجموعه کل پاسخهای مرتبط را فراهم میکند. این روشها از تکنیکهای شاخصگذاری، بخشبندی و هرس گراف داده در جهت افزایش میزان بهرهوری سیستم استفاده میکنند. دومین چالش عمده در روشهای جستجوی کلیدواژه، تعیین درجه ارتباط پاسخهایی به شکل زیرگراف به پرسوجوی کاملا متنی متناظر است. درجه این ارتباط به محتوای متنی پاسخ و فشردگی ساختاری آن بستگی دارد. این چالش در ادبیات موضوع به ندرت مورد بحث و مطالعه قرار گرفتهاست، در حالی که دقت سیستم جستجوی کلیدواژه کاملا به ترتیب لیست پاسخها وابسته است. در این رساله، درجه ارتباط پاسخها به پرسوجو بر اساس مدلسازی پاسخ و پرسوجو و محاسبه نزدیکی این مدلها برآورد میشود. در مدلسازی یک پاسخ، ویژگیها ساختاری پاسخ به همراه وزن کلیدواژهها در هر گره تا سطح خصیصه در یک مدل واحد تجمیع میشوند. این مدل به طور مستقیم روی زیرگرافها طراحی شده و قادر به حفظ اهمیت محلی واژهها در گرهها است. پرسوجو نیز به دو روش ساده و توسعهیافته مدلسازی میشود. مدل ساده پرسوجو بر اساس کلیدواژههای ورودی کاربر برآورد میشود، در حالیکه در مدل توسعهیافته، از اطلاعات شبهبازخورد برای توسعه پرسوجو و تخمین مدل آن استفاده میشود. سیستمهای پیشنهادی در این رساله در قالب یک چارچوب کلی شامل مدلسازی دادهها، شاخصگذاری دادههای گرافی، جستجوی پاسخهای مرتبط و رتبهبندی لیست پاسخها طراحی شدهاند. نتایج ارزیابی تجربی این سیستمها روی سه مجموعه دنیای واقعی، اثربخشی و بهرهوری سیستمهای پیشنهادی نسبت به دیگر سیستمهای مطرح در حوزه جستجوی کلیدواژه را تایید میکند.
واژههای کلیدی: جستجوی کلیدواژه، مدل های زبانی، درجه ارتباط، توابع رتبهبندی، انتشار اطلاعات.
.
Abstract:
Keyword search, as an alternative for structured query languages, provides a simple and user-friendly interface for searching and retrieving information from the graph-structured database. In contrast to the classical retrieval methods in databases, keyword search preserves the user's abstraction from the database structure. Keyword queries are expressed as a set of keywords, and their answers are in the form of a set of connected structures that show the relationships between the queried keywords in the database. The simplicity of querying in this way of search has caused the complexity of working with the graph data has been postponed from the querying stage to the query processing stage. Therefore, answering keyword queries requires sophisticated textual and structural data processing. One of the major challenges in keyword query processing is to retrieve a query-related answer set, which generally requires a long processing time due to the large size of the set. In this thesis, some methods have been developed to retrieve the answers of queries with an emphasis on maintaining an approximate order of their final ranking. These methods, with an approximate estimate of the weight of uncompleted answers, attempt to retrieve superior answers before the other ones. Enumerating answers with an approximate order allows providing a set of top-k answers before retrieving the entire set of answers. These methods also increase the efficiency of the system by limiting the search space using the indexing, partitioning and pruning techniques. The second major challenge in keyword search is to determine the relevance degree of an answer which is in the form of subgraph to a textual query. The degree of this relationship depends on the textual content of the answer and its structural compactness. This challenge is rarely discussed in the literature, while the effectiveness of keyword search system depends entirely on the order of presented answers. In this thesis, the relevance degree of answers to the query is determined based on the modeling of answers and queries and calculating the similarity of these models. In the answer modeling, the structural characteristics of the answer along with the weight of queried keywords in each node to the attribute level are aggregated into a single model. This model is designed directly on the subgraphs and is able to maintain the local importance of the keywords. Query is also modeled in two simple and developed ways. A simple query model is estimated based on the user input keywords, while in the developed model, feedback information is used to develop queries and to provide a more accurate estimate of what the user looking for. The proposed systems in this study are designed in a general framework including data modeling, indexing the graph data, retrieving relevant answers, and ranking the answer list. The results of the experimental evaluation of these systems on three real-world datasets confirm the efficiency and effectiveness of these systems compared to the state-of-the-art systems in the field of keyword search.
Keywords: Keyword search, Language model, Relevance degree, Ranking function, Information spreading.
ارائه دهنده:
آسیه قنبرپور
استاد راهنما:
دکتر حسن نادری
هیات داوران:
دکتر محمدرضا کنگاوری، دکتر بهروز مینایی، دکتر حمید بیگی
، دکتر آزاده شاکری
زمان : چهارشنبه 23 آبانماه 1397
ساعت 13:00
مکان: دانشکده مهندسی کامپیوتر- طبقه دوم- اتاق دفاعیه دکترا
از اساتید بزرگوار، دانشجویان گرامی و دیگر متخصصان و علاقه مندان به موضوع دفاعیه دعوت
می شود با حضور خود موجبات غنای علمی و ارتقای کیفی را فراهم سازند.
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
|