محبوبه ریاحی مدوار

| تاریخ ارسال: 1400/12/4 |

خانم محبوبه ریاحی مدوار دانشجوی دکترای آقای دکتر احمد اکبری روز یکشنبه مورخ ۱۴۰۰/۱۲/۰۸ ساعت ۱۴:۰۰ از رساله دکتری خود با عنوان "تشخیص نمونه‌های پرت در داده‌های با ابعاد بالا با استفاده از زیرفضاهای داده و ویژگی "دفاع خواهند نمود

ارائه دهنده:
محبوبه ریاحی مدوار
استاد راهنما:
دکتر احمد اکبری
استاد مشاور:
دکتر بیژن راحمی- دکتر بابک ناصرشریف
هیات داوران:

دکتر محمدرضا جاهدمطلق؛ دکتر محمدرضا محمدی؛
دکتر بابک نجاراعرابی؛ دکتر مریم امیرحائری

زمان : ۰۸ اسغند ماه ۱۴۰۰

ساعت ۱۴:۰۰

محل برگزاری: : http://meeting.iust.ac.ir/

چکیده پایان نامه :

تشخیص نمونه‌های پرت مسئله‌ای مهم در داده‌کاوی است که هدفش شناسایی نمونه‌هایی است که غیرعادی و با اکثریت دادگان ناسازگارند و دارای طیف وسیعی از کاربردهای دنیای واقعی است. چگونگی مقابله موثر با داده‌های با ابعاد بالا به‌دلیل طلسم بعد، هنوز یک چالش در تشخیص نمونه‌های پرت است. در این رساله، با استفاده از جستجوی نمونه‌های پرت در زیرفضاهای با ابعاد پایین‌تر مبتنی بر رویکردهای محلی و سراسری و همچنین، ترکیب چندین زیرفضای سراسری، راهکارهایی جدید برای مقابله با تشخیص نمونه‌های پرت در داده‌های با ابعاد بالا پیشنهاد شده است.
ابتدا، برای مقابله با مشکلات تعداد زیادی بعد بی‌ربط و فضای نمایی جستجو، دو روش سراسری بدون‌نظارت انتخاب زیرفضا مبتنی بر چگالی جهت تشخیص نمونه‌های پرت با استفاده از وابستگی بین ویژگی‌های مختلف به چگالی داده‌ها و افزونگی بین ویژگی‌ها پیشنهاد داده می‌شود. نتایج تجربی روی هر دو دادگان‌‌های ساختگی و واقعی نشان می‌دهد که این الگوریتم‌های پیشنهادی، دقت تشخیص نمونه پرت را افزایش می‌دهد درحالی‌که پیچیدگی محاسباتی و زمان اجرا را کاهش می‌دهند.در ادامه، یک روش ترکیبی پیشنهاد شده که با استفاده از ترکیب امتیازهای پرت در چندین زیرفضای مبتنی بر تحلیل مولفه اساسی، قادر به تشخیص چندین نوع نمونه پرت است.
در روشی دیگر، یک الگوریتم محلی انتخاب زیرفضای مرتبط پیشنهاد می‌شود که در آن با بکارگیری مفهوم آنتروپی محلی و اطلاعات محلی، ویژگی‌های مرتبط با هر نمونه تعیین و همچنین، یک روش امتیازدهی مبتنی بر چگالی تطبیقی به‌منظور کاهش نرخ تشخیص کاذب به‌دست می‌آید. در ادامه، با توجه به وابستگی انتخاب محلی زیرفضا به تعریف همسایگی، یک روش تشخیص نمونه‌های پرت بر اساس الگوریتم هیوریستیک مبتنی بر برنامه‌ریزی خطی پیشنهاد شده تا به‌طور همزمان با مسئله طلسم بعد در انتخاب زیرفضای مرتبط و جستجوی همسایه‌ها مقابله کند. نتایج تجربی روی داده‌های ساختگی و واقعی، عملی بودن فرمول‌بندی مسئله انتخاب زیرفضا و همچنین کارآمد بودن این روش را نشان می‌دهد.

Abstract:

Outlier detection is an important issue in data mining that aims to identify samples that are unusual and inconsistent with the majority of the dataset and has a wide range of real-world applications. How to tackle the high dimensionality of data effectively due to the curse of dimensionality issue is still challenging in the outlier detection problem. In this thesis, new methods are proposed to deal with outlier detection in high dimensional data using searching for outliers in lower-dimensional subspaces based on local and global approaches, as well as combining several global subspaces.

First, to address the problems of many irrelevant dimensions and exponential search space, two global unsupervised subspace selection methods for outlier detection are proposed by measuring the dependency between different features and data density and also, redundancy between features. Experimental results on both synthetic and real datasets show that these proposed algorithms increase the outlier detection accuracy while decreasing the computational complexity and execution time. Then, an ensemble method is proposed that can detect several outlier types by combining outlier scores in multiple principal component analysis-based subspaces.

In another method, a local selection of relevant subspace algorithm is proposed that the relevant features for each sample are determined using the concepts of local entropy and local information, and also an adaptive density-based outlier scoring is developed to reduce the false detection rate. Next, due to the dependency of local subspace selection on the neighborhood definition, an outlier detection method using linear programming and heuristic techniques is proposed to simultaneously deal with the curse of dimensionality issue in both problems nearest neighbors search and outlier detection. Experimental results on both synthetic and real datasets demonstrate the viability of the formulation of subspace selection and the effectiveness of the proposed algorithm.

محل برگزاری: به صورت مجازی
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی

دفعات مشاهده: 6269 بار | دفعات چاپ: 818 بار | دفعات ارسال به دیگران: 0 بار | 0 نظر