خانم
محبوبه ریاحی مدوار دانشجوی دکترای آقای دکتر احمد اکبری روز یکشنبه مورخ ۱۴۰۰/۱۲/۰۸ ساعت ۱۴:۰۰ از رساله دکتری خود با عنوان "تشخیص نمونههای پرت در دادههای با ابعاد بالا با استفاده از زیرفضاهای داده و ویژگی
"دفاع خواهند نمود |
ارائه دهنده:
محبوبه ریاحی مدوار
استاد راهنما:
دکتر احمد اکبری
استاد مشاور:
دکتر بیژن راحمی- دکتر بابک ناصرشریف
هیات داوران:
دکتر محمدرضا جاهدمطلق؛ دکتر محمدرضا محمدی؛
دکتر بابک نجاراعرابی؛ دکتر مریم امیرحائری
زمان : ۰۸ اسغند ماه ۱۴۰۰
ساعت ۱۴:۰۰
محل برگزاری: : http://meeting.iust.ac.ir/
چکیده پایان نامه :
تشخیص نمونههای پرت مسئلهای مهم در دادهکاوی است که هدفش شناسایی نمونههایی است که غیرعادی و با اکثریت دادگان ناسازگارند و دارای طیف وسیعی از کاربردهای دنیای واقعی است. چگونگی مقابله موثر با دادههای با ابعاد بالا بهدلیل طلسم بعد، هنوز یک چالش در تشخیص نمونههای پرت است. در این رساله، با استفاده از جستجوی نمونههای پرت در زیرفضاهای با ابعاد پایینتر مبتنی بر رویکردهای محلی و سراسری و همچنین، ترکیب چندین زیرفضای سراسری، راهکارهایی جدید برای مقابله با تشخیص نمونههای پرت در دادههای با ابعاد بالا پیشنهاد شده است.
ابتدا، برای مقابله با مشکلات تعداد زیادی بعد بیربط و فضای نمایی جستجو، دو روش سراسری بدوننظارت انتخاب زیرفضا مبتنی بر چگالی جهت تشخیص نمونههای پرت با استفاده از وابستگی بین ویژگیهای مختلف به چگالی دادهها و افزونگی بین ویژگیها پیشنهاد داده میشود. نتایج تجربی روی هر دو دادگانهای ساختگی و واقعی نشان میدهد که این الگوریتمهای پیشنهادی، دقت تشخیص نمونه پرت را افزایش میدهد درحالیکه پیچیدگی محاسباتی و زمان اجرا را کاهش میدهند.در ادامه، یک روش ترکیبی پیشنهاد شده که با استفاده از ترکیب امتیازهای پرت در چندین زیرفضای مبتنی بر تحلیل مولفه اساسی، قادر به تشخیص چندین نوع نمونه پرت است.
در روشی دیگر، یک الگوریتم محلی انتخاب زیرفضای مرتبط پیشنهاد میشود که در آن با بکارگیری مفهوم آنتروپی محلی و اطلاعات محلی، ویژگیهای مرتبط با هر نمونه تعیین و همچنین، یک روش امتیازدهی مبتنی بر چگالی تطبیقی بهمنظور کاهش نرخ تشخیص کاذب بهدست میآید. در ادامه، با توجه به وابستگی انتخاب محلی زیرفضا به تعریف همسایگی، یک روش تشخیص نمونههای پرت بر اساس الگوریتم هیوریستیک مبتنی بر برنامهریزی خطی پیشنهاد شده تا بهطور همزمان با مسئله طلسم بعد در انتخاب زیرفضای مرتبط و جستجوی همسایهها مقابله کند. نتایج تجربی روی دادههای ساختگی و واقعی، عملی بودن فرمولبندی مسئله انتخاب زیرفضا و همچنین کارآمد بودن این روش را نشان میدهد.
Abstract:
Outlier detection is an important issue in data mining that aims to identify samples that are unusual and inconsistent with the majority of the dataset and has a wide range of real-world applications. How to tackle the high dimensionality of data effectively due to the curse of dimensionality issue is still challenging in the outlier detection problem. In this thesis, new methods are proposed to deal with outlier detection in high dimensional data using searching for outliers in lower-dimensional subspaces based on local and global approaches, as well as combining several global subspaces.
First, to address the problems of many irrelevant dimensions and exponential search space, two global unsupervised subspace selection methods for outlier detection are proposed by measuring the dependency between different features and data density and also, redundancy between features. Experimental results on both synthetic and real datasets show that these proposed algorithms increase the outlier detection accuracy while decreasing the computational complexity and execution time. Then, an ensemble method is proposed that can detect several outlier types by combining outlier scores in multiple principal component analysis-based subspaces.
In another method, a local selection of relevant subspace algorithm is proposed that the relevant features for each sample are determined using the concepts of local entropy and local information, and also an adaptive density-based outlier scoring is developed to reduce the false detection rate. Next, due to the dependency of local subspace selection on the neighborhood definition, an outlier detection method using linear programming and heuristic techniques is proposed to simultaneously deal with the curse of dimensionality issue in both problems nearest neighbors search and outlier detection. Experimental results on both synthetic and real datasets demonstrate the viability of the formulation of subspace selection and the effectiveness of the proposed algorithm.
محل برگزاری: به صورت مجازی
دانشکده مهندسی کامپیوتر مدیریت تحصیلات تکمیلی
|