خانم بشری پیشگو دانشجوی دکترای آقایان دکتر احمد اکبری ازیرانی روز شنبه مورخ ۱۴۰۱/۰۸/۲۱ ساعت ۱۴:۳۰ از رساله دکتری خود با عنوان "بهبود تشخیص ناهنجاری مبتنی بر همبستگی رخدادهای جریانی
"دفاع خواهند نمود. |
ارائه دهنده:
بشری پیشگو
استاد راهنما:
دکتر
احمد اکبری ازیرانی
استاد مشاور:
دکتر بیژن راحمی
هیات داوران:
دکتر بابک نجار اعرابی ؛ دکتر حمید بیگی؛ دکتر محمدرضا کنگاوری؛ دکتر ناصر مزینی
زمان :۲۱ آبان ماه ۱۴۰۱
ساعت ۱۴:۳۰
چکیده پایان نامه :
تشخیص ناهنجاری بر بستر کلان داده از یک سو نیازمند کشف الگوهای رفتاری مبتنی بر حجم وسیع داده های پیشین می باشد و از سوی دیگر می بایست وفق پذیر بوده و بلادرنگ عمل نماید. عملیات کشف الگو از طریق تکنیکهای یادگیری دستهای امکانپذیر است اما این تکنیکها به دلیل نیاز به زمان بالای یادگیری، نمی توانند به شناسایی بلادرنگ الگوهای جدید پرداخته و وفق پذیر عمل نمایند. در مقابل، تکنیکهای جریانی، سابقه محدودی از الگوهای پیشین را بررسی می نمایند اما قادر به شناسایی در زمان کوتاه هستند. لذا با ترکیب هوشمندانه دو نوع پردازش دستهای و جریانی در قالب پردازش ترکیبی، میتوان مزایای هر دو روش را تجمیع و به پردازش هایی بلادرنگ و دقیق بر روی حجم بالای داده دست یافت.
بیشتر تحقیقات صورت گرفته در حوزه تطبیق و سازگار ساختن الگوریتم های یادگیری ماشین با پردازش ترکیبی، تنها محدود به طراحی زیرساخت مناسب برای تحقق معماری ترکیبی و بهره گیری از آن در کاربردهای مختلف می باشد و به جنبه های الگوریتمی پردازشهای ترکیبی نظیر مشخصات الگوریتمهای یادگیری دستهای و جریانی سازگار با این پردازشها، مدلهای تعامل بین واحدهای پردازشی دستهای و جریانی و قواعد ترکیب نتایج لایه های پردازشی مختلف، پرداخته نشده است. به منظور رفع چالش مذکور در این رساله راهکاری ترکیبی، توزیع شده و سازگار با الگوریتم های یادگیری ماشین با عنوان HDBS ارائه می دهیم و بر جنبه های الگوریتمی پردازشهای ترکیبی تأکید می نماییم.
پس از آن به بررسی چالش انتخاب ویژگی سازگار با پردازشهای ترکیبی می پردازیم. از آنجا که پردازش های ترکیبی به طور کلی با جریان دادهای سر و کار دارند، لذا بهره گیری از تکنیکهای انتخاب ویژگی دستهای برای آنها عملیاتی نمی باشد. از سویی دیگر، گرچه تکنیکهای انتخاب ویژگی جریانی قابلیت بکارگیری در پردازشهای ترکیبی را دارند لیکن هیچ یک از روشهای موجود از ظرفیت پردازشهای ترکیبی برای انتخاب ویژگی استفاده نمی نمایند. لذا در بخش دوم رساله، مبتنی بر همبسته سازی رخدادهای جریانی و انتخاب ویژگی به صورت پویا و سازگار با پردازشهای ترکیبی و نیز انتخاب هوشمندانه مدلهای پایه جهت ترکیب، راهکار EHDBS را به عنوان نسخه توسعه یافته HDBS پیشنهاد می نماییم.
ارزیابی های صورت گرفته بیانگر مؤثر بودن راهکار پیشنهادی در افزایش دقت و سرعت عملیات تشخیص ناهنجاری نسبت به پردازشهای منفرد دستهای و جریانی و نیز پردازشهای ترکیبی بدون بهره گیری از همبسته سازی رخدادهای جریانی سطح پایین می باشد.
Abstract:
The increasing complexity of anomaly detection applications, especially in the fields of IoT and cloud computing, and the expansion of sensors and technologies related to collecting and recording their outputs, have significantly increased the volume and dimension of collected data. Accordingly, anomaly detection, on the one hand, requires discovering the pattern of normal and abnormal behaviors based on a large volume of previous data, and on the other hand, it must be adaptive and act operationally in real-time. Batch processing is more accurate, but its learning process is usually time-consuming and it is not able to learn recent data. Therefore, the process of data pattern recognition is possible through batch learning techniques but they cannot be adaptive and identify new patterns in real time. In contrast, stream processing operates in real time and its learning techniques are fast and incremental. Stream learning techniques are able to be influenced by recent data but their accuracy are usually less than batch learning methods. Therefore, by combining batch and stream processing in the form of hybrid processing, the advantages of both methods can be aggregated with each other and achieved processes that are capable of real-time and high-speed calculations on the large volume of data.
In this thesis, we focus on addressing some of the challenges of hybrid processing with the aim of improving the anomaly detection of stream events. Accordingly, we first provide a combined solution, distributed and compatible with machine learning algorithms called HDBS, and focus on the algorithmic aspects of hybrid processing including the interaction models between batch and stream processing units, the characteristics of batch and stream machine learning algorithms and the principles of merging the results of different processing units. After that, due to the fact that in real-world applications, stream events are mainly generated based on multiple distributed sensors, and utilizing all the generated events reduces the speed of anomaly detection, so we propose the EHDBS solution as an enhanced version of the HDBS based on correlation of low level stream events, selection of effective and nonredundant features dynamically, as well as the intelligent selection of base models to combine the result.
The evaluations show that the proposed solution is effective in increasing the accuracy and speed of anomaly detection operations compared to individual batch and stream processing as well as hybrid processes without using correlation of low-level stream events.
محل برگزاری:
دانشکده مهندسی کامپیوتر
|