Ezzel az azonosítóval hivatkozhat erre a dokumentumra forrásmegjelölésben vagy hiperhivatkozás esetén: http://elartu.tntu.edu.ua/handle/lib/45349
Title: Розробка системи для ідентифікації аномальних даних
Other Titles: Development of a system for identifying anomalous data
Authors: Антонюк, Дмитро Тарасович
Affiliation: Тернопільський національний технічний університет імені Івана Пулюя
Bibliographic description (Ukraine): Антонюк Д. Т. Розробка системи для ідентифікації аномальних даних : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 121 - інженерія програмного забезпечення / наук. кер. О. А. Пастух. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2024. 76 с.
Issue Date: jún-2024
Date of entry: 24-jún-2024
Publisher: Тернопільський національний технічний університет імені Івана Пулюя
Country (code): UA
Place of the edition/event: Тернопіль
Supervisor: Пастух, Олег Анатолійович
Committee members: Кульчицький, Тарас Русланович
UDC: 004.9
Keywords: numpy
scikit-learn
статистичні тести
інтелектуалізовані алгоритми
PCA
kNN
outlier
outlier score
inlier
Number of pages: 76
Abstract: У зв’язку з тим, що здійнюється перехід людства від інформаційних технологій до технологій даних, то у роботі розглянуто підхід до розробки програмного забезпечення на основі інтелектуалізованих алгоритмів, зокрема, алгоритмів машинного навчання: однокласового методу опорних векторів, ізольованого лісу, методу головних компонент, різного роду статистичних критеріїв, зокрема, статистичного критерію Грабба. Також у даній роботі виконано консолідацію цих алгоритмів машинного навчання, що наведені вище на основі їх голосування по принципу простого голосування. Тобто, в основі програмного забезпечення виконистано ансамблювання вище наведених алгоритмів машинного навчання на основі простого голосування для вирішення прикладного завдання – детектування аномальних даних у наперед заданому наборі даних. Під аномальними даними у даній роботі маються на увазі дані, які представляють собою статистичні викиди у вибірці даних, саме тому використовуються статистичні тести – статистичний тест Грабба. Технологічні інструменти, які використані у даній роботі – це є програмні інструменти, накшталт, технології програмування пайтон та ряду бібліотек із дистрибутиву анаконди таких, як scikit-learn, pyod, pandas, numpy, тощо. Теоретичною основою роботи є використання основної топологічної гіпотези, що статистичні викиди, тобто аномальні дані у наборі даних (вибірці даних) топологічно є ізольованими у конфігураційному (фазовому) просторі даних у якому координатні вісі інтерпритуються, як характеристики даних. Предметна область для якої рохглядається застосування вище наведеної програмної розробки – це детектування аномальних обєктів нерухомості на ринку нерухомості.
In connection with the fact that humanity is transitioning from information technologies to data technologies, the paper considers an approach to software development based on intellectualized algorithms, in particular, machine learning algorithms: one-class method of support vectors, isolated forest, method of principal components, various statistical criteria, in particular, Grubb's statistical criterion. Also, in this work, the consolidation of these machine learning algorithms, which are given above, is performed on the basis of their voting according to the principle of simple voting. That is, the basis of the software is the ensemble of the above-mentioned machine learning algorithms based on simple voting to solve the applied task of detecting anomalous data in a predetermined data set. Anomalous data in this paper refers to data that represent statistical outliers in the data sample, which is why statistical tests are used - Grubb's statistical test. The technological tools used in this work are software tools, such as Python programming technologies and a number of libraries from the Anaconda distribution, such as scikit-learn, pyod, pandas, numpy, etc. The theoretical basis of the work is the use of the main topological hypothesis that statistical outliers, i.e. anomalous data in a data set (data sample) are topologically isolated in the configurational (phase) data space in which coordinate axes are interpreted as data characteristics. The subject area for which the application of the above software development is considered is the detection of anomalous real estate objects on the real estate market.
Content: ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І ТЕРМІНІВ... 8 ВСТУП... 9 РОЗДІЛ 1. ДЕТЕКТУВАННЯ АНОМАЛЬНИХ ДАНИХ ДЛЯ ДОМЕНУ НЕРУХОМОСТІ... 10 1.1. Домени у яких необхідно детектовувати не стандартні дані... 10 1.2. Візуалізаційні та вербальні представлення виявлення аномальних даних... 12 1.3. Зображення аномальних (не стандартних) даних... 17 1.4. Мета, прикладні завдання кваліфікаційної роботи... 19 РОЗДІЛ 2. ПРАКТИЧНО-ПРИКЛАДНЕ ПРОЕКТУВАННЯ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ ДЛЯ ДЕТЕКТУВАННЯ ДАНИХ... 21 2.1. Реалізація на практиці архітектури... 21 2.2. Імпортування бібліотек з дистрибутиву анаконди... 24 2.3. Використання РСА для зображення багатовимірних даних... 27 2.4. Проектування детектування на основі інструкцій статистичних критеріїв... 28 2.5. Проектування детектування на основі інструкцій найближчих сусідів... 30 2.6. Проектування детектування на основі інструкції LOF... 32 2.7. Проектування детектування на основі інструкції РСА... 33 2.8. Проектування детектування на основі інструкції IForest... 36 2.9. Проектування детектування на основі інструкції ансамблювання... 38 РОЗДІЛ 3. ПРАКТИЧНО-ПРИКЛАДНЕ КОНСТРУЮВАННЯ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ ДЛЯ ВИЯВЛЕННЯ НЕ ТИПОВИХ ДАНИХ... 39 3.1. Уведення бібліотек та фреймворків пайтона із дистрибутиву анаконди... 39 3.2. Уведення даних нерухомості із зовнішнього середовища... 40 3.3. Зображення багатовимірних даних на основі РСА... 42 3.4. Практичне конструювання детектування на основі інструкцій статистичних критеріїв... 43 3.5. Практичне конструювання детектування на основі інструкцій найближчих сусідів... 44 3.6. Практичне конструювання детектування на основі інструкції LOF... 47 3.7. Практичне конструювання детектування на основі інструкції РСА... 49 3.8. Практичне конструювання детектування на основі інструкції OCSVM... 51 3.9. Практичне конструювання детектування на основі інструкції IForest... 52 3.10. Практичне конструювання детектування на основі інструкції ансамблювання... 54 РОЗДІЛ 4. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ... 56 4.1. Аварії з викидом радіоактивних речовин... 56 4.2. Техніка безпеки при проведенні електричних вимірювань та випробувань установки... 59 ВИСНОВКИ... 65 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ... 66 ДОДАТКИ... 68 Додаток А Технічне завдання... 69 Додаток Б Тези доповіді на конференції... 74
URI: http://elartu.tntu.edu.ua/handle/lib/45349
Copyright owner: Антонюк Дмитро Тарасович, 2024
References (Ukraine): 1. Pastukh O., Stefanyshyn V., Baran I., Yakymenko I., Vasylkiv V. Mathematics and software for controlling mobile software devices based on brain activity signals // The International Workshop on Information Technologies: Theoretical and Applied Problems
2. Pastukh O., Petryk M., Bachynskiy M., Mudryk I., Stefanyshyn V. Processing of Cerebral Cortex Neurosignals from EEG Sensors and RecognizinSpecific Types of Mechanical Movements Elements of Pacient Limbs under the Cognitive Feedback Influenses // International Workshop on Computer Information Technologies in Industry 4.0. 2023. №3468. С. 61–70.
3. Yasniy O., Pastukh O., Didych I., Yatsyshyn V., Chykhira I. Application of machine learning for modeling of 6061-T651 aluminum alloy stress− strain diagram // Procedia Structural Integrity. 2023. №48. С. 183-189.
4. Рandas documentation. URL: https://pandas.pydata.org/docs/ (дата звернення: 12.04.2024)
5. Yatsyshyn V., Pastukh О., Palamar А., Zharovskyi R. Technology of relational database management systems performance evaluation during computer systems design // Scientific Journal of TNTU. 2023. №1. С. 54–65.
6. Pastukh O., Petryk M., Bachynskiy M., Mudryk I., Stefanyshyn V. Processing of Cerebral Cortex Neurosignals from EEG Sensors and RecognizinSpecific Types of Mechanical Movements Elements of Pacient Limbs under the Cognitive Feedback Influenses // International Workshop on Computer Information Technologies in Industry 4.0. 2023. №3468. С. 61–70.
7. Pastukh O., Petryk M., Bachynskiy M., Mudryk I., Stefanyshyn V. Processing of Cerebral Cortex Neurosignals from EEG Sensors and RecognizinSpecific Types of Mechanical Movements Elements of Pacient Limbs under the Cognitive Feedback Influenses // International Workshop on Computer Information Technologies in Industry 4.0. 2023. №3468. С. 61–70
8. Matplotlib 3.8.3 documentation. URL: https://matplotlib.org/stable/index.html (дата звернення: 12.04.2024)
9. Пастух О.А., Яцишин В.В., Жаровський Р.О., Шаблій Н.Р. Software tool for productivity metrics measure of relational database management system // Математичне моделювання. 2023. №1 (48). С.7-17.
10. Мелех Л.В. Безпека життєдіяльності та охорона праці : Навчальний посібник. Львів: Львівський державний університет внутрішніх справ. 2022. 219 с.
Content type: Bachelor Thesis
Ebben a gyűjteményben:121 — Інженерія програмного забезпечення (бакалаври)

Fájlok a dokumentumban:
Fájl Leírás MéretFormátum 
dyplom_Antoniuk_2024.pdf4,02 MBAdobe PDFMegtekintés/Megnyitás


Minden dokumentum, ami a DSpace rendszerben szerepel, szerzői jogokkal védett. Minden jog fenntartva!

Admin Tools