Utilizza questo identificativo per citare o creare un link a questo documento: http://elartu.tntu.edu.ua/handle/lib/51138
Titolo: Розробка інтелектуальної метаансамблевої моделі класифікації медичних даних для прогнозування інсульту на мові програмування Python
Titoli alternativi: Development of an Intelligent Meta-Ensemble Model for Medical Data Classification to Predict Stroke Using the Python Programming Language
Autori: Кокайло, Вікторія Василівна
Kokailo, Viktoriia
Affiliation: Тернопільський національний технічний університет імені Івана Пулюя
Bibliographic description (Ukraine): Кокайло В. В. Розробка інтелектуальної метаансамблевої моделі класифікації медичних даних для прогнозування інсульту на мові програмування Python : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „121 — інженерія програмного забезпечення“ / В. В. Кокайло . — Тернопіль: ТНТУ, 2025. — 60с.
Data: dic-2025
Date of entry: 5-gen-2026
Editore: Тернопільський національний технічний університет імені Івана Пулюя
Country (code): UA
Place of the edition/event: Тернопільський національний технічний університет імені Івана Пулюя, факультет ФІС
Supervisor: Багрій-Заяць, Оксана Андріївна
Committee members: Гром'як, Роман Сильвестрович
UDC: 004.9
Parole chiave: 121
інженерія програмного забезпечення
класифікація даних
ансамблеві алгоритми
машинне навчання
ансамблеве навчання
прогнозування інсульту
Python
XGBoost
Random Forest
data classification
meta-ensemble algorithms
machine learning
ensemble learning
stroke prediction
Number of pages: 60
Abstract: Метою роботи є створення програмної системи для підвищення точності прогнозування медичних ризиків шляхом реалізації мета метаансамблевого підходів, які об’єднують різні алгоритми класифікації, такі як Random Forest, XGBoost, LightGBM та CatBoost. Запропонований підхід дозволяє підвищити узагальнювальну здатність моделей, зменшити похибку класифікації та підвищити стійкість результатів при роботі з реальними даними. У роботі реалізовано архітектуру трирівневої системи, що включає модулі збору та підготовки даних, навчання ансамблів і метамоделі (stacking), а також блок оцінювання якості класифікації за метриками Accuracy, Recall, Precision, F1-score та ROC-AUC. Проведено порівняльний аналіз ефективності базових і ансамблевих моделей, результати якого підтверджують перевагу метаасемблевого підходу у стабільності та точності прогнозування. Розроблена система може бути адаптована для вирішення інших прикладних задач класифікації в межах інженерії програмного забезпечення, зокрема у сферах медицини, фінансів та промислової аналітики. Робота демонструє практичне застосування методів машинного навчання підкреслює важливість метаасемблевих технологій у підвищенні ефективності класифікаційних процесів.
The aim of the thesis is to develop a software system for improving the accuracy of medical risk prediction through the implementation of meta-ensemble approaches that combine various classification algorithms, such as Random Forest, XGBoost, LightGBM, and CatBoost. The proposed approach enhances the generalization ability of the models, reduces classification error, and increases the robustness of results when working with real-world data. The thesis implements a three-level system architecture that includes modules for data collection and preprocessing, ensemble and meta-model (stacking) training, as well as a performance evaluation block based on the metrics Accuracy, Recall, Precision, F1- score, and ROC-AUC. A comparative analysis of the effectiveness of base and ensemble models was conducted, the results of which confirm the superiority of the meta-ensemble approach in terms of prediction stability and accuracy. The developed system can be adapted to solve other applied classification problems within the field of software engineering, in particular in medicine, finance, and industrial analytics. The thesis demonstrates the practical application of machine learning methods and emphasizes the importance of meta-ensemble technologies in improving the efficiency of classification processes.
Content: АНОТАЦІЯ ...................................................................................................................... 3 ABSTRACT ...................................................................................................................... 4 ПЕРЕЛІК СКОРОЧЕНЬ.................................................................................................. 7 ВСТУП.............................................................................................................................. 8 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ ТА ТЕОРЕТИЧНІ ОСНОВИ АСАМБЛЕВИХ АЛГОРИТМІВ.................................................................................. 10 1.1 Загальна характеристика задачі класифікації даних........................................ 10 1.2 Задача прогнозування інсульту на основі класифікації................................... 13 1.3 Характеристика вибраного набору даних ......................................................... 16 1.3.1 Загальна характеристика набору даних ................................................... 16 1.3.2 Аналіз розподілу даних ............................................................................. 16 1.3.3 Пропущені значення та очищення даних ................................................ 17 1.3.4 Кореляційні зв’язки між ознаками ........................................................... 17 1.4 Методи класифікації, що використовуються у системах прогнозування...... 18 1.4.1 Класифікаційні алгоритми базового рівня .............................................. 18 1.4.2 Ансамблеві методи як основа підвищення точності .............................. 19 1.5 Архітектура метаансамблевого підходу............................................................ 21 2. МЕТОДИКА ОПТИМІЗАЦІЇ МОДЕЛІ ТА РЕАЛІЗАЦІЯ МОДЕЛІ НА ПРАКТИЦІ..................................................................................................................... 25 2.1 Варіанти використання системи......................................................................... 25 2.2 Архітектура програмної системи ....................................................................... 27 2.3 Компоненти програмної системи....................................................................... 28 2.4 Діаграми послідовності....................................................................................... 30 2.5 Методика оптимізації гіперпараметрів моделей .............................................. 333. РОЗРОБКА ТА ТЕСТУВАННЯ МОДЕЛІ........................................................... 36 3.1 Вибір алгоритмів для класифікації та обґрунтування вибору ........................ 36 3.2 Підготовка даних до навчання ........................................................................... 37 3.3 Реалізація базових моделей та оптимізація гіперпараметрів.......................... 38 3.4 Реалізація метаансамблевої моделі.................................................................... 41 3.5 Результати роботи метаансамблевої моделі ..................................................... 43 4. ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ.......... 46 4.1 Охорона праці....................................................................................................... 46 4.2 Ергономічні вимоги до робочого місця користувача персональним комп’ютером (ПК)....................................................................................................... 49 ВИСНОВКИ................................................................................................................... 52 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ ..................................................................... 54 ДОДАТКИ...................................................................................................................... 57 ДОДАТОК А – Рисунок основної діаграми варіантів використання ...................... 58 ДОДАТОК Б – Теза конференції................................................................................. 59
URI: http://elartu.tntu.edu.ua/handle/lib/51138
Copyright owner: @ Кокайло Вікторія Василівна, 2025
References (Ukraine): 1. Fedesoriano. Stroke Prediction Dataset (Kaggle). [Електронний ресурс] URL: https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset (дата звернення: 17.12.2025).
2. Chereshchuk L. O., Melnykova N. I. Application of machine learning methods for predicting the risk of stroke. Вісник Тернопільського національного технічного університету. 2024. 1(113). С. 27–35. [Електронний ресурс] URL: https://elartu.tntu.edu.ua/bitstream/lib/44686/2/TNTUSJ_2024v113n1_Chereshchuk_LApplication_of_machine_27-35.pdf
3. Gontkovskyi O. I., Kozachko O. V. Оптимізація лікування та профілактики шляхом впровадження нейронної мережі для прогнозування інсульту. XLIII наук.- техн. конф. підрозділів ВНТУ (Вінниця, 2024). [Електронний ресурс] URL: https://ir.lib.vntu.edu.ua/bitstream/handle/123456789/44397/13679.pdf
4. Slobodeniuk A. I. Інтелектуальна система діагностування та прогнозування інсульту (кваліфікаційна/дипломна робота). 2024.
5. Bartiuk R. S. Діагностика та прогностичне значення захворювання мілких судин мозку в гострому періоді мозкового інсульту: дисертація PhD (222 «Медицина»). Вінниця, 2023. [Електронний ресурс] URL: https://www.vnmu.edu.ua/downloads/oc/106/dis_Bartiuk.pdf
6. Yurochkin V. V. Програмний додаток для діагностики проявів церебральної хвороби малих судин на МРТ на основі згорткових нейронних мереж: магістерська дисертація. КПІ ім. Ігоря Сікорського, 2023. [Електронний ресурс] URL: https://ela.kpi.ua/bitstream/123456789/54244/1/Yurochkin_magistr.pdf
7. Vrakina K. P. Метод прогнозування серцево-судинних захворювань методами машинного навчання (кваліфікаційна робота). ХНУРЕ, 2024. [Електронний ресурс] URL: https://openarchive.nure.ua/bitstreams/f908fe23-d483- 4abb-9556-5bc24ff69228/download
8. Hassan M. M. et al. A Hybrid Machine Learning Approach to Predict the Risk of Stroke. ACM (2022). [Електронний ресурс] URL: https://dl.acm.org/doi/abs/10.1145/3542954.3543020
9. Hassan A. et al. Predictive modelling and identification of key risk factors for stroke using machine learning (Dense Stacking Ensemble). Scientific Reports. 2024. [Електронний ресурс] URL: https://www.nature.com/articles/s41598-024-61665-4
10. Asadi F. et al. The most efficient machine learning algorithms in stroke prediction: review / analysis of studies (2019–2023). 2024. [Електронний ресурс] URL: https://pmc.ncbi.nlm.nih.gov/articles/PMC11443322/
11. Wijaya R. et al. An Ensemble Machine Learning and Data Mining approach for stroke prediction (біомедичні обчислення/аналіз). 2024. [Електронний ресурс] URL: https://www.mdpi.com/2306-5354/11/7/672
12. Kitova K. et al. Stroke Dataset Modeling: Comparative Study of Machine Learning Approaches. Algorithms. 2024. [Електронний ресурс] URL: https://www.mdpi.com/1999-4893/17/12/571
13. Dubey Y. et al. Explainable and Interpretable Model for the Early Detection / stroke prediction (із посиланням на Kaggle dataset). Diagnostics. 2024. [Електронний ресурс] URL: https://www.mdpi.com/2075-4418/14/22/2514
14. Swain K. et al. Enhancing Stroke Prediction Using LightGBM With SMOTE (огляд/порівняння бустингів та дисбалансу). 2024. [Електронний ресурс] URL: https://assets.cureusjournals.com/artifacts/upload/original_article/pdf/2268/20250210- 30756-2rbt5k.pdf
25. Методичні вказівки до виконання кваліфікаційної роботи магістра для здобувачів спеціальності 121 – Інженерія програмного забезпечення, всіх форм навчання / укладачі: Михалик Д.М., Цуприк Г.Б., Бревус В.М., Мудрик І.Я. – Тернопіль: Тернопільський національний технічний університет імені Івана Пулюя, 2024. – 44 с. URL: https://elartu.tntu.edu.ua/handle/lib/50316
Content type: Master Thesis
È visualizzato nelle collezioni:121 — інженерія програмного забезпечення

File in questo documento:
File Descrizione DimensioniFormato 
dyplom_Kokaylo_2025.pdf1,67 MBAdobe PDFVisualizza/apri


Tutti i documenti archiviati in DSpace sono protetti da copyright. Tutti i diritti riservati.

Strumenti di amministrazione