Utilizza questo identificativo per citare o creare un link a questo documento:
http://elartu.tntu.edu.ua/handle/lib/51138| Titolo: | Розробка інтелектуальної метаансамблевої моделі класифікації медичних даних для прогнозування інсульту на мові програмування Python |
| Titoli alternativi: | Development of an Intelligent Meta-Ensemble Model for Medical Data Classification to Predict Stroke Using the Python Programming Language |
| Autori: | Кокайло, Вікторія Василівна Kokailo, Viktoriia |
| Affiliation: | Тернопільський національний технічний університет імені Івана Пулюя |
| Bibliographic description (Ukraine): | Кокайло В. В. Розробка інтелектуальної метаансамблевої моделі класифікації медичних даних для прогнозування інсульту на мові програмування Python : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „121 — інженерія програмного забезпечення“ / В. В. Кокайло . — Тернопіль: ТНТУ, 2025. — 60с. |
| Data: | dic-2025 |
| Date of entry: | 5-gen-2026 |
| Editore: | Тернопільський національний технічний університет імені Івана Пулюя |
| Country (code): | UA |
| Place of the edition/event: | Тернопільський національний технічний університет імені Івана Пулюя, факультет ФІС |
| Supervisor: | Багрій-Заяць, Оксана Андріївна |
| Committee members: | Гром'як, Роман Сильвестрович |
| UDC: | 004.9 |
| Parole chiave: | 121 інженерія програмного забезпечення класифікація даних ансамблеві алгоритми машинне навчання ансамблеве навчання прогнозування інсульту Python XGBoost Random Forest data classification meta-ensemble algorithms machine learning ensemble learning stroke prediction |
| Number of pages: | 60 |
| Abstract: | Метою роботи є створення програмної системи для підвищення точності
прогнозування медичних ризиків шляхом реалізації мета метаансамблевого
підходів, які об’єднують різні алгоритми класифікації, такі як Random Forest,
XGBoost, LightGBM та CatBoost. Запропонований підхід дозволяє підвищити
узагальнювальну здатність моделей, зменшити похибку класифікації та підвищити
стійкість результатів при роботі з реальними даними.
У роботі реалізовано архітектуру трирівневої системи, що включає модулі
збору та підготовки даних, навчання ансамблів і метамоделі (stacking), а також блок
оцінювання якості класифікації за метриками Accuracy, Recall, Precision, F1-score
та ROC-AUC. Проведено порівняльний аналіз ефективності базових і ансамблевих
моделей, результати якого підтверджують перевагу метаасемблевого підходу у
стабільності та точності прогнозування.
Розроблена система може бути адаптована для вирішення інших прикладних
задач класифікації в межах інженерії програмного забезпечення, зокрема у сферах
медицини, фінансів та промислової аналітики. Робота демонструє практичне
застосування методів машинного навчання підкреслює важливість метаасемблевих
технологій у підвищенні ефективності класифікаційних процесів. The aim of the thesis is to develop a software system for improving the accuracy of medical risk prediction through the implementation of meta-ensemble approaches that combine various classification algorithms, such as Random Forest, XGBoost, LightGBM, and CatBoost. The proposed approach enhances the generalization ability of the models, reduces classification error, and increases the robustness of results when working with real-world data. The thesis implements a three-level system architecture that includes modules for data collection and preprocessing, ensemble and meta-model (stacking) training, as well as a performance evaluation block based on the metrics Accuracy, Recall, Precision, F1- score, and ROC-AUC. A comparative analysis of the effectiveness of base and ensemble models was conducted, the results of which confirm the superiority of the meta-ensemble approach in terms of prediction stability and accuracy. The developed system can be adapted to solve other applied classification problems within the field of software engineering, in particular in medicine, finance, and industrial analytics. The thesis demonstrates the practical application of machine learning methods and emphasizes the importance of meta-ensemble technologies in improving the efficiency of classification processes. |
| Content: | АНОТАЦІЯ ...................................................................................................................... 3 ABSTRACT ...................................................................................................................... 4 ПЕРЕЛІК СКОРОЧЕНЬ.................................................................................................. 7 ВСТУП.............................................................................................................................. 8 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ ТА ТЕОРЕТИЧНІ ОСНОВИ АСАМБЛЕВИХ АЛГОРИТМІВ.................................................................................. 10 1.1 Загальна характеристика задачі класифікації даних........................................ 10 1.2 Задача прогнозування інсульту на основі класифікації................................... 13 1.3 Характеристика вибраного набору даних ......................................................... 16 1.3.1 Загальна характеристика набору даних ................................................... 16 1.3.2 Аналіз розподілу даних ............................................................................. 16 1.3.3 Пропущені значення та очищення даних ................................................ 17 1.3.4 Кореляційні зв’язки між ознаками ........................................................... 17 1.4 Методи класифікації, що використовуються у системах прогнозування...... 18 1.4.1 Класифікаційні алгоритми базового рівня .............................................. 18 1.4.2 Ансамблеві методи як основа підвищення точності .............................. 19 1.5 Архітектура метаансамблевого підходу............................................................ 21 2. МЕТОДИКА ОПТИМІЗАЦІЇ МОДЕЛІ ТА РЕАЛІЗАЦІЯ МОДЕЛІ НА ПРАКТИЦІ..................................................................................................................... 25 2.1 Варіанти використання системи......................................................................... 25 2.2 Архітектура програмної системи ....................................................................... 27 2.3 Компоненти програмної системи....................................................................... 28 2.4 Діаграми послідовності....................................................................................... 30 2.5 Методика оптимізації гіперпараметрів моделей .............................................. 333. РОЗРОБКА ТА ТЕСТУВАННЯ МОДЕЛІ........................................................... 36 3.1 Вибір алгоритмів для класифікації та обґрунтування вибору ........................ 36 3.2 Підготовка даних до навчання ........................................................................... 37 3.3 Реалізація базових моделей та оптимізація гіперпараметрів.......................... 38 3.4 Реалізація метаансамблевої моделі.................................................................... 41 3.5 Результати роботи метаансамблевої моделі ..................................................... 43 4. ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ.......... 46 4.1 Охорона праці....................................................................................................... 46 4.2 Ергономічні вимоги до робочого місця користувача персональним комп’ютером (ПК)....................................................................................................... 49 ВИСНОВКИ................................................................................................................... 52 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ ..................................................................... 54 ДОДАТКИ...................................................................................................................... 57 ДОДАТОК А – Рисунок основної діаграми варіантів використання ...................... 58 ДОДАТОК Б – Теза конференції................................................................................. 59 |
| URI: | http://elartu.tntu.edu.ua/handle/lib/51138 |
| Copyright owner: | @ Кокайло Вікторія Василівна, 2025 |
| References (Ukraine): | 1. Fedesoriano. Stroke Prediction Dataset (Kaggle). [Електронний ресурс] URL: https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset (дата звернення: 17.12.2025). 2. Chereshchuk L. O., Melnykova N. I. Application of machine learning methods for predicting the risk of stroke. Вісник Тернопільського національного технічного університету. 2024. 1(113). С. 27–35. [Електронний ресурс] URL: https://elartu.tntu.edu.ua/bitstream/lib/44686/2/TNTUSJ_2024v113n1_Chereshchuk_LApplication_of_machine_27-35.pdf 3. Gontkovskyi O. I., Kozachko O. V. Оптимізація лікування та профілактики шляхом впровадження нейронної мережі для прогнозування інсульту. XLIII наук.- техн. конф. підрозділів ВНТУ (Вінниця, 2024). [Електронний ресурс] URL: https://ir.lib.vntu.edu.ua/bitstream/handle/123456789/44397/13679.pdf 4. Slobodeniuk A. I. Інтелектуальна система діагностування та прогнозування інсульту (кваліфікаційна/дипломна робота). 2024. 5. Bartiuk R. S. Діагностика та прогностичне значення захворювання мілких судин мозку в гострому періоді мозкового інсульту: дисертація PhD (222 «Медицина»). Вінниця, 2023. [Електронний ресурс] URL: https://www.vnmu.edu.ua/downloads/oc/106/dis_Bartiuk.pdf 6. Yurochkin V. V. Програмний додаток для діагностики проявів церебральної хвороби малих судин на МРТ на основі згорткових нейронних мереж: магістерська дисертація. КПІ ім. Ігоря Сікорського, 2023. [Електронний ресурс] URL: https://ela.kpi.ua/bitstream/123456789/54244/1/Yurochkin_magistr.pdf 7. Vrakina K. P. Метод прогнозування серцево-судинних захворювань методами машинного навчання (кваліфікаційна робота). ХНУРЕ, 2024. [Електронний ресурс] URL: https://openarchive.nure.ua/bitstreams/f908fe23-d483- 4abb-9556-5bc24ff69228/download 8. Hassan M. M. et al. A Hybrid Machine Learning Approach to Predict the Risk of Stroke. ACM (2022). [Електронний ресурс] URL: https://dl.acm.org/doi/abs/10.1145/3542954.3543020 9. Hassan A. et al. Predictive modelling and identification of key risk factors for stroke using machine learning (Dense Stacking Ensemble). Scientific Reports. 2024. [Електронний ресурс] URL: https://www.nature.com/articles/s41598-024-61665-4 10. Asadi F. et al. The most efficient machine learning algorithms in stroke prediction: review / analysis of studies (2019–2023). 2024. [Електронний ресурс] URL: https://pmc.ncbi.nlm.nih.gov/articles/PMC11443322/ 11. Wijaya R. et al. An Ensemble Machine Learning and Data Mining approach for stroke prediction (біомедичні обчислення/аналіз). 2024. [Електронний ресурс] URL: https://www.mdpi.com/2306-5354/11/7/672 12. Kitova K. et al. Stroke Dataset Modeling: Comparative Study of Machine Learning Approaches. Algorithms. 2024. [Електронний ресурс] URL: https://www.mdpi.com/1999-4893/17/12/571 13. Dubey Y. et al. Explainable and Interpretable Model for the Early Detection / stroke prediction (із посиланням на Kaggle dataset). Diagnostics. 2024. [Електронний ресурс] URL: https://www.mdpi.com/2075-4418/14/22/2514 14. Swain K. et al. Enhancing Stroke Prediction Using LightGBM With SMOTE (огляд/порівняння бустингів та дисбалансу). 2024. [Електронний ресурс] URL: https://assets.cureusjournals.com/artifacts/upload/original_article/pdf/2268/20250210- 30756-2rbt5k.pdf 25. Методичні вказівки до виконання кваліфікаційної роботи магістра для здобувачів спеціальності 121 – Інженерія програмного забезпечення, всіх форм навчання / укладачі: Михалик Д.М., Цуприк Г.Б., Бревус В.М., Мудрик І.Я. – Тернопіль: Тернопільський національний технічний університет імені Івана Пулюя, 2024. – 44 с. URL: https://elartu.tntu.edu.ua/handle/lib/50316 |
| Content type: | Master Thesis |
| È visualizzato nelle collezioni: | 121 — інженерія програмного забезпечення |
File in questo documento:
| File | Descrizione | Dimensioni | Formato | |
|---|---|---|---|---|
| dyplom_Kokaylo_2025.pdf | 1,67 MB | Adobe PDF | Visualizza/apri |
Tutti i documenti archiviati in DSpace sono protetti da copyright. Tutti i diritti riservati.
Strumenti di amministrazione