Veuillez utiliser cette adresse pour citer ce document :
http://elartu.tntu.edu.ua/handle/lib/53066| Titre: | Розробка програмного засобу прогнозування цін на косметичні засоби з використанням машинного навчання |
| Autre(s) titre(s): | Development of a Software Tool for Predicting Cosmetic Product Prices Using Machine Learning |
| Auteur(s): | Демчук, Мар`яна Володимирівна |
| Affiliation: | Тернопільський національний технічний університет імені ім. І. Пулюя |
| Bibliographic reference (2015): | Демчук М. В. Розробка програмного засобу прогнозування цін на косметичні засоби з використанням машинного навчання : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 122 - комп’ютерні науки / наук. кер. О. В. Палка. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2026. 70 с. |
| Date de publication: | 22-jui-2026 |
| Submitted date: | 8-jui-2026 |
| Date of entry: | 1-jui-2026 |
| Editeur: | Тернопільський національний технічний університет імені ім. І. Пулюя |
| Country (code): | UA |
| Place of the edition/event: | Тернопіль |
| Supervisor: | Палка, Олег Вікторович Palka, Oleh |
| UDC: | 004.42:004.89:338.51 |
| Mots-clés: | 122 комп’ютерні науки машинне навчання прогнозування цін регресія ridge-регресія lasso-регресія xgboost makeup api sqlite power bi machine learning price forecasting regression ridge regression lasso regression |
| Page range: | 70 |
| Résumé: | Кваліфікаційна робота присвячена вирішенню актуальної практичної задачі – автоматизації аналізу та прогнозування цін на косметичну продукцію за допомогою сучасних алгоритмів машинного навчання. Актуальність дослідження зумовлена високим рівнем конкуренції, динамічністю ціноутворення на косметичному ринку та стрімким розвитком електронної комерції, що вимагає впровадження інтелектуальних інструментів для підтримки бізнес-рішень. У роботі використано комплекс методів дослідження, що включає збір даних з веб-API, методи попередньої обробки даних (очищення, заповнення пропущених значень за груповим середнім, кодування категоріальних ознак за допомогою one-hot encoding), алгоритми машинного навчання (регресійні та ансамблеві моделі), методи регуляризації, а також інструменти візуалізації даних (библіотека matplotlib та платформа Power BI). Інформаційною базою дослідження є відкриті дані сервісу Makeup API. Реалізовано повний пайплайн обробки даних: збір інформації у форматі JSON з API-сервісу, очищення від аномалій (нульових цін), конвертація цін у єдину валюту та їх збереження у реляційній базі даних SQLite. Побудовано, навчено та протестовано п'ять базових моделей машинного навчання. Порівняльний аналіз за метриками R2, MSE та RMSE виявив перевагу лінійних методів (лінійної регресії та лінійного SVM), що свідчить про переважно лінійний характер залежностей між характеристиками продуктів (брендом, типом) та їх вартістю. Досліджено вплив регуляризації на якість прогнозів: найкращі результати серед усіх підходів продемонструвала Ridge-регресія з параметром α = 0,5 (R2 = 0,7256, RMSE = 3,635 CAD), яка успішно знизила вплив мультиколінеарності ознак. Метод Lasso показав незадовільну якість через надмірне обнулення інформативних коефіцієнтів. Проведено розширену бізнес-аналітику та інтерактивну візуалізацію даних у Power BI, яка виявила важливу ринкову закономірність: висока ціна косметичного засобу не завжди гарантує високий споживчий рейтинг. Продемонстровано практичне застосування розробленої Ridge-моделі для сценарного прогнозування цін на основі нових комбінацій брендів та типів продукції з випадковим рейтингом. The qualification thesis is dedicated to solving an urgent practical problem – automating the analysis and forecasting of prices for cosmetic products using modern machine learning algorithms. The relevance of the study is driven by a high level of competition, the dynamic nature of pricing in the cosmetics market, and the rapid development of e-commerce, which requires the implementation of intelligent tools for business decision support. The thesis utilizes a comprehensive set of research methods, including data collection from a web API, data preprocessing techniques (cleaning, imputation of missing values using group means, and categorical feature encoding via one-hot encoding), machine learning algorithms (regression and ensemble models), regularization methods, as well as data visualization tools (the matplotlib library and the Power BI platform). The information base of the study consists of open data from the Makeup API service. A complete data processing pipeline has been implemented: gathering information in JSON format from the API service, cleaning anomalies (zero prices), converting prices into a single currency (Canadian Dollar – CAD), and storing them in an SQLite relational database. Five baseline machine learning models were constructed, trained, and tested. A comparative analysis using R2, MSE, and RMSE metrics revealed the superiority of linear methods (linear regression and linear SVM), indicating a predominantly linear nature of the relationships between product characteristics (brand, type) and their cost. The impact of regularization on forecast quality was investigated: Ridge regression with a parameter of α = 0,5 (R2 = 0,7256, RMSE = 3,635 CAD) demonstrated the best results among all approaches, successfully mitigating the effect of feature multicollinearity. The Lasso method showed unsatisfactory performance due to the excessive zeroing out of informative coefficients. Advanced business analytics and interactive data visualization were performed in Power BI, revealing an important market pattern: a high price for a cosmetic product does not always guarantee a high consumer rating. The practical application of the developed Ridge model was demonstrated for scenario-based price forecasting based on new combinations of brands and product types with a random rating. |
| Description: | Роботу виконано на кафедрі комп'ютерних наук Тернопільського національного технічного університету імені Івана Пулюя. Захист відбудеться 22.06.2026р. на засіданні екзаменаційної комісії №31 у Тернопільському національному технічному університеті імені Івана Пулюя |
| Content: | ВСТУП 9 1 ТЕОРЕТИЧНІ ОСНОВИ МОДЕЛЕЙ МАШИННОГО НАВЧАННЯ ДЛЯ ПРОГНОЗУВАННЯ 12 1.1 Загальна характеристика задачі прогнозування 12 1.2 Лінійна регресія 14 1.3 Дерево рішень (Decision Tree) 16 1.4 Випадковий ліс (Random Forest) 18 1.5 Метод опорних векторів (SVM) 19 1.6 Градієнтний бустинг (XGBoost) 20 1.7 Регуляризація: Ridge та Lasso 22 1.8 Метрики оцінки якості моделей регресії 24 2 ПРАКТИЧНА РЕАЛІЗАЦІЯ МОДЕЛЕЙ ПРОГНОЗУВАННЯ ЦІН НА КОСМЕТИЧНІ ЗАСОБИ 26 2.1 Збір та попередня обробка даних 26 2.2 Збереження даних у базі даних SQLite 29 2.3 Кодування категоріальних ознак та розділення даних 31 2.4 Побудова та навчання моделей 33 2.5 Порівняння результатів моделей 35 2.6 Застосування регуляризації 36 2.7 Прогнозування цін для нових даних 38 3 ІЛЮСТРАЦІЯ РОБОТИ ПРОГРАМНОГО КОДУ 40 3.1 Середовище розробки та використані бібліотеки 40 3.2 Візуалізація даних у Power BI 42 3.3 Результати навчання моделей та аналіз графіків 46 3.4 Практичне застосування та перспективи 52 4 БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 56 4.1 Поняття та об’єкт аналізу технічної безпеки 56 4.2 Розрахунок захисного заземлення 58 ВИСНОВКИ 64 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 67 ДОДАТКИ 70 |
| URI/URL: | http://elartu.tntu.edu.ua/handle/lib/53066 |
| Copyright owner: | © Демчук Мар’яна Володимирівна, 2026 |
| References (Ukraine): | 1. Юрків М. М. Методи регресійного аналізу в наукових дослідженнях. Електронний інституційний репозитарій ТНТУ. 2013. С. 67–68. URL: http://elartu.tntu.edu.ua/bitstream/123456789/19976/2/IVMNK_2013_Yurkiv_M_M-Methods_for_regression_analysis_67-68.pdf (дата звернення: 17.04.2026). 2. Демчик В. І. Методи машинного навчання для моделювання функціональних властивостей та довговічності сплавів : дис. ... доктора філософії : 122 «Комп'ютерні науки» / Тернопільський національний технічний університет імені Івана Пулюя. Тернопіль, 2023. URL: https://elartu.tntu.edu.ua/handle/lib/51973 (дата звернення: 17.04.2026). 3. Бородій І. І. Проєктування програмної системи формування агрегованих надвеликих масивів даних. Матеріали науково-технічної конференції. Тернопіль : ТНТУ, 2023. С. 137. URL: https://elartu.tntu.edu.ua/bitstream/lib/44262/2/IMSTT_2023_Borodii_I-Design_of_a_software_system_137.pdf (дата звернення: 17.04.2026). 4. Дячун О. Д. Прогнозування продажу та його методи в системі управління підприємством : монографія / Тернопільський національний технічний університет імені Івана Пулюя. Тернопіль : ТНТУ. URL: http://elartu.tntu.edu.ua/handle/lib/21275 (дата звернення: 17.04.2026). 5. Чайковський В. А. Застосування машинного навчання для прогнозування ризиків розвитку серцево-судинних захворювань : кваліфікаційна робота магістра : 122 «Комп'ютерні науки» / Тернопільський національний технічний університет імені Івана Пулюя. Тернопіль, 2025. URL: https://elartu.tntu.edu.ua/handle/lib/50408 (дата звернення: 17.06.2026). 6. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. Springer, 2009. 745 p. 7. James G., Witten D., Hastie T., Tibshirani R. An Introduction to Statistical Learning with Applications in R. Springer, 2013. 426 p. 8. Breiman L. Random Forests. Machine Learning. 2001. Vol. 45, No. 1. P. 5–32. 9. Pedregosa F. et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research. 2011. Vol. 12. P. 2825–2830. 10. McKinney W. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython. 2nd ed. O’Reilly Media, 2017. 544 p. 11. Géron A. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. 2nd ed. O’Reilly Media, 2019. 856 p. 12. Vapnik V. The Nature of Statistical Learning Theory. 2nd ed. Springer, 2000. 314 p. 13. Hoerl A. E., Kennard R. W. Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics. 1970. Vol. 12, No. 1. P. 55–67. 14. Tibshirani R. Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society: Series B. 1996. Vol. 58, No. 1. P. 267–288. 15. Raschka S., Mirjalili V. Python Machine Learning. 3rd ed. Packt Publishing, 2019. 770 p. 16. Bishop C. M. Pattern Recognition and Machine Learning. Springer, 2006. 738 p. 17. Murphy K. P. Machine Learning: A Probabilistic Perspective. MIT Press, 2012. 1104 p. 18. Бідюк П. І., Коршевнюк Л. О. Проектування комп’ютерних інформаційних систем підтримки прийняття рішень. Київ : Наукова думка, 2010. 340 с. 19. Субботін С. О. Подання й обробка знань у системах штучного інтелекту та підтримки прийняття рішень. Запоріжжя : ЗНТУ, 2008. 341 с. 20. Makeup API Documentation. URL: http://makeup-api.herokuapp.com/api/v1/products.json (дата звернення: 01.06.2026). 21. Scikit-learn Documentation. URL: https://scikit-learn.org/stable/documentation.html (дата звернення: 01.06.2026). 22. XGBoost Documentation. URL: https://xgboost.readthedocs.io/en/stable/ (дата звернення: 01.06.2026). 23. Pandas Documentation. URL: https://pandas.pydata.org/docs/ (дата звернення: 01.06.2026). 24. Power BI Documentation. URL: https://learn.microsoft.com/en-us/power-bi/ (дата звернення: 01.06.2026). 25. SQLite Documentation. URL: https://www.sqlite.org/docs.html (дата звернення: 01.06.2026). 26. Matplotlib Documentation. URL: https://matplotlib.org/stable/contents.html (дата звернення: 01.06.2026). 27. Мельник, А., & Дмитроца, Л. (2026). Методи та архітектурні підходи до автоматизації тестування мобільних і вебзастосунків. вимірювальна та обчислювальна техніка в технологічних процесах, (2), 74-81. https://doi.org/10.31891/2219-9365-2026-86-9 28. Melnyk, A., Dmytrotsa, L., Palka, O., Vasylenko, Y., & Klymuk, N. (2025). Dynamic test case prioritisation for mobile applications based on real user behaviour data. Proceedings of the CITI 2025: The 3rd International Workshop on Computer Information Technologies in Industry 4.0 (Ternopil, Ukraine, June 11-12, 2025). CEUR Workshop Proceedings (CEURWS.org). 2025. Vol-4057, pp. 179-188. URL: https://ceur-ws.org/Vol-4057/paper12.pdf 29. Стручок, В. С., Стручок, О. С., & Мудра, Д. В. (2017). Навчальний посібник до написання розділу дипломного проекту та дипломної роботи ″Безпека в надзвичайних ситуаціях ″для студентів всіх спец. денної, заочної (дистанційної) та екстернатної форм навчання. 30. Стручок, В. С. (2022). Техноекологія та цивільна безпека. Частина "Цивільна безпека". Навчальний посібник. 31. Жидецький, В. Ц., Джигирей, В. С., & Мельников, О. В. (2000). Основи охорони праці. Львів: Афіша, 350, 132-136. 32. Навакатікян, О. О., Кальниш, В. В., & Стрюков, С. М. (1997). Охорона праці користувачів комп’ютерних відеодисплейних терміналів. О. Навакатікян. |
| Content type: | Bachelor Thesis |
| Collection(s) : | 122 — Компʼютерні науки, F3 Комп’ютерні науки (бакалаври) |
Fichier(s) constituant ce document :
| Fichier | Description | Taille | Format | |
|---|---|---|---|---|
| 2026_KRB_SN-41_Demchuk_MV.pdf | Дипломна робота | 2,77 MB | Adobe PDF | Voir/Ouvrir |
Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.
Outils d'administration