Utilizza questo identificativo per citare o creare un link a questo documento: http://elartu.tntu.edu.ua/handle/lib/52884
Titolo: Використання генеративної моделі stable diffusion для аугментації даних і поліпшення якості сегментації зображень
Titoli alternativi: Using the Stable Diffusion Generative Model for Data Augmentation and Improving Image Segmentation Quality
Autori: Ляпандра, Максим Степанович
Liapandra, Maksym
Affiliation: Тернопільський національний технічний університет імені ім. І. Пулюя
Bibliographic reference (2015): Ляпандра М. С. Використання генеративної моделі stable diffusion для аугментації даних і поліпшення якості сегментації зображень : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 122 - комп’ютерні науки / наук. кер. А. К. Карнаухов. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2026. 60 с.
Data: 27-giu-2026
Submitted date: 13-giu-2026
Date of entry: 29-giu-2026
Editore: Тернопільський національний технічний університет імені ім. І. Пулюя
Country (code): UA
Place of the edition/event: Тернопіль
Supervisor: Карнаухов, Андрій Костянтинович
Karnaukhov, Andrii
UDC: 004.93
Parole chiave: 122
комп’ютерні науки
аугментація даних
дифузійна модель
згорткові нейронні мережі
комп'ютерний зір
семантична сегментація
data augmentation
diffusion model
convolutional neural networks
computer vision
semantic segmentation
Page range: 60
Abstract: У першому розділі розглянуті основні методи сегментації зображень, а також різні підходи до аугментації зображень. Висвітлена дифузійна модель генерації зображень Stable Diffusion, показаний принцип її роботи та основні компоненти. описані її переваги в порівнянні з іншими моделями. У другому розділі наведена структура експериментів, описана підготовка моделі для завдання семантичної сегментації. Для вирішення задачі семантичної сегментації обрано повнозгорткову нейронну мережу U-Net. Оцінка ефективності моделей здійснюється за допомогою метрик IoU та Accuracy. Розглянуто та реалізовано спосіб розширення обмеженої тренувальної вибірки із використанням функції «Inpaint», яка дозволяє виділяти маскою окремі частини зображення та змінювати їх з урахуванням текстового запиту. За допомогою даного методу обмежена тренувальна вибірка була збільшена зі 100 зображень до 1100. У третьому розділі проведені експерименти з навчанням моделі U-Net на різних тренувальних вибірках та проведено порівняння результатів, а також надано рекомендації використанню Stable Diffusion та змальовано можливості покращення експериментів. У четвертому розділі описані важливі питання безпеки життєдіяльності та основ охорони праці.
The first section discusses the main methods of image segmentation, as well as various approaches to image augmentation. The diffusion model of image generation Stable Diffusion is highlighted, the principle of its operation and main components are shown. Its advantages compared to other models are described. The second section presents the structure of the experiments, describes the preparation of the model for the semantic segmentation task. The fully convolutional neural network U-Net was chosen to solve the semantic segmentation task. The effectiveness of the models is assessed using the IoU and Accuracy metrics. A method for expanding the limited training sample using the “Inpaint” function is considered and implemented, which allows you to select individual parts of the image with a mask and change them taking into account the text query. Using this method, the limited training sample was increased from 100 images to 1100. In the third section, experiments were conducted with training the U-Net model on different training samples and a comparison of the results was made, as well as recommendations for using Stable Diffusion and possibilities for improving the experiments were outlined. In chapter 4, important issues of life safety and the basics of labor protection are described..
Descrizione: Роботу виконано на кафедрі комп'ютерних наук Тернопільського національного технічного університету імені Івана Пулюя. Захист відбудеться 27.06.2026р. на засіданні екзаменаційної комісії №31 у Тернопільському національному технічному університеті імені Івана Пулюя
Content: ВСТУП 8 РОЗДІЛ 1 ОГЛЯД ПРЕДМЕТНОЇ ОБЛАСТІ 10 1.1 Підходи до розв'язання задач сегментації зображень 10 1.1.1 Поняття сегментації 10 1.1.2 Традиційні методи сегментації зображень 11 1.1.3 Методи сегментації зображень, що ґрунтуються на глибокому навчанні 12 1.2 Огляд методів аугментації зображень 16 1.2.1 Поняття аугментації 16 1.2.2 Класичні методи аугментації зображень 17 1.2.3 Аугментація зображень методами глибокого навчання 17 1.2.4 Фреймворки для аугментації даних 20 1.3 Опис, переваги та компоненти Stable Diffusion 21 РОЗДІЛ 2. РОЗРОБКА СТРУКТУРИ ЕКСПЕРИМЕНТІВ, ПІДГОТОВКА МОДЕЛІ СЕГМЕНТАЦІЇ ТА НАБОРУ ДАНИХ 23 2.1 Структура експериментів, що проводяться 23 2.2 Підготовка моделі семантичної сегментації 24 2.3 Встановлення Stable Diffusion Web UI та доступ до моделі 27 2.4 Опис та підготовка набору даних 27 2.4.1 Опис набору даних 27 2.4.2 Підготовка набору даних 29 2.5 Опис стеку ключових технологій, що використовуються 29 2.6 Опис та реалізація алгоритму генерації зображень 30 РОЗДІЛ 3. ПРОВЕДЕННЯ ЕКСПЕРИМЕНТІВ ДЛЯ ОЦІНКИ ЕФЕКТИВНОСТІ ГЕНЕРАТИВНОЇ АУГМЕНТАЦІЇ ДАНИХ 34 3.1 Навчання моделі на повному наборі даних 34 3.2 Навчання моделі на обмеженому наборі даних 35 3.3 Навчання моделі на обмеженому наборі даних, об'єднаному із синтетичними даними 36 3.4 Порівняння результатів 41 3.5 Рекомендації щодо використання Stable Diffusion та можливості покращення експериментів 47 РОЗДІЛ 4. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 49 4.1 Класифікація шкідливих та небезпечних виробничих факторів 49 4.2 Вплив вібрації на людину 51 ВИСНОВКИ 55 ПЕРЕЛІК ДЖЕРЕЛ 57
URI: http://elartu.tntu.edu.ua/handle/lib/52884
Copyright owner: © Ляпандра Максим Степанович, 2026
References (Ukraine): 1. Yeromina, N. & Koltun, Yu & Bespalyi, A. & Shmatko, Yu. (2024). Аналіз сучасних методів сегментації зображень в інтересах навігації мобільних роботів. Системи управління, навігації та зв’язку. Збірник наукових праць. 2. C. 82-86.
2. Goodfellow, I., Bengio, Y., & Courville, A. “Deep Learning.” MIT Press, 2016. 788 p.
3. TENSORFLOW І МАШИННЕ НАВЧАННЯ. [Електронний ресурс] – Режим доступу: https://foxminded.ua/tensorflow-shcho-tse/ (дата звертання: 03.05.2026).
4. Long J. Fully Convolutional Networks for Semantic Segmentation / J. Long, E. Shelhamer, T. Darrell // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017. № 4. Vol. 39. P. 640–651.
5. Ronneberger O. U-Net: Convolutional Networks for Biomedical Image Segmentation / O. Ronneberger, Ph. Fischer, T. Brox // International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI-2015). – 2015. Vol. 39. P. 234–241.
6. Badrinarayanan V. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation / V. Badrinarayanan, A. Kendall, R. Cipolla // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017. № 13. 57 Vol. 39. P. 1–14.
7. Khalifa N. A comprehensive survey of recent trends in deep learning for digital images augmentation / N. Khalifa, M. Loey, S. Mirjalili // Artificial Intelligence Review. An International Science and Engineering Journal. 2022. № 55. P. 2351–2377.
8. Методичні вказівки до виконання кваліфікаційної роботи ор Бакалавр для студентів спеціальності 122 – Комп’ютерні науки, всіх форм навчання / укладачі: Готович В.А., Дуда О.М. Никитюк В.В. – Тернопіль: Тернопільський національний технічний університет імені Івана Пулюя, 2024. – 43 с.
9. Alomar K. Data Augmentation in Classification and Segmentation: A Survey and New Strategies / K. Alomar, H.I. Aysel, X. Cai // Image Segmentation Techniques: Current Status and Future Directions. 2023. № 9 (2).
10. Lytvynenko, I., Lupenko, S., Nazarevych, O., Shymchuk, G., & Hotovych, V. (2021). Mathematical model of gas consumption process in the form of cyclic random process. 2021 IEEE 16th International Conference on Computer Sciences and Information
11. Як працюють моделі для генерації зображень. [Електронний ресурс] – Режим доступу: https://dou.ua/forums/topic/53934/ (дата звертання: 03.05.2026).
12. Tanaka F. Data augmentation using gans / F. Tanaka, C. Aranha [Електронний ресурс] – Режим доступу: https://arxiv.org/abs/1904.09135 (дата звертання: 03.05.2026).
13. Yamaguchi S. Effective data augmentation with multi-domain learning gans / S. Yamaguchi, S. Kanai, T. Eda // Proceedings of the AAAI Conference on Artificial Intelligence. 2020. № 34 (04). P. 6566–6574.
14. Lytvynenko I. V. Method of segmentation of determined cyclic signals for the problems related to their processing and modeling. Scientific journal of the Ternopil National Technical University. No. 4 (88). 2017. ISSN: 2522-4433. Р. 153–169. https://doi.org/10.33108/visnyk_tntu2017.04.153
15. Sohl-Dickstein J. Deep unsupervised learning using nonequilibrium thermodynamics / J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan // Proceedings of the 32nd International Conference on Machine Learning. 2015. Vol. 37. P. 2256–2265.
16. Ho J. Denoising Diffusion Probabilistic Models / J. Ho, A. Jain, P. Abbeel // Advances in Neural Information Processing Systems. 2020. Vol. 33. P. 1–25.
17. He R. Is synthetic data from generative models ready for image recognition? / R. He, S. Sun, X. Yu, C. Xue, W. Zhang, P. Torr, S. Bai, X. Qi // Conference paper at 11th International Conference on Learning Representations. 2023. P. 1–24.
18. Trabucco B. Effective data augmentation with diffusion models / B. Trabucco, K. Doherty, M. Gurinas, R. Salakhutdinov [Електронний ресурс] – Режим доступу: https://arxiv.org/pdf/2302.07944.pdf (дата звертання: 04.05.2026).
19. Магія за пікселями: Пояснення дифузійних моделей для генерації AI-арту. [Електронний ресурс] – Режим доступу: https://sider.ai/uk/blog/ai-tools/the-magic-behind-the-pixels-diffusion-models-explained-for-ai-art-generation (дата звертання: 05.05.2026).
20. Leung K. Top Python libraries for Image Augmentation in Computer Vision [Електронний ресурс] – Режим доступу: https://towardsdatascience.com/top-python-libraries-for-image-augmentation-incomputer-vision-2566bed0533e (дата звертання: 05.05.2026).
21. Albumentations: A Python library for advanced Image Augmentation strategies [Електронний ресурс] – Режим доступу: https://medium.com/mlearning-ai/albumentations-a-python-library-for-advancedimage-augmentation-strategies-752bff3a3da0 (дата звертання: 05.05.2026).
22. Stable Diffusion Public Release [[Електронний ресурс] – Режим доступу: https://stability.ai/blog/stablediffusion-public-release (дата звертання: 07.05.2026).
23. Як використовувати стабільну дифузійну нейронну мережу [Електронний ресурс] – Режим доступу: https://alexhost.com/uk/faq/how-to-use-the-stable-diffusion-neural-network/ (дата звертання: 07.05.2026).
24. He K. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification / K. He, X. Zhang, S. Ren, J. Sun // Conference paper at IEEE International Conference on Computer Vision (ICCV). 2015. P. 1–11.
25. Salehi S.S.M. Tversky loss function for image segmentation using 3D fully convolutional deep networks / S.S.M. Salehi, D. Erdogmus, A. Gholipour // Machine Learning in Medical Imaging. Proceedings of 8th International Workshop MLMI 2017. 2017. P. 379–387.
26. Loshchilov I. Decoupled Weight Decay Regularization / I. Loshchilov, F. Hutter // Conference paper at 7th International Conference on Learning Representations. 2019. P.1–8.
27. Stable-diffusion-webui [Електронний ресурс] – Режим доступу: https://github.com/AUTOMATIC1111/stable-diffusion-webui (дата звертання: 08.05.2026).
28. API guide [Електронний ресурс] – Режим доступу: https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/API (дата звертання: 08.05.2026).
29. Stable Diffusion with Diffusers [Електронний ресурс] – Режим доступу: https://huggingface.co/blog/stable_diffusion (дата звертання: 09.05.2026).
30. Stable Diffusion v1-5 Model Card [Електронний ресурс] – Режим доступу: https://huggingface.co/runwayml/stable-diffusion-v1-5 (дата звертання: 09.05.2026).
31. Stable-Diffusion-Inpainting [Електронний ресурс] – Режим доступу: https://huggingface.co/runwayml/stable-diffusion-inpainting (дата звертання: 09.05.2026).
32. Wah C. The Caltech-UCSD Birds-200-2011 Dataset / C. Wah, S. Branson, P. Welinder, P. Perona, S. Belongie // Caltech Vision Lab. 2011. P. 1–8.
33. Caltech-UCSD Birds-200-2011 (CUB-200-2011) [Електронний ресурс] – Режим доступу: https://www.vision.caltech.edu/datasets/cub_200_2011/ (дата звертання: 10.05.2026).
34. CUB-200-2011 Segmentations [Електронний ресурс] – Режим доступу: https://data.caltech.edu/records/w9d68-gec53 (дата звертання: 10.05.2026).
35. Pytorch [Електронний ресурс] – Режим доступу: https://github.com/pytorch/vision (дата звертання: 10.05.2026).
36. Segmentation_models.pytorch [Електронний ресурс] – Режим доступу: https://github.com/qubvel/segmentation_models.pytorch/tree/master (дата звертання: 10.05.2026).
37. TensorBoard: набір інструментів для візуалізації TensorFlow [Електронний ресурс] – Режим доступу: https://www.tensorflow.org/ (дата звертання: 11.05.2026).
38. Improving Deep Learning Models with Data Augmentation [Електронний ресурс] – Режим доступу: https://medium.com/@ShortHills_Tech/improving-deep-learning-models-withdata-augmentation-d4e3d0a9301b (дата звертання: 11.05.2026).
39. Lupenko, S. A., Lytvynenko, I. V., Sverstiuk, A., Shelestovskyi, B., & Horkunenko, A. (2021). Software for Statistical Processing and Modeling of a Set of Synchronously Registered Cardio Signals of Different Physical Nature. CMIS, 194-205.
40. Bodnarchuk, I., Skorenkyy, Y., Kramar, T., Duda, O., & Nykytyuk, V. (2022). Use of Analytical Hierarchy Process in Scenarios Design for a Digital Museum with XR components. ITTAP, 414–425
41. Заікіна Д., Глива В. Основи охорони праці та безпека життєдіяльності. 2019. URL: https://doi.org/10.31435/rsglobal/001 (дата звернення: 19.05.2026).
42. Безпека в надзвичайних ситуаціях. Методичний посібник для здобувачів освітнього ступеня «магістр» всіх спеціальностей денної та заочної (дистанційної) форм навчання / укл.: Стручок В. С. Тернопіль: ФОП Паляниця В. А., 2022. 156 с.
Content type: Bachelor Thesis
È visualizzato nelle collezioni:122 — Компʼютерні науки, F3 Комп’ютерні науки (бакалаври)

File in questo documento:
File Descrizione DimensioniFormato 
2026_KRB_SN-41_Liapandra_MS.pdfДипломна робота1,53 MBAdobe PDFVisualizza/apri


Tutti i documenti archiviati in DSpace sono protetti da copyright. Tutti i diritti riservati.

Strumenti di amministrazione