Розробка програмного забезпечення моделі генерації текстових описів зображень на основі Vision-Language підходів

Мигаль, Зоряна Ярославівна; Myhal, Zoriana

霂瑞霂��撘����迨��辣: http://elartu.tntu.edu.ua/handle/lib/52689

Title:	Розробка програмного забезпечення моделі генерації текстових описів зображень на основі Vision-Language підходів
Other Titles:	Development of Software for a Textual Image Captioning Model Based on Vision-Language Approaches
Authors:	Мигаль, Зоряна Ярославівна Myhal, Zoriana
Affiliation:	ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра програмної інженерії, м. Тернопіль, Україна
Bibliographic reference (2015):	Мигаль З.Я. Розробка програмного забезпечення моделі генерації текстових описів зображень на основі Vision-Language підходів: робота на здобуття кваліфікаційного ступеня бакалавра : 121 - інженерія програмного забезпечення / наук. кер. О. Р. Цебрій. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2026. 63 с
Issue Date:	六月-2026
Date of entry:	25-六月-2026
Publisher:	Тернопільський національний технічний університет імені Івана Пулюя
Country (code):	UA
Place of the edition/event:	ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна
Supervisor:	Цебрій, Олексій Романович
Committee members:	Луцик, Надія Степанівна
UDC:	004.9
Keywords:	машинне навчання глибинне навчання Vision-Language модель генерація текстових описів зображень image captioning комп’ютерний зір штучний інтелект BLIP Transformer MS COCO machine learning deep learning Vision-Language model computer vision artificial intelligence
Abstract:	Розробка моделі машинного навчання для генерації текстових описів зображень на основі Vision-Language підходів // Кваліфікаційна робота освітнього рівня «Бакалавр» // Мигаль Зоряна Ярославівна // Тернопільський національний технічний університет імені Івана Пулюя, факультет комп’ютерно-інформаційних систем і програмної інженерії, кафедра програмної інженерії, група СП-42 // Тернопіль, 2026 // С. 63, рис. – 19, табл. – 7, додат. – 2, бібліогр. – 25. Ключові слова: машинне навчання; глибинне навчання; Vision-Language модель; генерація текстових описів зображень; image captioning; комп’ютерний зір; штучний інтелект; BLIP; Transformer; MS COCO. Кваліфікаційна робота присвячена розробці моделі машинного навчання для генерації текстових описів зображень на основі Vision-Language підходів. Проведено аналіз сучасних моделей і наборів даних для задачі image captioning, реалізовано та протестовано модель генерації описів зображень. У роботі розглянуто особливості поєднання методів комп’ютерного зору та обробки природної мови для створення мультимодальних систем. Також виконано оцінювання якості згенерованих описів із використанням сучасних метрик, що дозволило визначити ефективність запропонованого підходу. Об’єкт дослідження — процес автоматичної генерації текстових описів зображень. Предмет дослідження — методи та моделі Vision-Language для задачі image captioning. Практичним результатом є програмна система, що автоматично формує текстові описи зображень і може застосовуватися в системах доступності, пошуку та аналізу візуального контенту. Development of a Machine Learning Model for Image Caption Generation Based on Vision-Language Approaches // Bachelor's Qualification Thesis // Zoriana Myhal // Ternopil Ivan Puluj National Technical University, Faculty of Computer Information Systems and Software Engineering, Department of Software Engineering, Group SP-42 // Ternopil, 2026 // P. 63, fig. – 19, tabl. – 7, annexes – 2, references – 25. Keywords: machine learning; deep learning; Vision-Language model; image captioning; computer vision; artificial intelligence; BLIP; Transformer; MS COCO. The qualification thesis is devoted to the development of a machine learning model for image caption generation based on Vision-Language approaches. An analysis of modern models and datasets for the image captioning task was conducted, and an image caption generation model was implemented and tested. The thesis examines the integration of computer vision and natural language processing methods for building multimodal systems. The quality of generated captions was evaluated using modern evaluation metrics, which made it possible to assess the effectiveness of the proposed approach. The object of research is the process of automatic image caption generation. The subject of research is Vision-Language methods and models for the image captioning task. The practical result of the thesis is a software system capable of automatically generating textual descriptions of images. The developed solution can be applied in accessibility systems, image retrieval systems, and visual content analysis applications.
Content:	ВСТУП 9 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ ТА СУЧАСНИХ VISION-LANGUAGE ПІДХОДІВ 11 1.1 Загальна характеристика задачі генерації текстових описів зображень 11 1.2 Аналіз сучасних Vision-Language моделей 15 1.3 Аналіз наборів даних для задачі генерації описів зображень 17 1.4 Аналіз програмних засобів та бібліотек для реалізації системи 20 1.5 Формування вимог до програмної системи 20 1.5.1 Функціональні вимоги.. 21 1.5.2 Нефункціональні вимоги.. 21 1.5.3 Сценарії використання системи. 22 2. ПРОЄКТУВАННЯ ТА РОЗРОБКА ПРОГРАМНОЇ СИСТЕМИ ГЕНЕРАЦІЇ ОПИСІВ ЗОБРАЖЕНЬ 25 2.1 Проєктування архітектури програмної системи 25 2.2 Проєктування архітектури програмної системи 28 2.3 Проєктування архітектури програмної системи 31 2.4 Класове представлення для реалізація програмної системи 33 2.5 Реалізація процесу навчання моделі 37 2.6 Демонстрація роботи програмної системи 39 2.7 Висновки до 2 розділу 42 3. ТЕСТУВАННЯ, ОЦІНКА ЕФЕКТИВНОСТІ ТА ВПРОВАДЖЕННЯ СИСТЕМИ 43 3.1 Організація експериментального дослідження 43 3.2 Оцінювання якості генерації текстових описів 45 3.3 Тестування та аналіз результатів роботи програмної системи 46 3.4 Тестування та аналіз результатів роботи програмної системи 48 3.5 Висновки до 3 розділу 49 4. ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 50 4.1 Охорона праці 50 4.2 Заходи, що покращують умови праці оператора 52 ВИСНОВКИ 56 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 58 ДОДАТКИ 61 ДОДАТОК А – Рисунок основної діаграми послідовності 61 ДОДАТОК Б – Теза конференції 63
URI:	http://elartu.tntu.edu.ua/handle/lib/52689
Copyright owner:	© Мигаль Зоряна Ярославівна 2026
References (Ukraine):	1. Михалик Д. М., Цуприк Г. Б., Бревус В. М. Методичні вказівки до виконання кваліфікаційної роботи бакалавра для здобувачів першого (бакалаврського) рівня вищої освіти за освітньо-професійною програмою «Інженерія програмного забезпечення» спеціальності 121 – «Інженерія програмного забезпечення» всіх форм навчання. Тернопіль : ТНТУ ім. І. Пулюя, 2024. 45 с. 2. Бондаренко М. Ф., Каторгін І. В., Моторін Р. М. Штучний інтелект та машинне навчання : навчальний посібник. Київ : КПІ ім. Ігоря Сікорського, 2023. 312 с. 3. Лупенко С. А., Пасічник В. В., Яцишин В. С. Аналіз даних та інтелектуальні системи : навчальний посібник. Тернопіль : ТНТУ ім. І. Пулюя, 2023. 286 с. 4. Goodfellow I., Bengio Y., Courville A. Deep Learning. Cambridge : MIT Press, 2016. 800 p. 5. Bishop C. M. Pattern Recognition and Machine Learning. New York : Springer, 2006. 738 p 6. Géron A. Hands-On Machine Learning with Scikit-Learn, Keras and TensorFlow. 3rd ed. Sebastopol : O'Reilly Media, 2022. 851 p. 7. Raschka S., Liu Y., Mirjalili V. Machine Learning with PyTorch and Scikit-Learn. Birmingham : Packt Publishing, 2022. 770 p. 8. Szeliski R. Computer Vision: Algorithms and Applications. 2nd ed. Cham : Springer, 2022. 1118 p. 9. Prince S. J. D. Computer Vision: Models, Learning, and Inference. Cambridge : Cambridge University Press, 2012. 598 p. 10. Vaswani A. et al. Attention Is All You Need // Advances in Neural Information Processing Systems. 2017. Vol. 30. P. 5998–6008 11. Dosovitskiy A. et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale // International Conference on Learning Representations (ICLR). 2021. 12. Radford A. et al. Learning Transferable Visual Models From Natural Language Supervision // Proceedings of the International Conference on Machine Learning. 2021. Vol. 139. P. 8748–8763. 13. Li J., Li D., Savarese S., Hoi S. C. H. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation // Proceedings of the International Conference on Machine Learning. 2022. P. 12888–12900. 14. Li J. et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models // International Conference on Machine Learning. 2023. P. 19730–19742. 15. Xiao D. et al. Florence: A New Foundation Model for Computer Vision // arXiv preprint arXiv:2111.11432. 2021.
�蝷箔����:	121 — Інженерія програмного забезпечення, F2 Інженерія програмного забезпечення (бакалаври)

��辣銝剔�﹝獢�:

獢�獢�	��膩	憭批��	�撘�
dyplom_Myhal_Z_2026.pdf		18,25 MB	Adobe PDF	璉�閫�/撘��

�蝷箸�辣摰蝥芸��

�DSpace銝剜�����★��������雿��.

蝞∠�極�