Розробка програмного забезпечення моделі генерації текстових описів зображень на основі Vision-Language підходів

Мигаль, Зоряна Ярославівна; Myhal, Zoriana

Por favor use este identificador para citas ou ligazóns a este item: http://elartu.tntu.edu.ua/handle/lib/52689

Rexistro de metadatos completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Цебрій, Олексій Романович	-
dc.contributor.author	Мигаль, Зоряна Ярославівна	-
dc.contributor.author	Myhal, Zoriana	-
dc.date.accessioned	2026-06-25T10:16:02Z	-
dc.date.available	2026-06-25T10:16:02Z	-
dc.date.issued	2026-06	-
dc.identifier.uri	http://elartu.tntu.edu.ua/handle/lib/52689	-
dc.description.abstract	Розробка моделі машинного навчання для генерації текстових описів зображень на основі Vision-Language підходів // Кваліфікаційна робота освітнього рівня «Бакалавр» // Мигаль Зоряна Ярославівна // Тернопільський національний технічний університет імені Івана Пулюя, факультет комп’ютерно-інформаційних систем і програмної інженерії, кафедра програмної інженерії, група СП-42 // Тернопіль, 2026 // С. 63, рис. – 19, табл. – 7, додат. – 2, бібліогр. – 25. Ключові слова: машинне навчання; глибинне навчання; Vision-Language модель; генерація текстових описів зображень; image captioning; комп’ютерний зір; штучний інтелект; BLIP; Transformer; MS COCO. Кваліфікаційна робота присвячена розробці моделі машинного навчання для генерації текстових описів зображень на основі Vision-Language підходів. Проведено аналіз сучасних моделей і наборів даних для задачі image captioning, реалізовано та протестовано модель генерації описів зображень. У роботі розглянуто особливості поєднання методів комп’ютерного зору та обробки природної мови для створення мультимодальних систем. Також виконано оцінювання якості згенерованих описів із використанням сучасних метрик, що дозволило визначити ефективність запропонованого підходу. Об’єкт дослідження — процес автоматичної генерації текстових описів зображень. Предмет дослідження — методи та моделі Vision-Language для задачі image captioning. Практичним результатом є програмна система, що автоматично формує текстові описи зображень і може застосовуватися в системах доступності, пошуку та аналізу візуального контенту.	uk_UA
dc.description.abstract	Development of a Machine Learning Model for Image Caption Generation Based on Vision-Language Approaches // Bachelor's Qualification Thesis // Zoriana Myhal // Ternopil Ivan Puluj National Technical University, Faculty of Computer Information Systems and Software Engineering, Department of Software Engineering, Group SP-42 // Ternopil, 2026 // P. 63, fig. – 19, tabl. – 7, annexes – 2, references – 25. Keywords: machine learning; deep learning; Vision-Language model; image captioning; computer vision; artificial intelligence; BLIP; Transformer; MS COCO. The qualification thesis is devoted to the development of a machine learning model for image caption generation based on Vision-Language approaches. An analysis of modern models and datasets for the image captioning task was conducted, and an image caption generation model was implemented and tested. The thesis examines the integration of computer vision and natural language processing methods for building multimodal systems. The quality of generated captions was evaluated using modern evaluation metrics, which made it possible to assess the effectiveness of the proposed approach. The object of research is the process of automatic image caption generation. The subject of research is Vision-Language methods and models for the image captioning task. The practical result of the thesis is a software system capable of automatically generating textual descriptions of images. The developed solution can be applied in accessibility systems, image retrieval systems, and visual content analysis applications.	uk_UA
dc.description.tableofcontents	ВСТУП 9 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ ТА СУЧАСНИХ VISION-LANGUAGE ПІДХОДІВ 11 1.1 Загальна характеристика задачі генерації текстових описів зображень 11 1.2 Аналіз сучасних Vision-Language моделей 15 1.3 Аналіз наборів даних для задачі генерації описів зображень 17 1.4 Аналіз програмних засобів та бібліотек для реалізації системи 20 1.5 Формування вимог до програмної системи 20 1.5.1 Функціональні вимоги.. 21 1.5.2 Нефункціональні вимоги.. 21 1.5.3 Сценарії використання системи. 22 2. ПРОЄКТУВАННЯ ТА РОЗРОБКА ПРОГРАМНОЇ СИСТЕМИ ГЕНЕРАЦІЇ ОПИСІВ ЗОБРАЖЕНЬ 25 2.1 Проєктування архітектури програмної системи 25 2.2 Проєктування архітектури програмної системи 28 2.3 Проєктування архітектури програмної системи 31 2.4 Класове представлення для реалізація програмної системи 33 2.5 Реалізація процесу навчання моделі 37 2.6 Демонстрація роботи програмної системи 39 2.7 Висновки до 2 розділу 42 3. ТЕСТУВАННЯ, ОЦІНКА ЕФЕКТИВНОСТІ ТА ВПРОВАДЖЕННЯ СИСТЕМИ 43 3.1 Організація експериментального дослідження 43 3.2 Оцінювання якості генерації текстових описів 45 3.3 Тестування та аналіз результатів роботи програмної системи 46 3.4 Тестування та аналіз результатів роботи програмної системи 48 3.5 Висновки до 3 розділу 49 4. ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 50 4.1 Охорона праці 50 4.2 Заходи, що покращують умови праці оператора 52 ВИСНОВКИ 56 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 58 ДОДАТКИ 61 ДОДАТОК А – Рисунок основної діаграми послідовності 61 ДОДАТОК Б – Теза конференції 63	uk_UA
dc.language.iso	uk	uk_UA
dc.publisher	Тернопільський національний технічний університет імені Івана Пулюя	uk_UA
dc.subject	машинне навчання	uk_UA
dc.subject	глибинне навчання	uk_UA
dc.subject	Vision-Language модель	uk_UA
dc.subject	генерація текстових описів зображень	uk_UA
dc.subject	image captioning	uk_UA
dc.subject	комп’ютерний зір	uk_UA
dc.subject	штучний інтелект	uk_UA
dc.subject	BLIP	uk_UA
dc.subject	Transformer	uk_UA
dc.subject	MS COCO	uk_UA
dc.subject	machine learning	uk_UA
dc.subject	deep learning	uk_UA
dc.subject	Vision-Language model	uk_UA
dc.subject	computer vision	uk_UA
dc.subject	artificial intelligence	uk_UA
dc.title	Розробка програмного забезпечення моделі генерації текстових описів зображень на основі Vision-Language підходів	uk_UA
dc.title.alternative	Development of Software for a Textual Image Captioning Model Based on Vision-Language Approaches	uk_UA
dc.rights.holder	© Мигаль Зоряна Ярославівна 2026	uk_UA
dc.contributor.committeeMember	Луцик, Надія Степанівна	-
dc.coverage.placename	ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна	uk_UA
dc.subject.udc	004.9	uk_UA
dc.relation.references	1. Михалик Д. М., Цуприк Г. Б., Бревус В. М. Методичні вказівки до виконання кваліфікаційної роботи бакалавра для здобувачів першого (бакалаврського) рівня вищої освіти за освітньо-професійною програмою «Інженерія програмного забезпечення» спеціальності 121 – «Інженерія програмного забезпечення» всіх форм навчання. Тернопіль : ТНТУ ім. І. Пулюя, 2024. 45 с.	uk_UA
dc.relation.references	2. Бондаренко М. Ф., Каторгін І. В., Моторін Р. М. Штучний інтелект та машинне навчання : навчальний посібник. Київ : КПІ ім. Ігоря Сікорського, 2023. 312 с.	uk_UA
dc.relation.references	3. Лупенко С. А., Пасічник В. В., Яцишин В. С. Аналіз даних та інтелектуальні системи : навчальний посібник. Тернопіль : ТНТУ ім. І. Пулюя, 2023. 286 с.	uk_UA
dc.relation.references	4. Goodfellow I., Bengio Y., Courville A. Deep Learning. Cambridge : MIT Press, 2016. 800 p.	uk_UA
dc.relation.references	5. Bishop C. M. Pattern Recognition and Machine Learning. New York : Springer, 2006. 738 p	uk_UA
dc.relation.references	6. Géron A. Hands-On Machine Learning with Scikit-Learn, Keras and TensorFlow. 3rd ed. Sebastopol : O'Reilly Media, 2022. 851 p.	uk_UA
dc.relation.references	7. Raschka S., Liu Y., Mirjalili V. Machine Learning with PyTorch and Scikit-Learn. Birmingham : Packt Publishing, 2022. 770 p.	uk_UA
dc.relation.references	8. Szeliski R. Computer Vision: Algorithms and Applications. 2nd ed. Cham : Springer, 2022. 1118 p.	uk_UA
dc.relation.references	9. Prince S. J. D. Computer Vision: Models, Learning, and Inference. Cambridge : Cambridge University Press, 2012. 598 p.	uk_UA
dc.relation.references	10. Vaswani A. et al. Attention Is All You Need // Advances in Neural Information Processing Systems. 2017. Vol. 30. P. 5998–6008	uk_UA
dc.relation.references	11. Dosovitskiy A. et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale // International Conference on Learning Representations (ICLR). 2021.	uk_UA
dc.relation.references	12. Radford A. et al. Learning Transferable Visual Models From Natural Language Supervision // Proceedings of the International Conference on Machine Learning. 2021. Vol. 139. P. 8748–8763.	uk_UA
dc.relation.references	13. Li J., Li D., Savarese S., Hoi S. C. H. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation // Proceedings of the International Conference on Machine Learning. 2022. P. 12888–12900.	uk_UA
dc.relation.references	14. Li J. et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models // International Conference on Machine Learning. 2023. P. 19730–19742.	uk_UA
dc.relation.references	15. Xiao D. et al. Florence: A New Foundation Model for Computer Vision // arXiv preprint arXiv:2111.11432. 2021.	uk_UA
dc.contributor.affiliation	ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра програмної інженерії, м. Тернопіль, Україна	uk_UA
dc.coverage.country	UA	uk_UA
dc.identifier.citation2015	Мигаль З.Я. Розробка програмного забезпечення моделі генерації текстових описів зображень на основі Vision-Language підходів: робота на здобуття кваліфікаційного ступеня бакалавра : 121 - інженерія програмного забезпечення / наук. кер. О. Р. Цебрій. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2026. 63 с	uk_UA
Aparece nas Coleccións	121 — Інженерія програмного забезпечення, F2 Інженерія програмного забезпечення (бакалаври)

Arquivos neste item

Arquivo	Descrición	Tamaño	Formato
dyplom_Myhal_Z_2026.pdf		18,25 MB	Adobe PDF	Ver/abrir

Mostrar o rexistro en formato simple

Todos os documentos en Dspace estan protexidos por copyright, con todos os dereitos reservados

Ferramentas administrativas