Програмна система для автоматичної сегментації динамічних фрагментів у відеозаписах за допомогою методів машинного навчання

Вонсович, Олександр Петрович; Vonsovych, Oleksandr

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://elartu.tntu.edu.ua/handle/lib/49009

Langanzeige der Metadaten

DC Element	Wert	Sprache
dc.contributor.advisor	Бойко, Ігор Володимирович	-
dc.contributor.author	Вонсович, Олександр Петрович	-
dc.contributor.author	Vonsovych, Oleksandr	-
dc.date.accessioned	2025-06-23T12:29:05Z	-
dc.date.available	2025-06-23T12:29:05Z	-
dc.date.issued	2025-06	-
dc.date.submitted	2025-06-09	-
dc.identifier.citation	Вонсович О. П. Програмна система для автоматичної сегментації динамічних фрагментів у відеозаписах за допомогою методів машинного навчання : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 121 - інженерія програмного забезпечення / наук. кер. І. В. Бойко. Тернопіль: Тернопільський національний технічний університет імені Івана Пулюя, 2025. 85 с.	uk_UA
dc.identifier.uri	http://elartu.tntu.edu.ua/handle/lib/49009	-
dc.description.abstract	Кваліфікаційна робота бакалавра, виконана Вонсович Олександром Петровичем, студентом групи СП-41 Тернопільського національного технічного університету, присвячена розробці програми для автоматичної сегментації динамічних фрагментів у відеозаписах за допомогою методів машинного навчання. Обсяг роботи становить 85 сторінок, містить 19 рисунків, 2 додатки та список використаних джерел з 22 позицій. Метою дослідження є створення інструменту, який дозволяє автоматично виявляти та сегментувати динамічні моменти у відео з використанням сучасних архітектур нейронних мереж. У процесі роботи було сформовано датасет з відеофрагментів, виконано його фрагментацію та балансування. Для розв'язання поставленої задачі реалізовано та порівняно дві моделі: тривимірну згорткову нейронну мережу (3D CNN) та трансформер-архітектуру Timesformer. Оцінку якості моделей проведено за допомогою метрик класифікації, серед яких confusion matrix, macro precision, macro recall, macro F1 score, balanced accuracy, ROC-AUC та precision-recall curve. Додатково здійснено візуальний аналіз результатів сегментації на тестових відео. За результатами порівняння встановлено, що трансформер-модель продемонструвала вищу точність класифікації, здатність адаптивно розпізнавати динамічні рухи навіть поза межами навчального набору даних, та потенціал для подальшого донавчання. Отримані результати засвідчують доцільність подальшого розвитку системи шляхом розширення навчального датасету, оптимізації моделей та реалізації зручного графічного інтерфейсу для інтерактивного завантаження і обробки відеофайлів.	uk_UA
dc.description.abstract	The bachelor’s qualification thesis, completed by Vonsovych Oleksandr Petrovych, a student of group SP-41 at Ternopil National Technical University, is dedicated to the development of a program for the automatic segmentation of dynamic fragments in video recordings using machine learning methods. The volume of the work comprises 85 pages, includes 19 figures, 2 appendices, and a list of references containing 22 sources. The aim of the research is to create a tool that enables the automatic detection and segmentation of dynamic moments in video content by employing modern neural network architectures. In the course of the study, a dataset of video fragments was compiled, followed by its segmentation and balancing. To address the task, two models were implemented and compared: a three-dimensional convolutional neural network (3D CNN) and a transformer-based architecture, Timesformer. The quality of the models was evaluated using classification metrics, including the confusion matrix, macro precision, macro recall, macro F1 score, balanced accuracy, ROC-AUC, and the precision-recall curve. Additionally, a visual analysis of segmentation results on test videos was conducted. The comparative results demonstrated that the transformer model achieved higher classification accuracy, an ability to adaptively recognize dynamic movements even beyond the boundaries of the training dataset, and promising potential for further fine-tuning. The obtained results confirm the feasibility of further system development through the expansion of the training dataset, optimization of the models, and the implementation of a convenient graphical interface for interactive uploading and processing of video files.	uk_UA
dc.description.tableofcontents	АНОТАЦІЯ 4 ABSTRACT 5 ЗМІСТ 6 ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ 8 ВСТУП 9 1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 12 1.1 Дослідження сучасних технологій класифікації 12 1.2 Обґрунтування напрямку дослідження 15 1.3 Методика вирішення задачі 16 2 РОЗРОБКА ПРОГРАМНОГО РШЕННЯ 18 2.1 Збір та підготовка тренувальних даних 18 2.1.1 Метод збору тренувальних даних 18 2.1.2 Фрагментація датасету 19 2.1.3 Балансування датасету 20 2.1.4 Характеристика фінальних тренувальних даних 23 2.2 Тренування моделей 25 2.2.1 Тренування 3D CNN 25 2.2.2 Тренування моделі трансформер-архітектури 29 2.3 Евалюація моделей 31 2.3.1 Метрики якості моделей 31 2.3.2 Метрики 3D CNN 33 2.3.3 Метрики Timesformer 38 2.4 Порівняння натренованих моделей з аналогами 42 2.4.1 Аналіз рішень у відкритому доступі 43 2.4.2 Тестування Twelve Labs Classification API 43 2.5 Обмеження та перспективи 45 3 БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 47 3.1 Домедична допомога при переломах 47 3.2 Охорона праці при роботі за персональним комп’ютером 49 ВИСНОВКИ 52 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 54 ДОДАТКИ 57 ДОДАТОК A — Лістинг коду програмної системи 58 ДОДАТОК Б — Диск із кваліфікаційною роботою бакалавра 85	uk_UA
dc.language.iso	uk	uk_UA
dc.publisher	Тернопільський національний технічний університет імені Івана Пулюя	uk_UA
dc.relation.uri	https://www.sciencedirect.com/science/article/pii/S0031320325004236	uk_UA
dc.relation.uri	https://www.mdpi.com/2673-4591/59/1/3	uk_UA
dc.relation.uri	https://arxiv.org/html/2410.04449v1	uk_UA
dc.relation.uri	https://arxiv.org/abs/1711.10305	uk_UA
dc.relation.uri	https://arxiv.org/abs/1412.0767	uk_UA
dc.relation.uri	https://arxiv.org/abs/2305.00355	uk_UA
dc.relation.uri	https://cloud.google.com/video-intelligence	uk_UA
dc.relation.uri	https://aws.amazon.com/rekognition/video-features	uk_UA
dc.relation.uri	https://www.twelvelabs.io/blog/effortless-video-classifiers-with-twelve-labs-api-no-ml-training-required	uk_UA
dc.relation.uri	https://dl.tntu.edu.ua/content.php?cid=514586	uk_UA
dc.relation.uri	https://dl.tntu.edu.ua/content.php?cid=299865	uk_UA
dc.relation.uri	https://dl.tntu.edu.ua/content.php?cid=289193	uk_UA
dc.relation.uri	https://zakon.rada.gov.ua/laws/show/z0356-22	uk_UA
dc.relation.uri	https://dl.tntu.edu.ua/content.php?cid=289154	uk_UA
dc.relation.uri	https://e-construction.gov.ua/laws_detail/3074958732556240833?doc_type=2	uk_UA
dc.relation.uri	https://dl.tntu.edu.ua/bounce.php?course=5329	uk_UA
dc.subject	відеокласифікація	uk_UA
dc.subject	video classification	uk_UA
dc.subject	машинне навчання	uk_UA
dc.subject	machine learning	uk_UA
dc.subject	комп’ютерний зір	uk_UA
dc.subject	computer vision	uk_UA
dc.subject	трансформер	uk_UA
dc.subject	transformer	uk_UA
dc.subject	сегментація відео	uk_UA
dc.subject	video segmentation	uk_UA
dc.subject	аналіз динаміки	uk_UA
dc.subject	motion analysis	uk_UA
dc.subject	3d cnn	uk_UA
dc.subject	transformer	uk_UA
dc.subject	fine-tuning	uk_UA
dc.title	Програмна система для автоматичної сегментації динамічних фрагментів у відеозаписах за допомогою методів машинного навчання	uk_UA
dc.title.alternative	Software system for automatic segmentation of dynamic fragments in video recordings using machine learning methods	uk_UA
dc.type	Bachelor Thesis	uk_UA
dc.rights.holder	© Вонсович Олександр Петрович, 2025	uk_UA
dc.contributor.committeeMember	Гром'як, Роман Сильвестрович	-
dc.coverage.placename	ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна	uk_UA
dc.format.pages	85	-
dc.subject.udc	004.9	uk_UA
dc.relation.references	1. Методи глибокого навчання для сегментації екземплярів відео: опитування. Science Direct [Електронний ресурс]. — Режим доступу: URL: https://www.sciencedirect.com/science/article/pii/S0031320325004236 (дата звернення 17.06.2025)	uk_UA
dc.relation.references	2. Комплексний огляд застосування 3D згорткових нейронних мереж у медичній візуалізації. MDPI [Електронний ресурс]. — Режим доступу: URL: https://www.mdpi.com/2673-4591/59/1/3 (дата звернення 17.06.2025)	uk_UA
dc.relation.references	3. Методи відеорезюмування: комплексний огляд. Arxiv [Електронний ресурс]. — Режим доступу: URL: https://arxiv.org/html/2410.04449v1 (дата звернення 17.06.2025)	uk_UA
dc.relation.references	10. Платформа Google Cloud Intelligence API. Google Cloud [Електронний ресурс]. — Режим доступу: URL: https://cloud.google.com/video-intelligence (дата звернення 19.06.2025)	uk_UA
dc.relation.references	11. Платформа Amazon Rekognition. Amazon Web Services [Електронний ресурс]. — Режим доступу: URL: https://aws.amazon.com/rekognition/video-features (дата звернення 19.06.2025)	uk_UA
dc.relation.references	12. Як використовувати Twelve Labs API. Twelve Labs [Електронний ресурс]. — Режим доступу: URL: https://www.twelvelabs.io/blog/effortless-video-classifiers-with-twelve-labs-api-no-ml-training-required (дата звернення 19.06.2025)	uk_UA
dc.relation.references	13. РЕКОМЕНДАЦІЇ ДО ВИКОНАННЯ КРБ. ATutor [Електронний ресурс]. — Режим доступу: URL: https://dl.tntu.edu.ua/content.php?cid=514586 (дата звернення: 15.06.2025)	uk_UA
dc.relation.references	14. Долікарська допомога при переломах. ATutor [Електронний ресурс]. — Режим доступу: URL: https://dl.tntu.edu.ua/content.php?cid=299865 (дата звернення: 15.06.2025)	uk_UA
dc.relation.references	15. Організація робочих місць. ATutor [Електронний ресурс]. — Режим доступу: URL: https://dl.tntu.edu.ua/content.php?cid=289193 (дата звернення: 15.06.2025)	uk_UA
dc.relation.references	16. Мелех Л.В. Безпека життєдіяльності та охорона праці: навч. посіб. Львів: ЛДУ внутрішніх справ, 2022. 219 с	uk_UA
dc.relation.references	17. В. Г. Грибан., А. Є. Фоменко, Д. Г. Казначеєв. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ ТА ОХОРОНА ПРАЦІ: підручник. Дніпро: Дніпроп. держ. ун-т внутр. справ, 2022. 388 с.	uk_UA
dc.relation.references	18. Про затвердження порядків надання домедичної допомоги особам при невідкладних станах: Наказ Міністерства охорони здоров’я України від 09.03.2022 № 441. — Режим доступу: URL: https://zakon.rada.gov.ua/laws/show/z0356-22 (дата звернення: 15.06.2025).	uk_UA
dc.relation.references	19. Вимоги нормативних документів до систем виробничого освітлення. ATutor. Режим доступу: URL: https://dl.tntu.edu.ua/content.php?cid=289154 (дата звернення: 16.06.2025)	uk_UA
dc.relation.references	20. ДБН В.2.5-28-2018 "Природне і штучне освітлення". Чинний від 01.03.2019. — Режим доступу: URL: https://e-construction.gov.ua/laws_detail/3074958732556240833?doc_type=2	uk_UA
dc.relation.references	21. Дистанційний курс «Кваліфікаційні роботи бакалаврів» сайту дистанційного навчання ТНТУ [Електронний ресурс]. — Режим доступу: URL: https://dl.tntu.edu.ua/bounce.php?course=5329 (дата звернення: 19.06.2025)	uk_UA
dc.relation.references	22. Методичні вказівки до виконання дипломної роботи освітнього рівня “бакалавр” студентами усіх форм навчання для напряму підготовки 121 – “Інженерія програмного забезпечення” / уклад. : Петрик М.Р., Михалик Д.М., Кінах Я.І., Гладьо С.В., Цуприк Г.Б. — Тернопіль : Вид-во ТНТУ імені Івана Пулюя, 2016. — 28 с.	uk_UA
dc.relation.referencesen	4. Qiu Zhaofan, Yao Ting, Mei Tao. Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks [Електронний ресурс]. — University of Science and Technology of China, Hefei, China; Microsoft Research, Beijing, China, 2017. — 9 с. — Режим доступу: URL: https://arxiv.org/abs/1711.10305 (дата звернення: 19.06.2025)	uk_UA
dc.relation.referencesen	5. Tran Du, Bourdev Lubomir, Fergus Rob, Torresani Lorenzo, Paluri Manohar. Learning Spatiotemporal Features with 3D Convolutional Networks [Електронний ресурс]. — Facebook AI Research; Dartmouth College, 2017. — 9 с. — Режим доступу: URL: https://arxiv.org/abs/1412.0767 (дата звернення: 19.06.2025)	uk_UA
dc.relation.referencesen	6. Arnab Anurag, Dehghani Mostafa, Heigold Georg, Sun Chen, Lucic Mario, Schmid Cordelia. ViViT: A Video Vision Transformer [Електронний ресурс]. — Google Research, 2021. — 11 с. — Режим доступу: URL: https://arxiv.org/abs/2103.15691 (дата звернення: 18.06.2025)	uk_UA
dc.relation.referencesen	7. Xu Yifang, Sun Yunzhuo, Li Yang, Shi Yilei, Zhu Xiaoxiang, Du Sidan. MH-DETR: Video Moment and Highlight Detection with Cross-modal Transformer [Електронний ресурс]. — 2023. — 10 с. — Режим доступу: URL: https://arxiv.org/abs/2305.00355 (дата звернення: 18.06.2025)	uk_UA
dc.relation.referencesen	8. Method and system for automatically generating video highlights : пат. CN109691124B Китай; заявл. 19.06.2017; опубл. 27.07.2021. — 13 с.	uk_UA
dc.relation.referencesen	9. Systems and methods for automating video editing : пат. US11769528B2 США; заявл. 02.03.2021; опубл. 26.09.2023. — 47 с.	uk_UA
dc.contributor.affiliation	ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра програмної інженерії, м. Тернопіль, Україна	uk_UA
dc.coverage.country	UA	uk_UA
Enthalten in den Sammlungen:	121 — Інженерія програмного забезпечення, F2 Інженерія програмного забезпечення (бакалаври)

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
dyplom_Vonsovych_2025.pdf		811,4 kB	Adobe PDF	Öffnen/Anzeigen

Zur Kurzanzeige

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt, soweit nicht anderweitig angezeigt.

Administrationswerkzeuge