Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://elartu.tntu.edu.ua/handle/lib/49009
Název: | Програмна система для автоматичної сегментації динамічних фрагментів у відеозаписах за допомогою методів машинного навчання |
Další názvy: | Software system for automatic segmentation of dynamic fragments in video recordings using machine learning methods |
Autoři: | Вонсович, Олександр Петрович Vonsovych, Oleksandr |
Affiliation: | ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра програмної інженерії, м. Тернопіль, Україна |
Bibliographic description (Ukraine): | Вонсович О. П. Програмна система для автоматичної сегментації динамічних фрагментів у відеозаписах за допомогою методів машинного навчання : спец. 121 - інженерія програмного забезпечення / наук. кер. І. В. Бойко. Тернопіль: – Тернопільський національний технічний університет імені Івана Пулюя, 2025. 85 с. |
Datum vydání: | 23-čer-2025 |
Submitted date: | 9-čer-2025 |
Date of entry: | 23-čer-2025 |
Nakladatel: | Тернопільський національний технічний університет імені Івана Пулюя |
Country (code): | UA |
Place of the edition/event: | ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна |
Supervisor: | Бойко, Ігор Володимирович |
Committee members: | Гром'як, Роман Сильвестрович |
UDC: | 004.9 |
Klíčová slova: | відеокласифікація video classification машинне навчання machine learning комп’ютерний зір computer vision трансформер transformer сегментація відео video segmentation аналіз динаміки motion analysis 3d cnn transformer fine-tuning |
Number of pages: | 85 |
Abstrakt: | Кваліфікаційна робота бакалавра, виконана Вонсович Олександром Петровичем, студентом групи СП-41 Тернопільського національного технічного університету, присвячена розробці програми для автоматичної сегментації динамічних фрагментів у відеозаписах за допомогою методів машинного навчання. Обсяг роботи становить 85 сторінок, містить 19 рисунків, 2 додатки та список використаних джерел з 22 позицій.
Метою дослідження є створення інструменту, який дозволяє автоматично виявляти та сегментувати динамічні моменти у відео з використанням сучасних архітектур нейронних мереж. У процесі роботи було сформовано датасет з відеофрагментів, виконано його фрагментацію та балансування. Для розв'язання поставленої задачі реалізовано та порівняно дві моделі: тривимірну згорткову нейронну мережу (3D CNN) та трансформер-архітектуру Timesformer.
Оцінку якості моделей проведено за допомогою метрик класифікації, серед яких confusion matrix, macro precision, macro recall, macro F1 score, balanced accuracy, ROC-AUC та precision-recall curve. Додатково здійснено візуальний аналіз результатів сегментації на тестових відео. За результатами порівняння встановлено, що трансформер-модель продемонструвала вищу точність класифікації, здатність адаптивно розпізнавати динамічні рухи навіть поза межами навчального набору даних, та потенціал для подальшого донавчання.
Отримані результати засвідчують доцільність подальшого розвитку системи шляхом розширення навчального датасету, оптимізації моделей та реалізації зручного графічного інтерфейсу для інтерактивного завантаження і обробки відеофайлів. The bachelor’s qualification thesis, completed by Vonsovych Oleksandr Petrovych, a student of group SP-41 at Ternopil National Technical University, is dedicated to the development of a program for the automatic segmentation of dynamic fragments in video recordings using machine learning methods. The volume of the work comprises 85 pages, includes 19 figures, 2 appendices, and a list of references containing 22 sources. The aim of the research is to create a tool that enables the automatic detection and segmentation of dynamic moments in video content by employing modern neural network architectures. In the course of the study, a dataset of video fragments was compiled, followed by its segmentation and balancing. To address the task, two models were implemented and compared: a three-dimensional convolutional neural network (3D CNN) and a transformer-based architecture, Timesformer. The quality of the models was evaluated using classification metrics, including the confusion matrix, macro precision, macro recall, macro F1 score, balanced accuracy, ROC-AUC, and the precision-recall curve. Additionally, a visual analysis of segmentation results on test videos was conducted. The comparative results demonstrated that the transformer model achieved higher classification accuracy, an ability to adaptively recognize dynamic movements even beyond the boundaries of the training dataset, and promising potential for further fine-tuning. The obtained results confirm the feasibility of further system development through the expansion of the training dataset, optimization of the models, and the implementation of a convenient graphical interface for interactive uploading and processing of video files. |
Content: | АНОТАЦІЯ 4 ABSTRACT 5 ЗМІСТ 6 ПЕРЕЛІК УМОВНИХ СКОРОЧЕНЬ 8 ВСТУП 9 1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 12 1.1 Дослідження сучасних технологій класифікації 12 1.2 Обґрунтування напрямку дослідження 15 1.3 Методика вирішення задачі 16 2 РОЗРОБКА ПРОГРАМНОГО РШЕННЯ 18 2.1 Збір та підготовка тренувальних даних 18 2.1.1 Метод збору тренувальних даних 18 2.1.2 Фрагментація датасету 19 2.1.3 Балансування датасету 20 2.1.4 Характеристика фінальних тренувальних даних 23 2.2 Тренування моделей 25 2.2.1 Тренування 3D CNN 25 2.2.2 Тренування моделі трансформер-архітектури 29 2.3 Евалюація моделей 31 2.3.1 Метрики якості моделей 31 2.3.2 Метрики 3D CNN 33 2.3.3 Метрики Timesformer 38 2.4 Порівняння натренованих моделей з аналогами 42 2.4.1 Аналіз рішень у відкритому доступі 43 2.4.2 Тестування Twelve Labs Classification API 43 2.5 Обмеження та перспективи 45 3 БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 47 3.1 Домедична допомога при переломах 47 3.2 Охорона праці при роботі за персональним комп’ютером 49 ВИСНОВКИ 52 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 54 ДОДАТКИ 57 ДОДАТОК A — Лістинг коду програмної системи 58 ДОДАТОК Б — Диск із кваліфікаційною роботою бакалавра 85 |
URI: | http://elartu.tntu.edu.ua/handle/lib/49009 |
Copyright owner: | © Вонсович Олександр Петрович, 2025 |
URL for reference material: | https://www.sciencedirect.com/science/article/pii/S0031320325004236 https://www.mdpi.com/2673-4591/59/1/3 https://arxiv.org/html/2410.04449v1 https://arxiv.org/abs/1711.10305 https://arxiv.org/abs/1412.0767 https://arxiv.org/abs/2305.00355 https://cloud.google.com/video-intelligence https://aws.amazon.com/rekognition/video-features https://www.twelvelabs.io/blog/effortless-video-classifiers-with-twelve-labs-api-no-ml-training-required https://dl.tntu.edu.ua/content.php?cid=514586 https://dl.tntu.edu.ua/content.php?cid=299865 https://dl.tntu.edu.ua/content.php?cid=289193 https://zakon.rada.gov.ua/laws/show/z0356-22 https://dl.tntu.edu.ua/content.php?cid=289154 https://e-construction.gov.ua/laws_detail/3074958732556240833?doc_type=2 https://dl.tntu.edu.ua/bounce.php?course=5329 |
References (Ukraine): | 1. Методи глибокого навчання для сегментації екземплярів відео: опитування. Science Direct [Електронний ресурс]. — Режим доступу: URL: https://www.sciencedirect.com/science/article/pii/S0031320325004236 (дата звернення 17.06.2025) 2. Комплексний огляд застосування 3D згорткових нейронних мереж у медичній візуалізації. MDPI [Електронний ресурс]. — Режим доступу: URL: https://www.mdpi.com/2673-4591/59/1/3 (дата звернення 17.06.2025) 3. Методи відеорезюмування: комплексний огляд. Arxiv [Електронний ресурс]. — Режим доступу: URL: https://arxiv.org/html/2410.04449v1 (дата звернення 17.06.2025) 10. Платформа Google Cloud Intelligence API. Google Cloud [Електронний ресурс]. — Режим доступу: URL: https://cloud.google.com/video-intelligence (дата звернення 19.06.2025) 11. Платформа Amazon Rekognition. Amazon Web Services [Електронний ресурс]. — Режим доступу: URL: https://aws.amazon.com/rekognition/video-features (дата звернення 19.06.2025) 12. Як використовувати Twelve Labs API. Twelve Labs [Електронний ресурс]. — Режим доступу: URL: https://www.twelvelabs.io/blog/effortless-video-classifiers-with-twelve-labs-api-no-ml-training-required (дата звернення 19.06.2025) 13. РЕКОМЕНДАЦІЇ ДО ВИКОНАННЯ КРБ. ATutor [Електронний ресурс]. — Режим доступу: URL: https://dl.tntu.edu.ua/content.php?cid=514586 (дата звернення: 15.06.2025) 14. Долікарська допомога при переломах. ATutor [Електронний ресурс]. — Режим доступу: URL: https://dl.tntu.edu.ua/content.php?cid=299865 (дата звернення: 15.06.2025) 15. Організація робочих місць. ATutor [Електронний ресурс]. — Режим доступу: URL: https://dl.tntu.edu.ua/content.php?cid=289193 (дата звернення: 15.06.2025) 16. Мелех Л.В. Безпека життєдіяльності та охорона праці: навч. посіб. Львів: ЛДУ внутрішніх справ, 2022. 219 с 17. В. Г. Грибан., А. Є. Фоменко, Д. Г. Казначеєв. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ ТА ОХОРОНА ПРАЦІ: підручник. Дніпро: Дніпроп. держ. ун-т внутр. справ, 2022. 388 с. 18. Про затвердження порядків надання домедичної допомоги особам при невідкладних станах: Наказ Міністерства охорони здоров’я України від 09.03.2022 № 441. — Режим доступу: URL: https://zakon.rada.gov.ua/laws/show/z0356-22 (дата звернення: 15.06.2025). 19. Вимоги нормативних документів до систем виробничого освітлення. ATutor. Режим доступу: URL: https://dl.tntu.edu.ua/content.php?cid=289154 (дата звернення: 16.06.2025) 20. ДБН В.2.5-28-2018 "Природне і штучне освітлення". Чинний від 01.03.2019. — Режим доступу: URL: https://e-construction.gov.ua/laws_detail/3074958732556240833?doc_type=2 21. Дистанційний курс «Кваліфікаційні роботи бакалаврів» сайту дистанційного навчання ТНТУ [Електронний ресурс]. — Режим доступу: URL: https://dl.tntu.edu.ua/bounce.php?course=5329 (дата звернення: 19.06.2025) 22. Методичні вказівки до виконання дипломної роботи освітнього рівня “бакалавр” студентами усіх форм навчання для напряму підготовки 121 – “Інженерія програмного забезпечення” / уклад. : Петрик М.Р., Михалик Д.М., Кінах Я.І., Гладьо С.В., Цуприк Г.Б. — Тернопіль : Вид-во ТНТУ імені Івана Пулюя, 2016. — 28 с. |
References (International): | 4. Qiu Zhaofan, Yao Ting, Mei Tao. Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks [Електронний ресурс]. — University of Science and Technology of China, Hefei, China; Microsoft Research, Beijing, China, 2017. — 9 с. — Режим доступу: URL: https://arxiv.org/abs/1711.10305 (дата звернення: 19.06.2025) 5. Tran Du, Bourdev Lubomir, Fergus Rob, Torresani Lorenzo, Paluri Manohar. Learning Spatiotemporal Features with 3D Convolutional Networks [Електронний ресурс]. — Facebook AI Research; Dartmouth College, 2017. — 9 с. — Режим доступу: URL: https://arxiv.org/abs/1412.0767 (дата звернення: 19.06.2025) 6. Arnab Anurag, Dehghani Mostafa, Heigold Georg, Sun Chen, Lucic Mario, Schmid Cordelia. ViViT: A Video Vision Transformer [Електронний ресурс]. — Google Research, 2021. — 11 с. — Режим доступу: URL: https://arxiv.org/abs/2103.15691 (дата звернення: 18.06.2025) 7. Xu Yifang, Sun Yunzhuo, Li Yang, Shi Yilei, Zhu Xiaoxiang, Du Sidan. MH-DETR: Video Moment and Highlight Detection with Cross-modal Transformer [Електронний ресурс]. — 2023. — 10 с. — Режим доступу: URL: https://arxiv.org/abs/2305.00355 (дата звернення: 18.06.2025) 8. Method and system for automatically generating video highlights : пат. CN109691124B Китай; заявл. 19.06.2017; опубл. 27.07.2021. — 13 с. 9. Systems and methods for automating video editing : пат. US11769528B2 США; заявл. 02.03.2021; опубл. 26.09.2023. — 47 с. |
Content type: | Bachelor Thesis |
Vyskytuje se v kolekcích: | 121 — Інженерія програмного забезпечення (бакалаври) |
Soubory připojené k záznamu:
Soubor | Popis | Velikost | Formát | |
---|---|---|---|---|
dyplom_Vonsovych_2025.pdf | 811,4 kB | Adobe PDF | Zobrazit/otevřít |
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.
Nástroje administrátora