Cервіс сегментації зображень документів на основі згорткових нейронних мереж

Дольна, Олена Ігорівна; Dolna, Olena

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://elartu.tntu.edu.ua/handle/lib/49533

Повний запис метаданих

Поле DC	Значення	Мова
dc.contributor.advisor	Готович, Володимир Анатолійович	-
dc.contributor.advisor	Gotovych, Volodymyr	-
dc.contributor.author	Дольна, Олена Ігорівна	-
dc.contributor.author	Dolna, Olena	-
dc.date.accessioned	2025-07-03T18:17:23Z	-
dc.date.available	2025-07-03T18:17:23Z	-
dc.date.issued	2025-06-25	-
dc.date.submitted	2025-06-11	-
dc.identifier.citation	Дольна О. І. Cервіс сегментації зображень документів на основі згорткових нейронних мереж : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 122 - комп’ютерні науки / наук. кер. В. А. Готович. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2025. 54 с.	uk_UA
dc.identifier.uri	http://elartu.tntu.edu.ua/handle/lib/49533	-
dc.description	Роботу виконано на кафедрі комп'ютерних наук Тернопільського національного технічного університету імені Івана Пулюя. Захист відбудеться 25.06.2025р. на засіданні екзаменаційної комісії №30 у Тернопільському національному технічному університеті імені Івана Пулюя	uk_UA
dc.description.abstract	Кваліфікаційна робота присвячена розробці системи, котра здатна проводити розпізнавання та ідентифікацію людей на зображеннях з подальшим збереженням результатів обробки у хмарному сховищі. У розділі 1 аналізуються сучасні системи та комплекси відеоаналітики, проведено їх порівняльний аналіз. Встановлено, що більшість систем відеоаналітики використовують технологію хмарних обчислень, що має низку недоліків. Розглянуто технологію кордонних обчислень, що допомагає усунути недоліки хмарних обчислень, та наведено її основні переваги. У розділі 2 наведено засоби та методи обробки відеопотоку, у тому числі алгоритми та засоби для ідентифікації осіб на зображеннях. Встановлено, що всі обчислення найкраще проводити за допомогою графічних процесорів при використанні згорткових нейронних мереж, в той же час Microsoft Cognitive Services є платною хмарною службою, тому як алгоритм для ідентифікації осіб на зображеннях в розроблюваній системі використовується HOG. Здійснено вибір програмних інструментів для реалізації системи. У розділі 3 представлена розробка системи обробки відеопотоку з відеокамери, вбудованої в ноутбук, і програми-тригера, що ідентифікує обличчя на зображеннях і зберігає результати в хмарне сховище	uk_UA
dc.description.abstract	The thesis deals with the development of a service for document image segmentation using convolutional neural networks. The first section presents existing image segmentation algorithms, and provides an overview of image segmentation tools. The second section is devoted to the development of image segmentation algorithms. The default encoders, VGG16, ResNet50, are implemented. The architectures of convolutional neural network models U-Net, SegNet, PSPNet are also implemented. The process of training models is described. The features of obtaining segmentation masks are presented. The components of the IoU metric are calculated. The results of training previously described models for the document image segmentation task are demonstrated. The third section presents the process of developing a segmentation service. Existing analogues with their advantages and disadvantages are considered. Requirements for the software product are formulated. The solution architecture is proposed. Features of technical implementation are presented. The fourth chapter discusses important issues of life safety and the basics of occupational health and safety	uk_UA
dc.description.tableofcontents	ВСТУП 8 РОЗДІЛ 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 10 1.1 Алгоритми сегментації зображень 10 1.2 Огляд інструментів для сегментації зображень 10 1.2.1 Мова програмування та бібліотеки 10 1.2.2 Структурні елементи архітектур згорткових нейронних мереж 11 1.2.3 Пакетна нормалізація 17 РОЗДІЛ 2. РОЗРОБКА АЛГОРИТМІВ СЕГМЕНТАЦІЇ 19 2.1 Реалізація енкодерів 19 2.1.1 Енкодер за замовчуванням 19 2.1.2 VGG16 20 2.1.3 ResNet50 21 2.2 Реалізація архітектур моделей 23 2.2.1 U-Net 23 2.2.2 SegNet 25 2.2.3 PSPNet 25 2.3 Навчання моделей 26 2.4 Отримання масок сегментації 28 2.5 Підрахунок метрик 30 2.6 Результати навчання моделей для завдання сегментації зображень документів 32 РОЗДІЛ 3. РОЗРОБКА СЕРВІСУ СЕГМЕНТАЦІЇ 35 3.1 Опис завдання 35 3.2 Огляд аналогів 35 3.2.1 Passport Recognition Service by Evergreen 35 3.2.2 Smart ID Engine від Smart Engines 36 3.2.3 Розпізнавання полів документів від VK Cloud 37 3.2.4 IRISmart security 37 3.3 Вимоги до системи 38 3.4 Використовувані технології 38 3.5 Архітектура рішення 38 3.6 Технічна реалізація 41 РОЗДІЛ 4. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 43 4.1 Долікарська допомога при ураженні електричним струмом 43 4.2 Вимоги ергономіки до організації робочого місця оператора ПК 45 ВИСНОВКИ 49 ПЕРЕЛІК ДЖЕРЕЛ 50	uk_UA
dc.format.extent	54	-
dc.language.iso	uk	uk_UA
dc.publisher	ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна	uk_UA
dc.subject	122	uk_UA
dc.subject	машинне навчання	uk_UA
dc.subject	енкодер	uk_UA
dc.subject	згорткова нейронна мережа	uk_UA
dc.subject	метрика iou	uk_UA
dc.subject	сегментація зображень	uk_UA
dc.subject	encoder	uk_UA
dc.subject	convolutional neural network	uk_UA
dc.subject	machine learning	uk_UA
dc.subject	iou metrics	uk_UA
dc.subject	image segmentation	uk_UA
dc.title	Cервіс сегментації зображень документів на основі згорткових нейронних мереж	uk_UA
dc.title.alternative	Service for segmentation of document images based on convolutional neural networks	uk_UA
dc.type	Bachelor Thesis	uk_UA
dc.rights.holder	© Дольна Олена Ігорівна, 2025	uk_UA
dc.coverage.placename	Тернопіль	uk_UA
dc.subject.udc	004.9	uk_UA
dc.relation.references	1. Luo D. et al. Deep learning for automatic image segmentation in stomatology and its clinical application //Frontiers in Medical Technology. 2021. p. 68	uk_UA
dc.relation.references	2. Santosh K.C. Document Image Analysis. Springer Nature Singapore Pte Ltd. 2018. P. 174. https://doi.org/10.1007/978-981-13-2339-3.	uk_UA
dc.relation.references	3. Proceedings of the International Conference on Document Analysis and Recognition, ICDAR [Електронний ресурс] – Режим доступа: https://www.scimagojr.com/journalsearch.php?q=75898&tip=sid (дата звертання: 28.04.25).	uk_UA
dc.relation.references	4. Attivissimo F. et al. An automatic reader of identity documents //2019 IEEE International Conference on Systems, Man and Cybernetics (SMC). IEEE, 2019. pp. 3525-3530.	uk_UA
dc.relation.references	5. Zaaboub W. et al. Neural network-based system for automatic passport stamp classification //Information Technology and Control. 2020. V. 49. №. 4. pp. 583-607.	uk_UA
dc.relation.references	6. Liu Y. et al. MRZ code extraction from visa and passport documents using convolutional neural networks //International Journal on Document Analysis and Recognition (IJDAR). 2022. V. 25. №. 1. pp. 29-39.	uk_UA
dc.relation.references	7. Othman P. S. et al. Image processing techniques for identifying impostor documents through digital forensic examination //Image Process. Tech. 2020. V. 62. pp. 1781-1794.	uk_UA
dc.relation.references	8. Nguyen G. et al. Machine learning and deep learning frameworks and libraries for large-scale data mining: a survey //Artificial Intelligence Review. 2019. V. 52. pp. 77-124.	uk_UA
dc.relation.references	9. Albawi S., Mohammed T. A., Al-Zawi S. Understanding of a convolutional neural network //2017 international conference on engineering and technology (ICET). IEEE, 2017. PP. 1-6.	uk_UA
dc.relation.references	10. .Convolutional Neural Network (CNN) \| by Raycad \| Medium [Електронний ресурс] – Режим доступа: https://medium.com/raycad.seedotech/ convolutional-neural-network-cnn-8d1908c010ab (дата звертання: 28.04.25).	uk_UA
dc.relation.references	11. Input object. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/layers/core_layers/input/ (дата звертання: 28.04.25).	uk_UA
dc.relation.references	12. Ajit A., Acharya K., Samanta A. A review of convolutional neural networks //2020 international conference on emerging trends in information technology and engineering (ic-ETITE). IEEE, 2020. PP. 1-5.	uk_UA
dc.relation.references	13. O'Shea K., Nash R. An introduction to convolutional neural networks //arXiv preprint arXiv:1511.08458. 2015.	uk_UA
dc.relation.references	14. Матійчук Л., Готович В., Бонар В. Порівняння ефективності методів некерованого машинного навчання для виявлення аномалій в OBD2 даних. Вимірювальна та обчислювальна техніка в технологічних процесах. Хмельницький національний університет. (1), 2025. с. 407–414	uk_UA
dc.relation.references	15. Wang Y., Xiao Z., Cao G. A convolutional neural network method based on Adam optimizer with power-exponential learning rate for bearing fault diagnosis //Journal of Vibroengineering. 2022. V. 24. №. 4. PP. 666-678.	uk_UA
dc.relation.references	16. Bieder F., Sandkühler R., Cattin P. C. Comparison of methods generalizing max-and average-pooling //arXiv preprint arXiv:2103.01746. 2021.	uk_UA
dc.relation.references	17. Zhang Y. D. et al. A five-layer deep convolutional neural network with stochastic pooling for chest CT-based COVID-19 diagnosis //Machine Vision and Applications. 2021. V. 32. PP. 1-13.	uk_UA
dc.relation.references	18. MaxPooling2D layer. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/layers/pooling_layers/max_pooling2d/ (дата звертання: 28.04.25).	uk_UA
dc.relation.references	19. Л.В. Волинець, Н.А. Гарматюк, В.А. Готович. Великі за обсягом набори біомедичних даних та машинне навчання. Збірник тез доповідей XІI Міжнародної науково-практичної конференції молодих учених та студентів «АКТУАЛЬНІ ЗАДАЧІ СУЧАСНИХ ТЕХНОЛОГІЙ». – Тернопіль, 6-7 грудня 2023 р. с. 370-371	uk_UA
dc.relation.references	20. Zhao Y. et al. GUN: Gradual upsampling network for single image superresolution //IEEE Access. 2018. V. 6. PP. 39363-39374.	uk_UA
dc.relation.references	21. Szandała T. Review and comparison of commonly used activation functions for deep neural networks // Bio-inspired neurocomputing. 2021. PP. 203- 224.	uk_UA
dc.relation.references	22. UpSampling2D layer. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/layers/reshaping_layers/up_sampling2d/ (дата звертання: 28.04.25).	uk_UA
dc.relation.references	23. Gerstner W. et al. Neuronal dynamics: From single neurons to networks and models of cognition. – Cambridge University Press, 2014. Ping W. et al. Deep voice 3: Scaling text-to-speech with convolutional sequence learning //arXiv preprint arXiv:1710.07654. 2017.	uk_UA
dc.relation.references	24. Radu M. D., Costea I. M., Stan V. A. Automatic Traffic Sign Recognition Artificial Inteligence-Deep Learning Algorithm //2020 12th International Conference on Electronics, Computers and Artificial Intelligence (ECAI). IEEE, 2020. PP. 1-4.	uk_UA
dc.relation.references	25. Rasamoelina A. D., Adjailia F., Sinčák P. A review of activation function for artificial neural network //2020 IEEE 18th World Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE, 2020. PP. 281-286.	uk_UA
dc.relation.references	26. Krizhevsky A., Sutskever I., Hinton G. E. Imagenet classification with deep convolutional neural networks //Communications of the ACM. 2017. V. 60. №. 6. PP. 84-90.	uk_UA
dc.relation.references	27. В.І. Саламандра, В.А. Готович. Використання технології комп’ютерного зору для спрощення анімації персонажів. Збірник тез доповідей X Міжнародної науково-практичної конференції молодих учених та студентів "АКТУАЛЬНІ ЗАДАЧІ СУЧАСНИХ ТЕХНОЛОГІЙ". – Тернопіль, 24-25 листопада 2021 р. Том 1, с.118.	uk_UA
dc.relation.references	28. Lin M., Chen Q., Yan S. Network in network //arXiv preprint arXiv:1312.4400. 2013.	uk_UA
dc.relation.references	29. Nwankpa C. et al. Activation functions: Comparison of trends in practice and research for deep learning //arXiv preprint arXiv:1811.03378. 2018.	uk_UA
dc.relation.references	30. Es-Sabery F. et al. Sentence-level classification using parallel fuzzy deep learning classifier //IEEE Access. 2021. V. 9. PP. 17943-17985.	uk_UA
dc.relation.references	31. Layer activation functions. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/layers/activations/ (дата звертання: 28.04.25).	uk_UA
dc.relation.references	32. A Gentle Introduction to Batch Normalization for Deep Neural Networks [Електронний ресурс] – Режим доступа: https://machinelearningmastery.com/batch-normalization-fortraining-of-deep-neural-networks/ (дата звертання: 28.04.25).	uk_UA
dc.relation.references	33. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift //International conference on machine learning // Proceedings of Machine Learning Research, 2015. PP. 448-456.	uk_UA
dc.relation.references	34. Batch normalization in 3 levels of understanding \| by Johann Huber \| Towards Data Science [Електронний ресурс] – Режим доступа: https://towardsdatascience.com/batch-normalization-in-3-levels-of-understanding14c2da90a338#b93c (дата звертання: 28.04.25).	uk_UA
dc.relation.references	35. BatchNormalization layer. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/layers/normalization_layers/batch_normalization/ (дата звертання: 28.04.25).	uk_UA
dc.relation.references	36. VGG16 and VGG19. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/applications/vgg (дата звертання: 28.04.25).	uk_UA
dc.relation.references	37. Keras Applications. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/applications/ (дата звертання: 28.04.25).	uk_UA
dc.relation.references	38. The Architecture and Implementation of VGG-16 \| by Vaibhav Khandelwal \| Towards AI [Електронний ресурс] – Режим доступа: https://pub.towardsai.net/the-architecture-and-implementation-of-vgg-16- b050e5a5920b?gi=e5f8a6174a34 (дата звертання: 28.04.25).	uk_UA
dc.relation.references	39. ResNet and ResNetV2. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/applications/resnet/ (дата звертання: 28.04.25).	uk_UA
dc.relation.references	40. Ji Q. et al. Optimized deep convolutional neural networks for identification of macular diseases from optical coherence tomography images //Algorithms. 2019. V. 12. №. 3. PP. 51-52	uk_UA
dc.relation.references	41. He K. et al. Deep residual learning for image recognition //Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. PP. 770-778.	uk_UA
dc.relation.references	42. Ronneberger O., Fischer P., Brox T. U-net: Convolutional networks for biomedical image segmentation //Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18. Springer International Publishing, 2015. – PP. 234-241.	uk_UA
dc.relation.references	43. Jun T. J. et al. T-net: Nested encoder–decoder architecture for the main vessel segmentation in coronary angiography //Neural Networks. 2020. V. 128. PP. 216-233.	uk_UA
dc.relation.references	44. Zhao H. et al. Pyramid scene parsing network //Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. PP. 2881-2890.	uk_UA
dc.relation.references	45. Model training APIs. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/models/model_training_apis/ (дата звертання: 28.04.25).	uk_UA
dc.relation.references	46. Wang Y., Xiao Z., Cao G. A convolutional neural network method based on Adam optimizer with power-exponential learning rate for bearing fault diagnosis //Journal of Vibroengineering. 2022. V. 24. №. 4. PP. 666-678.	uk_UA
dc.relation.references	47. Yeung M. et al. Unified focal loss: Generalising dice and cross entropy-based losses to handle class imbalanced medical image segmentation //Computerized Medical Imaging and Graphics. 2022. V. 95. PP. 1020-1026.	uk_UA
dc.relation.references	48. Thoma M. A survey of semantic segmentation //arXiv preprint arXiv:1602.06541. 2016.	uk_UA
dc.relation.references	49. Passport Recognition Service by Evergreen [Електронний ресурс] – Режим доступа: https://ocr.solutions/en (дата звертання: 28.04.25).	uk_UA
dc.relation.references	50. IRISmart Security - ID and passport recognition software [Електронний ресурс] – Режим доступа: https://www.irislink.com/EN-GB/c2030/IRISmart-Security---ID-and-passport-recognition-software.aspx (дата звертання: 28.04.25).	uk_UA
dc.relation.references	51. Oleh Pastukh, Volodymyr Stefanyshyn, Ihor Baran, Ihor Yakymenko and Vasyl Vasylkiv. Mathematics and software for controlling mobile software devices based on brain activity signals. CEUR Workshop Proceedings, 2023, 3628, pp. 330–337.	uk_UA
dc.relation.references	52. Заікіна Д., Глива В. Основи охорони праці та безпека життєдіяльності. 2019. URL: https://doi.org/10.31435/rsglobal/001 (дата звернення: 14.05.2025).	uk_UA
dc.relation.references	53. Безпека в надзвичайних ситуаціях. Методичний посібник для здобувачів освітнього ступеня «магістр» всіх спеціальностей денної та заочної (дистанційної) форм навчання / укл.: Стручок В. С. Тернопіль: ФОП Паляниця В. А., 2022. 156 с.	uk_UA
dc.contributor.affiliation	ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра комп’ютерних наук, м. Тернопіль, Україна	uk_UA
dc.coverage.country	UA	uk_UA
Розташовується у зібраннях:	122 — Компʼютерні науки, F3 Комп’ютерні науки (бакалаври)

Файли цього матеріалу:

Файл	Опис	Розмір	Формат
2025_KRB_SN-41_Dolna_OI.pdf	Дипломна робота	1,15 MB	Adobe PDF	Переглянути/відкрити

Показати базовий опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

Інструменти адміністратора