Link lub cytat. http://elartu.tntu.edu.ua/handle/lib/49533
Titel: Cервіс сегментації зображень документів на основі згорткових нейронних мереж
Övriga titlar: Service for segmentation of document images based on convolutional neural networks
Författare: Дольна, Олена Ігорівна
Dolna, Olena
Affiliation: ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра комп’ютерних наук, м. Тернопіль, Україна
Bibliographic description (Ukraine): Дольна О. І. Cервіс сегментації зображень документів на основі згорткових нейронних мереж : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 122 - комп’ютерні науки / наук. кер. В. А. Готович. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2025. 54 с.
Utgivningsdatum: 25-jun-2025
Submitted date: 11-jun-2025
Date of entry: 3-jul-2025
Utgivare: ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна
Country (code): UA
Place of the edition/event: Тернопіль
Supervisor: Готович, Володимир Анатолійович
Gotovych, Volodymyr
UDC: 004.9
Nyckelord: 122
машинне навчання
енкодер
згорткова нейронна мережа
метрика iou
сегментація зображень
encoder
convolutional neural network
machine learning
iou metrics
image segmentation
Page range: 54
Sammanfattning: Кваліфікаційна робота присвячена розробці системи, котра здатна проводити розпізнавання та ідентифікацію людей на зображеннях з подальшим збереженням результатів обробки у хмарному сховищі. У розділі 1 аналізуються сучасні системи та комплекси відеоаналітики, проведено їх порівняльний аналіз. Встановлено, що більшість систем відеоаналітики використовують технологію хмарних обчислень, що має низку недоліків. Розглянуто технологію кордонних обчислень, що допомагає усунути недоліки хмарних обчислень, та наведено її основні переваги. У розділі 2 наведено засоби та методи обробки відеопотоку, у тому числі алгоритми та засоби для ідентифікації осіб на зображеннях. Встановлено, що всі обчислення найкраще проводити за допомогою графічних процесорів при використанні згорткових нейронних мереж, в той же час Microsoft Cognitive Services є платною хмарною службою, тому як алгоритм для ідентифікації осіб на зображеннях в розроблюваній системі використовується HOG. Здійснено вибір програмних інструментів для реалізації системи. У розділі 3 представлена розробка системи обробки відеопотоку з відеокамери, вбудованої в ноутбук, і програми-тригера, що ідентифікує обличчя на зображеннях і зберігає результати в хмарне сховище
The thesis deals with the development of a service for document image segmentation using convolutional neural networks. The first section presents existing image segmentation algorithms, and provides an overview of image segmentation tools. The second section is devoted to the development of image segmentation algorithms. The default encoders, VGG16, ResNet50, are implemented. The architectures of convolutional neural network models U-Net, SegNet, PSPNet are also implemented. The process of training models is described. The features of obtaining segmentation masks are presented. The components of the IoU metric are calculated. The results of training previously described models for the document image segmentation task are demonstrated. The third section presents the process of developing a segmentation service. Existing analogues with their advantages and disadvantages are considered. Requirements for the software product are formulated. The solution architecture is proposed. Features of technical implementation are presented. The fourth chapter discusses important issues of life safety and the basics of occupational health and safety
Beskrivning: Роботу виконано на кафедрі комп'ютерних наук Тернопільського національного технічного університету імені Івана Пулюя. Захист відбудеться 25.06.2025р. на засіданні екзаменаційної комісії №30 у Тернопільському національному технічному університеті імені Івана Пулюя
Content: ВСТУП 8 РОЗДІЛ 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 10 1.1 Алгоритми сегментації зображень 10 1.2 Огляд інструментів для сегментації зображень 10 1.2.1 Мова програмування та бібліотеки 10 1.2.2 Структурні елементи архітектур згорткових нейронних мереж 11 1.2.3 Пакетна нормалізація 17 РОЗДІЛ 2. РОЗРОБКА АЛГОРИТМІВ СЕГМЕНТАЦІЇ 19 2.1 Реалізація енкодерів 19 2.1.1 Енкодер за замовчуванням 19 2.1.2 VGG16 20 2.1.3 ResNet50 21 2.2 Реалізація архітектур моделей 23 2.2.1 U-Net 23 2.2.2 SegNet 25 2.2.3 PSPNet 25 2.3 Навчання моделей 26 2.4 Отримання масок сегментації 28 2.5 Підрахунок метрик 30 2.6 Результати навчання моделей для завдання сегментації зображень документів 32 РОЗДІЛ 3. РОЗРОБКА СЕРВІСУ СЕГМЕНТАЦІЇ 35 3.1 Опис завдання 35 3.2 Огляд аналогів 35 3.2.1 Passport Recognition Service by Evergreen 35 3.2.2 Smart ID Engine від Smart Engines 36 3.2.3 Розпізнавання полів документів від VK Cloud 37 3.2.4 IRISmart security 37 3.3 Вимоги до системи 38 3.4 Використовувані технології 38 3.5 Архітектура рішення 38 3.6 Технічна реалізація 41 РОЗДІЛ 4. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 43 4.1 Долікарська допомога при ураженні електричним струмом 43 4.2 Вимоги ергономіки до організації робочого місця оператора ПК 45 ВИСНОВКИ 49 ПЕРЕЛІК ДЖЕРЕЛ 50
URI: http://elartu.tntu.edu.ua/handle/lib/49533
Copyright owner: © Дольна Олена Ігорівна, 2025
References (Ukraine): 1. Luo D. et al. Deep learning for automatic image segmentation in stomatology and its clinical application //Frontiers in Medical Technology. 2021. p. 68
2. Santosh K.C. Document Image Analysis. Springer Nature Singapore Pte Ltd. 2018. P. 174. https://doi.org/10.1007/978-981-13-2339-3.
3. Proceedings of the International Conference on Document Analysis and Recognition, ICDAR [Електронний ресурс] – Режим доступа: https://www.scimagojr.com/journalsearch.php?q=75898&tip=sid (дата звертання: 28.04.25).
4. Attivissimo F. et al. An automatic reader of identity documents //2019 IEEE International Conference on Systems, Man and Cybernetics (SMC). IEEE, 2019. pp. 3525-3530.
5. Zaaboub W. et al. Neural network-based system for automatic passport stamp classification //Information Technology and Control. 2020. V. 49. №. 4. pp. 583-607.
6. Liu Y. et al. MRZ code extraction from visa and passport documents using convolutional neural networks //International Journal on Document Analysis and Recognition (IJDAR). 2022. V. 25. №. 1. pp. 29-39.
7. Othman P. S. et al. Image processing techniques for identifying impostor documents through digital forensic examination //Image Process. Tech. 2020. V. 62. pp. 1781-1794.
8. Nguyen G. et al. Machine learning and deep learning frameworks and libraries for large-scale data mining: a survey //Artificial Intelligence Review. 2019. V. 52. pp. 77-124.
9. Albawi S., Mohammed T. A., Al-Zawi S. Understanding of a convolutional neural network //2017 international conference on engineering and technology (ICET). IEEE, 2017. PP. 1-6.
10. .Convolutional Neural Network (CNN) | by Raycad | Medium [Електронний ресурс] – Режим доступа: https://medium.com/raycad.seedotech/ convolutional-neural-network-cnn-8d1908c010ab (дата звертання: 28.04.25).
11. Input object. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/layers/core_layers/input/ (дата звертання: 28.04.25).
12. Ajit A., Acharya K., Samanta A. A review of convolutional neural networks //2020 international conference on emerging trends in information technology and engineering (ic-ETITE). IEEE, 2020. PP. 1-5.
13. O'Shea K., Nash R. An introduction to convolutional neural networks //arXiv preprint arXiv:1511.08458. 2015.
14. Матійчук Л., Готович В., Бонар В. Порівняння ефективності методів некерованого машинного навчання для виявлення аномалій в OBD2 даних. Вимірювальна та обчислювальна техніка в технологічних процесах. Хмельницький національний університет. (1), 2025. с. 407–414
15. Wang Y., Xiao Z., Cao G. A convolutional neural network method based on Adam optimizer with power-exponential learning rate for bearing fault diagnosis //Journal of Vibroengineering. 2022. V. 24. №. 4. PP. 666-678.
16. Bieder F., Sandkühler R., Cattin P. C. Comparison of methods generalizing max-and average-pooling //arXiv preprint arXiv:2103.01746. 2021.
17. Zhang Y. D. et al. A five-layer deep convolutional neural network with stochastic pooling for chest CT-based COVID-19 diagnosis //Machine Vision and Applications. 2021. V. 32. PP. 1-13.
18. MaxPooling2D layer. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/layers/pooling_layers/max_pooling2d/ (дата звертання: 28.04.25).
19. Л.В. Волинець, Н.А. Гарматюк, В.А. Готович. Великі за обсягом набори біомедичних даних та машинне навчання. Збірник тез доповідей XІI Міжнародної науково-практичної конференції молодих учених та студентів «АКТУАЛЬНІ ЗАДАЧІ СУЧАСНИХ ТЕХНОЛОГІЙ». – Тернопіль, 6-7 грудня 2023 р. с. 370-371
20. Zhao Y. et al. GUN: Gradual upsampling network for single image superresolution //IEEE Access. 2018. V. 6. PP. 39363-39374.
21. Szandała T. Review and comparison of commonly used activation functions for deep neural networks // Bio-inspired neurocomputing. 2021. PP. 203- 224.
22. UpSampling2D layer. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/layers/reshaping_layers/up_sampling2d/ (дата звертання: 28.04.25).
23. Gerstner W. et al. Neuronal dynamics: From single neurons to networks and models of cognition. – Cambridge University Press, 2014. Ping W. et al. Deep voice 3: Scaling text-to-speech with convolutional sequence learning //arXiv preprint arXiv:1710.07654. 2017.
24. Radu M. D., Costea I. M., Stan V. A. Automatic Traffic Sign Recognition Artificial Inteligence-Deep Learning Algorithm //2020 12th International Conference on Electronics, Computers and Artificial Intelligence (ECAI). IEEE, 2020. PP. 1-4.
25. Rasamoelina A. D., Adjailia F., Sinčák P. A review of activation function for artificial neural network //2020 IEEE 18th World Symposium on Applied Machine Intelligence and Informatics (SAMI). IEEE, 2020. PP. 281-286.
26. Krizhevsky A., Sutskever I., Hinton G. E. Imagenet classification with deep convolutional neural networks //Communications of the ACM. 2017. V. 60. №. 6. PP. 84-90.
27. В.І. Саламандра, В.А. Готович. Використання технології комп’ютерного зору для спрощення анімації персонажів. Збірник тез доповідей X Міжнародної науково-практичної конференції молодих учених та студентів "АКТУАЛЬНІ ЗАДАЧІ СУЧАСНИХ ТЕХНОЛОГІЙ". – Тернопіль, 24-25 листопада 2021 р. Том 1, с.118.
28. Lin M., Chen Q., Yan S. Network in network //arXiv preprint arXiv:1312.4400. 2013.
29. Nwankpa C. et al. Activation functions: Comparison of trends in practice and research for deep learning //arXiv preprint arXiv:1811.03378. 2018.
30. Es-Sabery F. et al. Sentence-level classification using parallel fuzzy deep learning classifier //IEEE Access. 2021. V. 9. PP. 17943-17985.
31. Layer activation functions. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/layers/activations/ (дата звертання: 28.04.25).
32. A Gentle Introduction to Batch Normalization for Deep Neural Networks [Електронний ресурс] – Режим доступа: https://machinelearningmastery.com/batch-normalization-fortraining-of-deep-neural-networks/ (дата звертання: 28.04.25).
33. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift //International conference on machine learning // Proceedings of Machine Learning Research, 2015. PP. 448-456.
34. Batch normalization in 3 levels of understanding | by Johann Huber | Towards Data Science [Електронний ресурс] – Режим доступа: https://towardsdatascience.com/batch-normalization-in-3-levels-of-understanding14c2da90a338#b93c (дата звертання: 28.04.25).
35. BatchNormalization layer. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/layers/normalization_layers/batch_normalization/ (дата звертання: 28.04.25).
36. VGG16 and VGG19. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/applications/vgg (дата звертання: 28.04.25).
37. Keras Applications. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/applications/ (дата звертання: 28.04.25).
38. The Architecture and Implementation of VGG-16 | by Vaibhav Khandelwal | Towards AI [Електронний ресурс] – Режим доступа: https://pub.towardsai.net/the-architecture-and-implementation-of-vgg-16- b050e5a5920b?gi=e5f8a6174a34 (дата звертання: 28.04.25).
39. ResNet and ResNetV2. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/applications/resnet/ (дата звертання: 28.04.25).
40. Ji Q. et al. Optimized deep convolutional neural networks for identification of macular diseases from optical coherence tomography images //Algorithms. 2019. V. 12. №. 3. PP. 51-52
41. He K. et al. Deep residual learning for image recognition //Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. PP. 770-778.
42. Ronneberger O., Fischer P., Brox T. U-net: Convolutional networks for biomedical image segmentation //Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18. Springer International Publishing, 2015. – PP. 234-241.
43. Jun T. J. et al. T-net: Nested encoder–decoder architecture for the main vessel segmentation in coronary angiography //Neural Networks. 2020. V. 128. PP. 216-233.
44. Zhao H. et al. Pyramid scene parsing network //Proceedings of the IEEE conference on computer vision and pattern recognition. 2017. PP. 2881-2890.
45. Model training APIs. Keras API reference [Електронний ресурс] – Режим доступа: https://keras.io/api/models/model_training_apis/ (дата звертання: 28.04.25).
46. Wang Y., Xiao Z., Cao G. A convolutional neural network method based on Adam optimizer with power-exponential learning rate for bearing fault diagnosis //Journal of Vibroengineering. 2022. V. 24. №. 4. PP. 666-678.
47. Yeung M. et al. Unified focal loss: Generalising dice and cross entropy-based losses to handle class imbalanced medical image segmentation //Computerized Medical Imaging and Graphics. 2022. V. 95. PP. 1020-1026.
48. Thoma M. A survey of semantic segmentation //arXiv preprint arXiv:1602.06541. 2016.
49. Passport Recognition Service by Evergreen [Електронний ресурс] – Режим доступа: https://ocr.solutions/en (дата звертання: 28.04.25).
50. IRISmart Security - ID and passport recognition software [Електронний ресурс] – Режим доступа: https://www.irislink.com/EN-GB/c2030/IRISmart-Security---ID-and-passport-recognition-software.aspx (дата звертання: 28.04.25).
51. Oleh Pastukh, Volodymyr Stefanyshyn, Ihor Baran, Ihor Yakymenko and Vasyl Vasylkiv. Mathematics and software for controlling mobile software devices based on brain activity signals. CEUR Workshop Proceedings, 2023, 3628, pp. 330–337.
52. Заікіна Д., Глива В. Основи охорони праці та безпека життєдіяльності. 2019. URL: https://doi.org/10.31435/rsglobal/001 (дата звернення: 14.05.2025).
53. Безпека в надзвичайних ситуаціях. Методичний посібник для здобувачів освітнього ступеня «магістр» всіх спеціальностей денної та заочної (дистанційної) форм навчання / укл.: Стручок В. С. Тернопіль: ФОП Паляниця В. А., 2022. 156 с.
Content type: Bachelor Thesis
Samling:122 — Компʼютерні науки (бакалаври)

Fulltext och övriga filer i denna post:
Fil Beskrivning StorlekFormat 
2025_KRB_SN-41_Dolna_OI.pdfДипломна робота1,15 MBAdobe PDFVisa/Öppna


Materialet i DSpace är upphovsrättsligt skyddat och får ej användas i kommersiellt syfte!

Narzędzia administratora