Математичне та програмне забезпечення розпізнавання написів на зображеннях на основі нейромережевого алгоритму в комп’ютеризованих системах

Чарковський, Дмитро Русланович; Charkovskyi, Dmytro

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://elartu.tntu.edu.ua/handle/lib/43322

Назва:	Математичне та програмне забезпечення розпізнавання написів на зображеннях на основі нейромережевого алгоритму в комп’ютеризованих системах
Інші назви:	Mathematics and software for image recognition of inscriptions based on neural network algorithm in computerized systems
Автори:	Чарковський, Дмитро Русланович Charkovskyi, Dmytro
Приналежність:	Тернопільський національний технічний університет імені Івана Пулюя Ternopil Ivan Puluj National Technical University
Бібліографічний опис:	Чарковський Д. Р. Математичне та програмне забезпечення розпізнавання написів на зображеннях на основі нейромережевого алгоритму в комп’ютеризованих системах : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „123 — комп’ютерна інженерія“ / Д. Р. Чарковський. — Тернопіль: ТНТУ, 2023. — 74 с.
Bibliographic description:	Charkovskyi D. Mathematics and software for image recognition of inscriptions based on neural network algorithm in computerized systems : Master Thesis „123 — Computer Engineering“ / Dmytro Charkovskyi - Ternopil, TNTU, 2023 – 74 p.
Дата публікації:	22-гру-2023
Дата подання:	29-чер-2023
Дата внесення:	3-січ-2024
Видавництво:	Тернопільський національний технічний університет імені Івана Пулюя
Країна (код):	UA
Місце видання, проведення:	Тернопільський національний технічний університет імені Івана Пулюя
Науковий керівник:	Стадник, Наталія Богданівна Stadnyk, Natalia
Члени комітету:	Цуприк, Галина Богданівна Tsupryk, Halyna
УДК:	004.89:004.93
Теми:	123 комп’ютерна інженерія нейронні мережі згорткова нейронна мережа машинне навчання текстові області обробка зображень neural networks convolutional neural network machine learning image processing text areas
Кількість сторінок:	74
Короткий огляд (реферат):	Кваліфікаційна робота присвячена дослідженню нейромережевого розпізнавання написів на зображеннях. У процесі дослідження було проведено аналіз існуючих моделей виявлення текстових областей на зображеннях реальних сцен, виходячи з якого було зроблено вибір моделі для подальшої реалізації. В результаті було запропоновано нейромережевий алгоритм розпізнавання написів на зображення реальних сцен. Реалізація алгоритму передбачає побудову згорткової нейронної мережі U-Net. Для навчання мережі використовується база зображення KAIST, що знаходиться у відкритому доступі. Результатом роботи алгоритму для кожного зображення є маска даного зображення, де відзначені текстові області. Було проведено порівняння з роботами, які проводили тестування на аналогічній базі зображень, під час якого запропонований алгоритм показав найкращі результати. В результаті кінцевого навчання нейромережевого алгоритму вдалося досягти високої точності: 91,1% для навчальної вибірки, 90,0% для валідаційної та 88,0% для тестової. The thesis deals with the study of neural network recognition of inscriptions on images. In the process of research, an analysis of existing models for detecting text areas on images of real scenes was carried out, based on which a model was selected for further implementation. As a result, a neural network algorithm for recognizing inscriptions on images of real scenes was proposed. The implementation of the algorithm involves the construction of a U-Net convolutional neural network. The publicly available KAIST image database is used to train the network. The result of the algorithm for each image is a mask of this image, where the text areas are marked. A comparison was made with works that conducted testing on a similar image database, during which the proposed algorithm showed the best results. As a result of the final training of the neural network algorithm, it was possible to achieve high accuracy: 91.1% for the training sample, 90.0% for the validation sample, and 88.0% for the test sample.
Зміст:	ВСТУП 9 РОЗДІЛ 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ ДОСЛІДЖЕННЯ 12 1.1 Методи зв'язаних компонентів 12 1.2 Текстурні методи 14 1.3 Методи глибокого навчання 18 1.4 Порівняння методів детектування текстових областей на зображеннях 21 1.5. Висновки до розділу 23 РОЗДІЛ 2. ТЕОРЕТИЧНА ЧАСТИНА 24 2.1. Використовувані інструменти 24 2.2. Модулі програми для навчання згорткової нейронної мережі 26 2.3. Архітектура програмного забезпечення 27 2.4. Опис структури мережі 28 2.5. Параметри оцінки під час навчання мережі 30 2.6. Фільтри для обробки зображень 31 2.7. Перетворення Фур'є 33 2.8. Частотні фільтри, що згладжують 34 2.9. Висновки до розділу 35 РОЗДІЛ 3. ПРАКТИЧНА ЧАСТИНА. 36 3.1. Підбір розмірів вхідних зображень 36 3.2. Підбір кількості шарів 39 3.3. Підбір типів згорткових шарів 40 3.4. Передобробка вхідних зображень 41 3.5. Частотний аналіз з використанням перетворення Фур'є 46 3.6. Розбиття та стиснення зображень перед подачею на вхід мережі 50 3.7. Порівняння з іншими роботами 55 3.8. Висновки до розділу 58 РОЗДІЛ 4. ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 59 4.1. Охорона праці 59 4.2. Комп’ютерне забезпечення процесу оцінки радіаційної та хімічної обстановки 62 4.3. Висновки до розділу 64 ВИСНОВКИ 65 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 66 ДОДАТОК А. Тези конференції ДОДАТОК Б. Фрагмент коду навчання мережі
URI (Уніфікований ідентифікатор ресурсу):	http://elartu.tntu.edu.ua/handle/lib/43322
Власник авторського права:	© Чарковський Дмитро Русланович, 2023 © Charkovskyi Dmytro, 2023
Перелік літератури:	1. Text line segmentation in historical document images using an adaptive U– Net architecture / O. Mechi, M. Mehri, R. Ingold, and N. Essoukri Ben Amara // 2019 International Conference on Document Analysis and Recognition (ICDAR). 2019. Р.369- 374. 2. A new U-Net based license plate enhancement model in night and day images / P. N. Chowdhury, P. Shivakumara, R. Raghavendra, U. Pal, T. Lu and M. Blumenstein // The 5th Asian Conference on Pattern Recognition. 2019. P.749-763. 3. Дуже просто про геокодування. URL: http://www.50northspatial.org/ua/ introduction-to-geocoding/ (дата звертання 07.12.2023). 4. Басюк Т.М. та ін. Машинне навчання: Навчальний посібник Львів: Видавництво «Новий Світ - 2000», 2021. 315 с. 5. Кононова К. Ю. Машинне навчання: методи та моделі. Харків: ХНУ імені В. Н. Каразіна, 2020. 301 с. 6. Robust wide-baseline stereo from maximally stable extremal regions / J. Matas, O. Chum, M. Urban, and T. Pajdla // Image and Vision Computing. 2004. Vol. 22, №10. P.761-767. 7. Neumann L. Real-time scene text localization and recognition / L. Neumann, J. Matas // 2012 IEEE Conference on Computer Vision and Pattern Recognition. 2012. P.3538-3545. 8. Epshtein B. Detecting text in natural scenes with stroke width transform / B. Epshtein, E. Ofek, Y. Wexler // 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2010. P.2963-2970. 9. Ahmed N. Discrete Cosine Transform / N. Ahmed, T. Natarajan, K. R. Rao // IEEE Transactions on Computers. 1974. Vol. C-23, №1. P.90-93. 10. Zhong Y. Automatic caption localization in compressed video / Y. Zhong, H. Zhang and A. K. Jain // Pattern Analysis and Machine Intelligence, IEEE Transactions on. 2000. Vol. 22, №4. P.385-392. 11. Dalal N. Histograms of Oriented Gradients for Human Detection / N. Dalal, B. Triggs // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05) 2005. Vol. 1. P.886-893. 12. Czarnek N. Physically Motivated Feature Development for Machine Learning Applications // Department of Electrical and Computer Engineering Duke University. 2017. 13. Viola P. Rapid Object Detection using a Boosted Cascade of Simple Features / P. Viola, M. Jones // Proceedings of the 2001 IEEE Computer Society 88 Conference on Computer Vision and Pattern Recognition. 2001. Vol. 1. P.511- 518. 14. Ghorbel A. Generalized Haar-like filters for document analysis: application to word spotting and text extraction from comics // Document and Text Processing. Université de La Rochelle. 2016. 15. Chen X. Detecting and reading text in natural scenes / X. Chen and A. L. Yuille // Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2004. Vol. 2. P.366-373. 16. Schmidhuber J. Deep learning in neural networks: An overview // Neural Networks. 2015. Vol. 61. P.85-117. 17. Bengio, Y. Deep Learning / Y. Bengio, Y. LeCun, G. Hinton // Nature. 2015. Vol. 521. P. 436–444. 18. Goodfellow I. J. Multi-digit number recognition from street view imagery using deep convolutional neural networks / I. J. Goodfellow, Y. Bulatov, J. Ibarz, S. Arnoud, V.Shet // Proceedings of the International Conference on Learning Representations (ICLR). 2014. 19. Zhang, Z. Multi-oriented text detection with fully convolutional networks. / Z. Zhang, C. Zhang, W. Shen, C. Yao, W. Liu, X. Bai // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. P.4159-4167. 20. Ronneberger O. U-net: Convolutional networks for biomedical image segmentation / O. Ronneberger, P. Fischer, T. Brox // Medical Image Computing and Computer-Assisted Intervention. 2015. Vol. 9351. P.234-241. 21. Bezmaternykh P.V. U-Net-bin: hacking the document image binarization contest / P.V. Bezmaternykh, D.A. Ilin, D.P. Nikolaev // Computer Optics. 2019. Vol. 43 №5. P.825-832. 22. Нейроподібні методи, алгоритми та структури обробки зображень у реальному часі: монографія / Ю. М. Рашкевич, Р. О. Ткаченко, І. Г. Цмоць, Д. Д. Пелешко ; НУ Львівська політехніка. Львів: Вид-во Львів. політехніки, 2014. 256 с. : іл. 23. Чарковський Д.Р., Стадник Н.Б. Методи детектування текстових областей на зображеннях. Інформаційні моделі, системи та технології: Праці XІ наук.-техн. конф. (Тернопіль, 13-14 грудня 2023 р.), Тернопіль, 2023. С. 192. 24. Machine Learning with Python. URL: https://www.freecodecamp.org/learn/ machine-learning-with-python/ (дата звертання 12.12.2023). 25. Васильєв О. Програмування мовою Python. К. : Навчальна книга Богдан, 2019. 418 с. 26. Keras: The Python Deep Learning librarу URL: https://keras.io/ (дата звертання 24.11.23). 27. NumPy. URL: http://www.numpy.org/ (дата звертання 24.11.23). 28. Bai B. A Seed-Based Segmentation Method for Scene Text Extraction / B. Bai, F. Yin and C. L. Liu // 11th IAPR International Workshop on Document Analysis Systems. 2014. P.262-266. 29. Agrawal A. Enhanced characterness for text detection in the wild / A. Agrawal, P. Mukherjee, S. Srivastava, B. Lall // Proceedings of 2nd International Conference on Computer Vision & Image Processing. 2018. P. 359-369. 30. Gomez L. A fast hierarchical method for multi-script and arbitrary oriented scene text extraction / L. Gomez, D. Karatzas // International Journal on Document Analysis and Recognition. 2016. Vol. 19, №4. P.335-349. 31. Lee J. Page segmentation using a convolutional neural network with trainable co–occurrence features. / J. Lee, H. Hayashi, W. Ohyama, S. Uchida // 2019 International Conference on Document Analysis and Recognition (ICDAR). 2019. P.1023-1028. 32. Wick C. Fully convolutional neural networks for page segmentation of historical document images / C. Wick, F. Puppe // 13th IAPR International Workshop on Document Analysis Systems (DAS). 208. P. 287-292. 33. Толок А.О. Крюковська О.А. Безпека життєдіяльності: Навч. посібник. 2011. 215 с. 34. Зеркалов Д.В. Охорона праці в галузі: Загальні вимоги. Навчальний посібник. К.: Основа. 2011. 551 с.
Тип вмісту:	Master Thesis
Розташовується у зібраннях:	123 — комп’ютерна інженерія

Файли цього матеріалу:

Файл	Опис	Розмір	Формат
Author_Notes_Dmytro_Charkovskyi.docx		10,49 kB	Microsoft Word XML	Переглянути/відкрити
Dmytro_Charkovskyi.pdf		2,35 MB	Adobe PDF	Переглянути/відкрити

Показати повний опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

Інструменти адміністратора