Моля, използвайте този идентификатор за цитиране или линк към този публикация: http://elartu.tntu.edu.ua/handle/lib/45436
Заглавие: Розробка системи для класифікації тектової інформації по категоріях
Други Заглавия: Development of a system for classifying textual information by categories
Автори: Бабинець, Крістіна Михайлівна
Babynets, Kristina
Affiliation: Тернопільський національний технічний університет імені Івана Пулюя
Bibliographic description (Ukraine): Бабинець К. М. Розробка системи для класифікації текстової інформації по категоріях : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 121 - інженерія програмного забезпечення / наук. кер. О. А. Пастух. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2024. 75 с.
Дата на Публикуване: Юни-2024
Date of entry: 25-Юни-2024
Издател: Тернопільський національний технічний університет імені Івана Пулюя
Country (code): UA
Place of the edition/event: Тернопіль
Supervisor: Пастух, Олег Анатолійович
Committee members: Кульчицький, Тарас Русланович
UDC: 004.9
Ключови Думи: Python
gensim
Scikit-learn
Архітектура
Машинне навчання
тестування
Матриці
Мішок слів
Number of pages: 75
Резюме: У кваліфікаційній роботі на здобуття освітнього ступеня бакалавр виконано критичний огляд та кретичний аналіз методів, моделей, алгоритмів та програмного забезпечення для обробки та аналізу текстової інформації. Сформульовано актуальні завдання, які у подальшому вирішені у роботі щодо класифікації (категоризації) текстової інформації у вигляді завдання бінарної класифікації. Спроектовано та сконструйовано програмне забезпечення у вигляді програмної системи для бінарної класифікації текстової інформації, оцінено якість роботи програмної системи шляхом обчислення різних видів метрик для класифікації даних. Загальна архітектура обчислювального процесу представляє собою конвеєр різного роду операцій спершу для попередньої їх обробки (стемінг, лемантизація, видалення стоп-слів), а потім для основної їх обробки (бінарної класифікації на основі логістичної регресії). Програмно реалізовано можливість збереження основного програмного об’єкта – навченого алгоритму машинного навчання логістичної регресії у файловий компонент, який може у подальшому використовуватися сторонніми програмами. Для структуризації слабоструктурованих даних, якими є текстова інформація використано модель мішка слів. Для оцінювання точності використані метрики звичайної точності, f1-метрика та roc-auc метрика. Для наочності сприйняття та загалом розуміння величини похибки (або оберненої величини до неї - точності) бінарної класифікації програмно обчислені та візуалізовані нормована та не нормована матриці помилок, величина значень елементів головної діагоналі якої вказують на високу якість роботи алгоритму машинного навчання логістичної регресії, а величина елементів не головної діагоналі вказує на низьку якість.
In the qualifying work for obtaining a bachelor's degree, a critical review and critical analysis of methods, models, algorithms, and software for processing and analyzing textual information was performed. Actual tasks are formulated, which are subsequently solved in the work on the classification (categorization) of textual information in the form of a binary classification task. Software in the form of a software system for binary classification of text information was designed and constructed, the quality of the software system was evaluated by calculating various types of metrics for data classification. The general architecture of the computational process is a pipeline of various operations, first for their preliminary processing (stemming, lemmantization, removal of stop words), and then for their main processing (binary classification based on logistic regression). Software has implemented the possibility of saving the main software object - the trained logistic regression machine learning algorithm into a file component that can be used by thirdparty programs in the future. A bag of words model was used to structure loosely structured data, which is textual information. To evaluate the accuracy, the usual accuracy metrics, f1-metric and roc-auc metric were used. For clarity of perception and general understanding of the magnitude of the error (or the inverse of it - accuracy) of the binary classification, normalized and non-normalized error matrices were calculated and visualized by software, the magnitude of the values of the elements of the main diagonal of which indicate the high quality of the logistic regression machine learning algorithm, and the magnitude of the elements off the main diagonal indicates low quality.
Content: ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І ТЕРМІНІВ... 7 ВСТУП... 8 РОЗДІЛ 1. ОГЛЯД І АНАЛІЗ ПРИКЛАДНИХ МЕТОДІВ, ПРИКЛАДНИХ МОДЕЛЕЙ, АЛГОРИТМІВ ТА ПРИКЛАДНИХ ПРОГРАМНИХ ІНСТРУМЕНТІВ ДЛЯ ПРИКЛАДНОЇ ОБЛАСТІ ДАНОЇ РОБОТИ... 9 1.1. Критичний огляд та критичний аналіз прикладної області... 9 1.2. Завдання, які вирішуються при обробці текстової інформації... 11 1.3. Алгоритми для класифікації текстової інформації та гіперпараметри для керування ними... 13 1.4. Відбір інформативних ознак для текстової класифікації... 14 1.5. Мета, завдання кваліфікаційної роботи бакалавр... 16 РОЗДІЛ 2. ПРОЕКТУВАННЯ ПРИЦИЗІЙНОЇ ПРОГРАМНОЇ СИСТЕМИ ДЛЯ КЛАСИФІ-КАЦІЇ ТЕКСТОВОЇ ІНФОРМАЦІЇ ПО КАТЕГОРІЯХ... 18 2.1. Проектування архітектури прицизійної системи для класифікації текстової інформації по категоріях... 18 2.2. Деталювання процесу проектування прицизійної системи для класифікац. текстової інформац. по категоріях... 19 2.2.1. Проектування програмної компоненти для читання даних пандас... 19 2.2.2. Апріорне опрацювання інформації у форматі тексту... 22 2.3. Проектування трансформаційної структуризації текстової інформації... 31 2.4. Проектування наступних програмних компонент системи... 33 РОЗДІЛ 3. ПРАКТИЧНЕ КОНСТРУЮВАННЯ ПРИЦИЗІЙНОЇ ПРОГРАМНОЇ СИСТЕМИ ДЛЯ КЛАСИФІКАЦІЇ ТЕКСТОВОЇ ІНФОРМАЦІЇ ПО КАТЕГОРІЯХ... 37 3.1. Ввід вхідних даних у програмну прицизійну систему класифікації текстової інформації... 38 3.2. Селекція корпусу малого об’єму текстових документів... 41 3.3. Операція стемінг корпусу малого об’єму текстових документів... 43 3.4. Процес токенізації корпусу малого об’єму текстових документів... 44 3.5. Перехресна перевірка класифікатора логістичної регресії... 46 3.6. Розшеплення даних на навчальні та тестові сукупності... 48 3.7. Навчання та прийняття рішень класифікатором... 49 3.8. Оцінювання метрик якості... 50 3.9. Візуалізація нормованої та не нормованої матриць помилок... 51 3.10. Запис моделі у файл... 54 РОЗДІЛ 4. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ... 55 4.1. Ризик як кількісна оцінка небезпек... 55 4.2. Навчання працюючих і інструктажі з охорони праці... 58 ВИСНОВКИ... 61 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ... 62 ДОДАТКИ... 64 Додаток А Технічне завдання... 64 Додаток Б. Тези доповіді на конференції... 71
URI: http://elartu.tntu.edu.ua/handle/lib/45436
Copyright owner: © Бабинець Крістіна Михайлівна , 2024
References (Ukraine): pandas documentation. URL: https://pandas.pydata.org/docs/
NumPy documentation. URL: https://numpy.org/devdocs/
Пастух О.А., Яцишин В.В., Жаровський Р.О., Шаблій Н.Р. Software tool for productivity metrics measure of relational database management system // Математичне моделювання. 2023. №1 (48). С.7-17.
Yatsyshyn V., Pastukh О., Palamar А., Zharovskyi R. Technology of relational database management systems performance evaluation during computer systems design // Scientific Journal of TNTU. 2023. №1. С. 54–65.
Pastukh О., Yatsyshyn V. Brain-computer interaction neurointerface based on artificial intelligence and its parallel programming using high-performance calculation on cluster mobile devices // Scientific Journal of TNTU. 2023. №4. С. 26-31
Pastukh O., Stefanyshyn V., Baran I., Yakymenko I., Vasylkiv V. Mathematics and software for controlling mobile software devices based on brain activity signals // The International Workshop on Information Technologies: Theoretical and Applied Problems (ITTAP-2023). 2023. №3628. С. 684–689.
Pastukh O., Petryk M., Bachynskiy M., Mudryk I., Stefanyshyn V. Processing of Cerebral Cortex Neurosignals from EEG Sensors and RecognizinSpecific Types of Mechanical Movements Elements of Pacient Limbs under the Cognitive Feedback Influenses // International Workshop on Computer Information Technologies in Industry 4.0. 2023. №3468. С. 61–70.
Yasniy O., Pastukh O., Didych I., Yatsyshyn V., Chykhira I. Application of machine learning for modeling of 6061-T651 aluminum alloy stress− strain diagram // Procedia Structural Integrity. 2023. №48. С. 183-189.
Matplotlib 3.8.3 documentation. URL: https://matplotlib.org/stable/index.html
Keras 3 API documentation. URL: https://keras.io/api/
statsmodels. URL: https://www.statsmodels.org/stable/api.html
Мелех Л.В. Безпека життєдіяльності та охорона праці : Навчальний посібник. Львів: Львівський державний університет внутрішніх справ. 2022. 219 с.
Сокуренко В.В. Безпека життєдіяльності та охорона праці : Підручник. Харків: Харків. нац. ун-т внутр. справ. 2021. 308 с.
Content type: Bachelor Thesis
Показва се в Колекции:121 — Інженерія програмного забезпечення (бакалаври)

Файлове в Този Публикация:
Файл Описание РазмерФормат 
dyplom_Babynets_2024.pdf4,36 MBAdobe PDFИзглед/Отваряне


Публикацияте в DSpace са защитени с авторско право, с всички права запазени, освен ако не е указно друго.

Админ Инструменти