Mesedez, erabili identifikatzaile hau item hau aipatzeko edo estekatzeko: http://elartu.tntu.edu.ua/handle/lib/45436
Metadatuen erregistro osatua
DC eremuaBalioaHizkuntza
dc.contributor.advisorПастух, Олег Анатолійович-
dc.contributor.authorБабинець, Крістіна Михайлівна-
dc.contributor.authorBabynets, Kristina-
dc.date.accessioned2024-06-25T10:27:37Z-
dc.date.available2024-06-25T10:27:37Z-
dc.date.issued2024-06-
dc.identifier.citationБабинець К. М. Розробка системи для класифікації текстової інформації по категоріях : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 121 - інженерія програмного забезпечення / наук. кер. О. А. Пастух. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2024. 75 с.uk_UA
dc.identifier.urihttp://elartu.tntu.edu.ua/handle/lib/45436-
dc.description.abstractУ кваліфікаційній роботі на здобуття освітнього ступеня бакалавр виконано критичний огляд та кретичний аналіз методів, моделей, алгоритмів та програмного забезпечення для обробки та аналізу текстової інформації. Сформульовано актуальні завдання, які у подальшому вирішені у роботі щодо класифікації (категоризації) текстової інформації у вигляді завдання бінарної класифікації. Спроектовано та сконструйовано програмне забезпечення у вигляді програмної системи для бінарної класифікації текстової інформації, оцінено якість роботи програмної системи шляхом обчислення різних видів метрик для класифікації даних. Загальна архітектура обчислювального процесу представляє собою конвеєр різного роду операцій спершу для попередньої їх обробки (стемінг, лемантизація, видалення стоп-слів), а потім для основної їх обробки (бінарної класифікації на основі логістичної регресії). Програмно реалізовано можливість збереження основного програмного об’єкта – навченого алгоритму машинного навчання логістичної регресії у файловий компонент, який може у подальшому використовуватися сторонніми програмами. Для структуризації слабоструктурованих даних, якими є текстова інформація використано модель мішка слів. Для оцінювання точності використані метрики звичайної точності, f1-метрика та roc-auc метрика. Для наочності сприйняття та загалом розуміння величини похибки (або оберненої величини до неї - точності) бінарної класифікації програмно обчислені та візуалізовані нормована та не нормована матриці помилок, величина значень елементів головної діагоналі якої вказують на високу якість роботи алгоритму машинного навчання логістичної регресії, а величина елементів не головної діагоналі вказує на низьку якість.uk_UA
dc.description.abstractIn the qualifying work for obtaining a bachelor's degree, a critical review and critical analysis of methods, models, algorithms, and software for processing and analyzing textual information was performed. Actual tasks are formulated, which are subsequently solved in the work on the classification (categorization) of textual information in the form of a binary classification task. Software in the form of a software system for binary classification of text information was designed and constructed, the quality of the software system was evaluated by calculating various types of metrics for data classification. The general architecture of the computational process is a pipeline of various operations, first for their preliminary processing (stemming, lemmantization, removal of stop words), and then for their main processing (binary classification based on logistic regression). Software has implemented the possibility of saving the main software object - the trained logistic regression machine learning algorithm into a file component that can be used by thirdparty programs in the future. A bag of words model was used to structure loosely structured data, which is textual information. To evaluate the accuracy, the usual accuracy metrics, f1-metric and roc-auc metric were used. For clarity of perception and general understanding of the magnitude of the error (or the inverse of it - accuracy) of the binary classification, normalized and non-normalized error matrices were calculated and visualized by software, the magnitude of the values of the elements of the main diagonal of which indicate the high quality of the logistic regression machine learning algorithm, and the magnitude of the elements off the main diagonal indicates low quality.uk_UA
dc.description.tableofcontentsПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І ТЕРМІНІВ... 7 ВСТУП... 8 РОЗДІЛ 1. ОГЛЯД І АНАЛІЗ ПРИКЛАДНИХ МЕТОДІВ, ПРИКЛАДНИХ МОДЕЛЕЙ, АЛГОРИТМІВ ТА ПРИКЛАДНИХ ПРОГРАМНИХ ІНСТРУМЕНТІВ ДЛЯ ПРИКЛАДНОЇ ОБЛАСТІ ДАНОЇ РОБОТИ... 9 1.1. Критичний огляд та критичний аналіз прикладної області... 9 1.2. Завдання, які вирішуються при обробці текстової інформації... 11 1.3. Алгоритми для класифікації текстової інформації та гіперпараметри для керування ними... 13 1.4. Відбір інформативних ознак для текстової класифікації... 14 1.5. Мета, завдання кваліфікаційної роботи бакалавр... 16 РОЗДІЛ 2. ПРОЕКТУВАННЯ ПРИЦИЗІЙНОЇ ПРОГРАМНОЇ СИСТЕМИ ДЛЯ КЛАСИФІ-КАЦІЇ ТЕКСТОВОЇ ІНФОРМАЦІЇ ПО КАТЕГОРІЯХ... 18 2.1. Проектування архітектури прицизійної системи для класифікації текстової інформації по категоріях... 18 2.2. Деталювання процесу проектування прицизійної системи для класифікац. текстової інформац. по категоріях... 19 2.2.1. Проектування програмної компоненти для читання даних пандас... 19 2.2.2. Апріорне опрацювання інформації у форматі тексту... 22 2.3. Проектування трансформаційної структуризації текстової інформації... 31 2.4. Проектування наступних програмних компонент системи... 33 РОЗДІЛ 3. ПРАКТИЧНЕ КОНСТРУЮВАННЯ ПРИЦИЗІЙНОЇ ПРОГРАМНОЇ СИСТЕМИ ДЛЯ КЛАСИФІКАЦІЇ ТЕКСТОВОЇ ІНФОРМАЦІЇ ПО КАТЕГОРІЯХ... 37 3.1. Ввід вхідних даних у програмну прицизійну систему класифікації текстової інформації... 38 3.2. Селекція корпусу малого об’єму текстових документів... 41 3.3. Операція стемінг корпусу малого об’єму текстових документів... 43 3.4. Процес токенізації корпусу малого об’єму текстових документів... 44 3.5. Перехресна перевірка класифікатора логістичної регресії... 46 3.6. Розшеплення даних на навчальні та тестові сукупності... 48 3.7. Навчання та прийняття рішень класифікатором... 49 3.8. Оцінювання метрик якості... 50 3.9. Візуалізація нормованої та не нормованої матриць помилок... 51 3.10. Запис моделі у файл... 54 РОЗДІЛ 4. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ... 55 4.1. Ризик як кількісна оцінка небезпек... 55 4.2. Навчання працюючих і інструктажі з охорони праці... 58 ВИСНОВКИ... 61 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ... 62 ДОДАТКИ... 64 Додаток А Технічне завдання... 64 Додаток Б. Тези доповіді на конференції... 71uk_UA
dc.language.isoukuk_UA
dc.publisherТернопільський національний технічний університет імені Івана Пулюяuk_UA
dc.subjectPythonuk_UA
dc.subjectgensimuk_UA
dc.subjectScikit-learnuk_UA
dc.subjectАрхітектураuk_UA
dc.subjectМашинне навчанняuk_UA
dc.subjectтестуванняuk_UA
dc.subjectМатриціuk_UA
dc.subjectМішок слівuk_UA
dc.titleРозробка системи для класифікації тектової інформації по категоріяхuk_UA
dc.title.alternativeDevelopment of a system for classifying textual information by categoriesuk_UA
dc.typeBachelor Thesisuk_UA
dc.rights.holder© Бабинець Крістіна Михайлівна , 2024uk_UA
dc.contributor.committeeMemberКульчицький, Тарас Русланович-
dc.coverage.placenameТернопільuk_UA
dc.format.pages75-
dc.subject.udc004.9uk_UA
dc.relation.referencespandas documentation. URL: https://pandas.pydata.org/docs/uk_UA
dc.relation.referencesNumPy documentation. URL: https://numpy.org/devdocs/uk_UA
dc.relation.referencesПастух О.А., Яцишин В.В., Жаровський Р.О., Шаблій Н.Р. Software tool for productivity metrics measure of relational database management system // Математичне моделювання. 2023. №1 (48). С.7-17.uk_UA
dc.relation.referencesYatsyshyn V., Pastukh О., Palamar А., Zharovskyi R. Technology of relational database management systems performance evaluation during computer systems design // Scientific Journal of TNTU. 2023. №1. С. 54–65.uk_UA
dc.relation.referencesPastukh О., Yatsyshyn V. Brain-computer interaction neurointerface based on artificial intelligence and its parallel programming using high-performance calculation on cluster mobile devices // Scientific Journal of TNTU. 2023. №4. С. 26-31uk_UA
dc.relation.referencesPastukh O., Stefanyshyn V., Baran I., Yakymenko I., Vasylkiv V. Mathematics and software for controlling mobile software devices based on brain activity signals // The International Workshop on Information Technologies: Theoretical and Applied Problems (ITTAP-2023). 2023. №3628. С. 684–689.uk_UA
dc.relation.referencesPastukh O., Petryk M., Bachynskiy M., Mudryk I., Stefanyshyn V. Processing of Cerebral Cortex Neurosignals from EEG Sensors and RecognizinSpecific Types of Mechanical Movements Elements of Pacient Limbs under the Cognitive Feedback Influenses // International Workshop on Computer Information Technologies in Industry 4.0. 2023. №3468. С. 61–70.uk_UA
dc.relation.referencesYasniy O., Pastukh O., Didych I., Yatsyshyn V., Chykhira I. Application of machine learning for modeling of 6061-T651 aluminum alloy stress− strain diagram // Procedia Structural Integrity. 2023. №48. С. 183-189.uk_UA
dc.relation.referencesMatplotlib 3.8.3 documentation. URL: https://matplotlib.org/stable/index.htmluk_UA
dc.relation.referencesKeras 3 API documentation. URL: https://keras.io/api/uk_UA
dc.relation.referencesstatsmodels. URL: https://www.statsmodels.org/stable/api.htmluk_UA
dc.relation.referencesМелех Л.В. Безпека життєдіяльності та охорона праці : Навчальний посібник. Львів: Львівський державний університет внутрішніх справ. 2022. 219 с.uk_UA
dc.relation.referencesСокуренко В.В. Безпека життєдіяльності та охорона праці : Підручник. Харків: Харків. нац. ун-т внутр. справ. 2021. 308 с.uk_UA
dc.contributor.affiliationТернопільський національний технічний університет імені Івана Пулюяuk_UA
dc.coverage.countryUAuk_UA
Bildumetan azaltzen da:121 — Інженерія програмного забезпечення (бакалаври)

Item honetako fitxategiak:
Fitxategia Deskribapena TamainaFormatua 
dyplom_Babynets_2024.pdf4,36 MBAdobe PDFBistaratu/Ireki


DSpaceko itemak copyright bidez babestuta daude, eskubide guztiak gordeta, baldin eta kontrakoa adierazten ez bada.

Administratzailearen tresnak