Ezzel az azonosítóval hivatkozhat erre a dokumentumra forrásmegjelölésben vagy hiperhivatkozás esetén:
http://elartu.tntu.edu.ua/handle/lib/48674
Title: | Дослідження впливу методів попередньої обробки текстових даних на якість класифікаційних моделей машинного навчання |
Other Titles: | Study of the impact of text data preprocessing methods on the quality of machine learning classification models |
Authors: | Цимбалюк, Гліб Олександр Богданович Tsymbaliuk, Glib Oleksandr |
Affiliation: | ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра комп’ютерних наук, м. Тернопіль, Україна |
Bibliographic description (Ukraine): | Цимбалюк Г. О. Б. Дослідження впливу методів попередньої обробки текстових даних на якість класифікаційних моделей машинного навчання : робота на здобуття кваліфікаційного ступеня магістра : спец. 122 – комп’ютерні науки / наук. кер. В. В. Никитюк. – Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2025. – 74 с. |
Bibliographic reference (2015): | Цимбалюк Г. О. Б. Дослідження впливу методів попередньої обробки текстових даних на якість класифікаційних моделей машинного навчання : робота на здобуття кваліфікаційного ступеня магістра : спец. 122 – комп’ютерні науки / наук. кер. В. В. Никитюк. – Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2025. – 74 с. |
Issue Date: | 29-máj-2025 |
Submitted date: | 14-máj-2025 |
Date of entry: | 1-jún-2025 |
Publisher: | ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна |
Country (code): | UA |
Place of the edition/event: | Тернопіль |
Supervisor: | Никитюк, Вячеслав Вячеславович Nykytyuk, Vyacheslav |
Committee members: | Загородна, Наталія Володимирівна Zagorodna, Nataliya |
UDC: | 004.89 |
Keywords: | 122 комп’ютерні науки обробка природної мови стемінг токенізація нормалізація лематизація класифікація natural language processing stemming normalization tokenization lemmatization classification |
Page range: | 74 |
Abstract: | Кваліфікаційна робота присвячена дослідженню впливу методів попередньої обробки текстових даних на точність кінцевої класифікаційної моделі. В першому розділі кваліфікаційної роботи описані задачі класифікації та інтелектуального аналізу ттекстових даних. Проведено огляд досліджень в галузів методів попередньої обробки текстових даних на якість класифікаційних моделей. В другому розділі кваліфікаційної роботи розглянуто теоретичні відомості про основні етапи класифікації даних, зокрема детально описано методики попередньої обробки тестових даних та традиційні і більш сучасні класифікаційні моделі, що використовуються в задачах обробки природної мови. В третьому розділі кваліфікаційної роботи описано вибір середовища для програмування, наведено основні переваги та недоліки. Обрано та описано відкритий набір даних для дослідження. Наведено експериментальних досліджень впливу різних методик попередньої обробки текстових даних на якість класифікації. Об’єкт дослідження: обробка природньої мови. Предмет дослідження: Методи попередньої обробки та інтелектуального аналізу в задачах обробки природної мови. Thesis is devoted to the study of the influence of text data pre-processing methods on the accuracy of the final classification model. The first chapter of the qualification paper describes the tasks of classification and intellectual analysis of text data. A review of research in the field of text data preprocessing methods on the quality of classification models is conducted. The second section of the qualification paper deals with theoretical information about the main stages of data classification, in particular, the methods of pre-processing test data and traditional and more modern classification models used in natural language processing tasks are described in detail. The third chapter of the qualification paper describes the choice of programming environment, the main advantages and disadvantages. The open data set for the study is selected and described. Experimental studies of the impact of various text data preprocessing techniques on the quality of classification are presented. Object of research: natural language processing. Subject of research: Methods of pre-processing and intelligent analysis in natural language processing tasks. |
Description: | Роботу виконано на кафедрі комп'ютерних наук Тернопільського національного технічного університету імені Івана Пулюя. Захист відбудеться 29.05.2025 р. о 15 год. 00 хв. на засіданні екзаменаційної комісії №33 у Тернопільському національному технічному університеті імені Івана Пулюя |
Content: | ВСТУП 8 1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 11 1.1 Поняття текстових даних у контексті штучного інтелекту 11 1.2 Інтелектуальний аналіз тексту та його основні етапи 13 1.3 Задачі класифікації текстових даних 17 1.4 NLP та зв’язок з класифікацією 20 1.5 Прикладні дослідження ефективності методів попередньої обробки текстових даних 22 1.6 Висновок до першого розділу 25 2 МЕТОДИ ПОПЕРЕДНЬОЇ ОБРОБКИ NLP ТА МОДЕЛІ КЛАСИФІКАЦІЇ ТЕКСТОВИХ ДАНИХ 26 2.1 Методи попередньої обробки NLP 26 2.1.1 Нормалізація тексту 26 2.1.2 Токенізація тексту 28 2.1.3 Стоп-слова 29 2.1.4 Стемінг 30 2.1.5 Лематизація 32 2.2 Основні моделі класифікації текстових даних 33 2.2.1 Формування простору ознак для моделей класичного навчання 34 2.2.2 Модель наївного Байеса 36 2.2.3 Логістична регресія 37 2.2.4 Метод опорних векторів 39 2.2.5 Інші мовні моделі 41 2.3 Оцінка точності класифікаційних моделей 44 2.4 Висновок до другого розділу 47 3 ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ ВПЛИВУ ПОПЕРЕДНЬОЇ ОБРОБКИ ТЕКСТОВИХ ДАНИХ НА ЯКІСТЬ КЛАСИФІКАЦІЇ 48 3.1 Вибір середовища 48 3.2 Огляд бібліотек та деяких основних функцій реалізації 50 3.2.1 Основні бібліотеки для NLP 50 3.2.2 Опис окремих функцій реалізації 52 3.3 Опис набору даних 55 3.4 Результати тестування 56 3.5 Висновок до третього розділу 60 4 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 61 4.1 Охорона праці 61 4.2 Безпека в надзвичайних ситуаціях 63 4.3 Висновок до четвертого розділу 68 ВИСНОВКИ 69 Перелік джерел 71 |
URI: | http://elartu.tntu.edu.ua/handle/lib/48674 |
Copyright owner: | © Цимбалюк Гліб Олександр Богданович |
References (Ukraine): | 1. Oleh Pastukh, Oleksandr Bryk Extraction of important data for cognitive software systems based on data science (2025) Scientific Journal of TNTU 117(1) P. 62-66 2. O.Pastukh, I.Stefanyshyn, V.Stefanyshyn, O.Bryk. Robustness evaluation of machine learning algorithms for neurocomputer interface software using distributed and parallel computing.- International Scientific Journal «Computer systems and information technologies».- 2024, 2, 82-88. 3. Zagorodna N., Stadnyk M., Lypa B., Gavrylov M., Kozak R. (2022). Network Attack Detection Using Machine Learning Methods. Challenges to national defence in contemporary geopolitical situation, 2022(1), 55-61. doi:10.47459/cndcgs.2022.7 4. Lypa, B., Horyn, I., Zagorodna, N., Tymoshchuk, D., & Lechachenko, T. (2025). Comparison of feature extraction tools for network traffic data. arXiv preprint arXiv:2501.13004 5. Lamba, Manika & Margam, Madhusudhan. (2022). Text Pre-Processing. In book: Text Mining for Information Professionals: An Uncharted Territory P.79-103 10.1007/978-3-030-85085-2_3. 6. Kamruzzaman, Sikder & Haider, Farhana & Hasan, Ahmed. (2010). Text Classification using Data Mining. https://www.researchgate.net/publication/360116833_Text_Pre-Processing 7. https://www.researchgate.net/publication/351544464_Classification_of_Arabic_Tweets_A_Review 8. Kowsari, K., Jafari Meimandi, K., Heidarysafa, M., Mendu, S., Barnes, L., & Brown, D. (2019). Text Classification Algorithms: A Survey. Information, 10(4), 150. https://doi.org/10.3390/info10040150 9. Vidhya, S & Danasingh, Asir Antony & EPIPHANY, JEBAMALAR LEAVLINE. (2015). Feature Extraction for Document Classification. 10. Eang, C., & Lee, S. (2024). Improving the Accuracy and Effectiveness of Text Classification Based on the Integration of the Bert Model and a Recurrent Neural Network (RNN_Bert_Based). Applied Sciences, 14(18), 8388. https://doi.org/10.3390/app14188388 11. Orlovskyi, O., & Ostapov, S. (2020). Analysis of the text preprocessing methods influence on the destructive messages classifier. Advanced Information Systems, 4(3), 104–108. https://doi.org/10.20998/2522-9052.2020.3.14 [http://ais.khpi.edu.ua/article/view/2522-9052.2020.3.14] 12. Roman B. Sergienko, Muhammad Shan, Wolfgang Minker:A Comparative Study of Text Preprocessing Approaches for Topic Detection of User Utterances. LREC 2016. 13. Denny, Matthew and Spirling, Arthur, Text Preprocessing for Unsupervised Learning: Why It Matters, When It Misleads, and What to Do about It (September 27, 2017). Available at SSRN: https://ssrn.com/abstract=2849145 or http://dx.doi.org/10.2139/ssrn.2849145. 14. Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press. 15. Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed.). Draft. 16. Kowsari, K., et al. (2019). Text Classification Algorithms: A Survey. ACM Computing Surveys, 52(3). 17. Camacho-Collados, J., & Pilehvar, M. T. (2018). From Word to Sense Embeddings. Journal of Artificial Intelligence Research. 18. Lamba, M., & Margam, M. (2022). Text Pre-Processing. In Text Mining for Information Professionals (pp. 79–103). https://doi.org/10.1007/978-3-030-85085-2_3 19. Glazkova, A. (2023). A comparison of text preprocessing techniques. Social Network Analysis and Mining, 13. https://doi.org/10.1007/s13278-023-01156-y 20. Denny, M., & Spirling, A. (2017). Text Preprocessing for Unsupervised Learning. https://doi.org/10.2139/ssrn.2849145 21. Qiang, Z., Taylor, K., & Wang, W. (2024). How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching? https://doi.org/10.48550/arXiv.2411.03962 22. Mikolov, T., et al. (2013). Efficient Estimation of Word Representations. arXiv. 23. Aliero, Abubakar & Bashir, Sulaimon & Aliyu, Hamzat & Tafida, Amina & Kangiwa, Bashar & Dankolo, Nasiru. (2023). Systematic Review on Text Normalization Techniques and its Approach to Non-Standard Words. International Journal of Computer Applications. 185. 975-8887. 24. Webster, Jonathan & Kit, Chunyu. (1992). Tokenization as the initial phase in NLP. 1106-1110. 10.3115/992424.992434. 25. Bojanowski, P., et al. (2017). Enriching Word Vectors. TACL. 26. Reimers, N., & Gurevych, I. (2019). Sentence-BERT. EMNLP. 27. Zhang, Y., & Wallace, B. (2017). A Sensitivity Analysis of CNNs. EMNLP. 28. Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O’Reilly. 29. https://kuprienko.info/ukrainian-stopwords/ 30. Jabbar, Abdul & Iqbal, Sajid & Tamimy, Manzoor & Rehman, Amjad & Bahaj, Saeed & Saba, Tanzila. (2023). An Analytical Analysis of Text Stemming Methodologies in Information Retrieval and Natural Language Processing Systems. IEEE Access. PP. 1-1. 10.1109/ACCESS.2023.3332710. 31. Khyani, Divya & B S, Siddhartha & Niveditha, N. & M., Divya & Y M, Dr. (2021). An Interpretation of Lemmatization and Stemming in Natural Language Processing. Shanghai Ligong Daxue Xuebao/Journal of University of Shanghai for Science and Technology. 22. 350-357. 32. Munawaroh, Khafifah & Alamsyah, Alamsyah. (2023). Performance Comparison of SVM, Naïve Bayes, and KNN Algorithms for Analysis of Public Opinion Sentiment Against COVID-19 Vaccination on Twitter. Journal of Advances in Information Systems and Technology. 4. 113-125. 10.15294/jaist.v4i2.59493. 33. Pranckevicius, Tomas & Marcinkevičius, Virginijus. (2016). Application of Logistic Regression with part-of-the-speech tagging for multi-class text classification. 1-5. 10.1109/AIEEE.2016.7821805. 34. Jannah, Nurul & Kusnawi, Kusnawi. (2024). Comparison of Naïve Bayes and SVM in Sentiment Analysis of Product Reviews on Marketplaces. Sinkron. 8. 727-733. 10.33395/sinkron.v8i2.13559. 35. Darji, Dhara & Goswami, Sachinkumar. (2024). The Comparative study of Python Libraries for Natural Language Processing (NLP). International Journal of Scientific Research in Computer Science, Engineering and Information Technology. 10. 499-512. 10.32628/CSEIT2410242. 36. Python vs R for Data Science [Електронний ресурс]. URL: https://www.stratascratch.com/blog/python-vs-r-for-data-science/ 37. UCI Reuters 50 50 [Електронний ресурс]. URL: https://www.kaggle.com/datasets/realabyszero/uci-reuters-50-50 38. ДСН 3.3.6.042-99. Санітарні норми мікроклімату виробничих приміщень. [Електронний ресурс]. URL: https://zakon.rada.gov.ua/rada/show/va042282-99#Text 39. Методичний посібник для здобувачів освітнього ступеня «магістр» всіх спеціальностей денної та заочної (дистанційної) форм навчання «БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ» / В.С. Стручок –Тернопіль: ФОП Паляниця В.А., – 156 с. Отримано з https://elartu.tntu.edu.ua/handle/lib/39196. |
Content type: | Master Thesis |
Ebben a gyűjteményben: | 122 — комп’ютерні науки |
Fájlok a dokumentumban:
Fájl | Leírás | Méret | Formátum | |
---|---|---|---|---|
2025_KRM_SNm-61_Tsymbaliuk_G_O_B.pdf | Дипломна робота | 2,42 MB | Adobe PDF | Megtekintés/Megnyitás |
Minden dokumentum, ami a DSpace rendszerben szerepel, szerzői jogokkal védett. Minden jog fenntartva!
Admin Tools