Bu öğeden alıntı yapmak, öğeye bağlanmak için bu tanımlayıcıyı kullanınız: http://elartu.tntu.edu.ua/handle/lib/48674
Tüm üstveri kaydı
Dublin Core AlanıDeğerDil
dc.contributor.advisorНикитюк, Вячеслав Вячеславович-
dc.contributor.advisorNykytyuk, Vyacheslav-
dc.contributor.authorЦимбалюк, Гліб Олександр Богданович-
dc.contributor.authorTsymbaliuk, Glib Oleksandr-
dc.date.accessioned2025-06-01T12:08:45Z-
dc.date.available2025-06-01T12:08:45Z-
dc.date.issued2025-05-29-
dc.date.submitted2025-05-14-
dc.identifier.citationЦимбалюк Г. О. Б. Дослідження впливу методів попередньої обробки текстових даних на якість класифікаційних моделей машинного навчання : робота на здобуття кваліфікаційного ступеня магістра : спец. 122 – комп’ютерні науки / наук. кер. В. В. Никитюк. – Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2025. – 74 с.uk_UA
dc.identifier.urihttp://elartu.tntu.edu.ua/handle/lib/48674-
dc.descriptionРоботу виконано на кафедрі комп'ютерних наук Тернопільського національного технічного університету імені Івана Пулюя. Захист відбудеться 29.05.2025 р. о 15 год. 00 хв. на засіданні екзаменаційної комісії №33 у Тернопільському національному технічному університеті імені Івана Пулюяuk_UA
dc.description.abstractКваліфікаційна робота присвячена дослідженню впливу методів попередньої обробки текстових даних на точність кінцевої класифікаційної моделі. В першому розділі кваліфікаційної роботи описані задачі класифікації та інтелектуального аналізу ттекстових даних. Проведено огляд досліджень в галузів методів попередньої обробки текстових даних на якість класифікаційних моделей. В другому розділі кваліфікаційної роботи розглянуто теоретичні відомості про основні етапи класифікації даних, зокрема детально описано методики попередньої обробки тестових даних та традиційні і більш сучасні класифікаційні моделі, що використовуються в задачах обробки природної мови. В третьому розділі кваліфікаційної роботи описано вибір середовища для програмування, наведено основні переваги та недоліки. Обрано та описано відкритий набір даних для дослідження. Наведено експериментальних досліджень впливу різних методик попередньої обробки текстових даних на якість класифікації. Об’єкт дослідження: обробка природньої мови. Предмет дослідження: Методи попередньої обробки та інтелектуального аналізу в задачах обробки природної мови.uk_UA
dc.description.abstractThesis is devoted to the study of the influence of text data pre-processing methods on the accuracy of the final classification model. The first chapter of the qualification paper describes the tasks of classification and intellectual analysis of text data. A review of research in the field of text data preprocessing methods on the quality of classification models is conducted. The second section of the qualification paper deals with theoretical information about the main stages of data classification, in particular, the methods of pre-processing test data and traditional and more modern classification models used in natural language processing tasks are described in detail. The third chapter of the qualification paper describes the choice of programming environment, the main advantages and disadvantages. The open data set for the study is selected and described. Experimental studies of the impact of various text data preprocessing techniques on the quality of classification are presented. Object of research: natural language processing. Subject of research: Methods of pre-processing and intelligent analysis in natural language processing tasks.uk_UA
dc.description.tableofcontentsВСТУП 8 1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 11 1.1 Поняття текстових даних у контексті штучного інтелекту 11 1.2 Інтелектуальний аналіз тексту та його основні етапи 13 1.3 Задачі класифікації текстових даних 17 1.4 NLP та зв’язок з класифікацією 20 1.5 Прикладні дослідження ефективності методів попередньої обробки текстових даних 22 1.6 Висновок до першого розділу 25 2 МЕТОДИ ПОПЕРЕДНЬОЇ ОБРОБКИ NLP ТА МОДЕЛІ КЛАСИФІКАЦІЇ ТЕКСТОВИХ ДАНИХ 26 2.1 Методи попередньої обробки NLP 26 2.1.1 Нормалізація тексту 26 2.1.2 Токенізація тексту 28 2.1.3 Стоп-слова 29 2.1.4 Стемінг 30 2.1.5 Лематизація 32 2.2 Основні моделі класифікації текстових даних 33 2.2.1 Формування простору ознак для моделей класичного навчання 34 2.2.2 Модель наївного Байеса 36 2.2.3 Логістична регресія 37 2.2.4 Метод опорних векторів 39 2.2.5 Інші мовні моделі 41 2.3 Оцінка точності класифікаційних моделей 44 2.4 Висновок до другого розділу 47 3 ЕКСПЕРИМЕНТАЛЬНЕ ДОСЛІДЖЕННЯ ВПЛИВУ ПОПЕРЕДНЬОЇ ОБРОБКИ ТЕКСТОВИХ ДАНИХ НА ЯКІСТЬ КЛАСИФІКАЦІЇ 48 3.1 Вибір середовища 48 3.2 Огляд бібліотек та деяких основних функцій реалізації 50 3.2.1 Основні бібліотеки для NLP 50 3.2.2 Опис окремих функцій реалізації 52 3.3 Опис набору даних 55 3.4 Результати тестування 56 3.5 Висновок до третього розділу 60 4 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 61 4.1 Охорона праці 61 4.2 Безпека в надзвичайних ситуаціях 63 4.3 Висновок до четвертого розділу 68 ВИСНОВКИ 69 Перелік джерел 71uk_UA
dc.format.extent74-
dc.language.isoukuk_UA
dc.publisherТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Українаuk_UA
dc.subject122uk_UA
dc.subjectкомп’ютерні наукиuk_UA
dc.subjectобробка природної мовиuk_UA
dc.subjectстемінгuk_UA
dc.subjectтокенізаціяuk_UA
dc.subjectнормалізаціяuk_UA
dc.subjectлематизаціяuk_UA
dc.subjectкласифікаціяuk_UA
dc.subjectnatural language processinguk_UA
dc.subjectstemminguk_UA
dc.subjectnormalizationuk_UA
dc.subjecttokenizationuk_UA
dc.subjectlemmatizationuk_UA
dc.subjectclassificationuk_UA
dc.titleДослідження впливу методів попередньої обробки текстових даних на якість класифікаційних моделей машинного навчанняuk_UA
dc.title.alternativeStudy of the impact of text data preprocessing methods on the quality of machine learning classification modelsuk_UA
dc.typeMaster Thesisuk_UA
dc.rights.holder© Цимбалюк Гліб Олександр Богдановичuk_UA
dc.contributor.committeeMemberЗагородна, Наталія Володимирівна-
dc.contributor.committeeMemberZagorodna, Nataliya-
dc.coverage.placenameТернопільuk_UA
dc.subject.udc004.89uk_UA
dc.relation.references1. Oleh Pastukh, Oleksandr Bryk Extraction of important data for cognitive software systems based on data science (2025) Scientific Journal of TNTU 117(1) P. 62-66uk_UA
dc.relation.references2. O.Pastukh, I.Stefanyshyn, V.Stefanyshyn, O.Bryk. Robustness evaluation of machine learning algorithms for neurocomputer interface software using distributed and parallel computing.- International Scientific Journal «Computer systems and information technologies».- 2024, 2, 82-88.uk_UA
dc.relation.references3. Zagorodna N., Stadnyk M., Lypa B., Gavrylov M., Kozak R. (2022). Network Attack Detection Using Machine Learning Methods. Challenges to national defence in contemporary geopolitical situation, 2022(1), 55-61. doi:10.47459/cndcgs.2022.7uk_UA
dc.relation.references4. Lypa, B., Horyn, I., Zagorodna, N., Tymoshchuk, D., & Lechachenko, T. (2025). Comparison of feature extraction tools for network traffic data. arXiv preprint arXiv:2501.13004uk_UA
dc.relation.references5. Lamba, Manika & Margam, Madhusudhan. (2022). Text Pre-Processing. In book: Text Mining for Information Professionals: An Uncharted Territory P.79-103 10.1007/978-3-030-85085-2_3.uk_UA
dc.relation.references6. Kamruzzaman, Sikder & Haider, Farhana & Hasan, Ahmed. (2010). Text Classification using Data Mining. https://www.researchgate.net/publication/360116833_Text_Pre-Processinguk_UA
dc.relation.references7. https://www.researchgate.net/publication/351544464_Classification_of_Arabic_Tweets_A_Reviewuk_UA
dc.relation.references8. Kowsari, K., Jafari Meimandi, K., Heidarysafa, M., Mendu, S., Barnes, L., & Brown, D. (2019). Text Classification Algorithms: A Survey. Information, 10(4), 150. https://doi.org/10.3390/info10040150uk_UA
dc.relation.references9. Vidhya, S & Danasingh, Asir Antony & EPIPHANY, JEBAMALAR LEAVLINE. (2015). Feature Extraction for Document Classification.uk_UA
dc.relation.references10. Eang, C., & Lee, S. (2024). Improving the Accuracy and Effectiveness of Text Classification Based on the Integration of the Bert Model and a Recurrent Neural Network (RNN_Bert_Based). Applied Sciences, 14(18), 8388. https://doi.org/10.3390/app14188388uk_UA
dc.relation.references11. Orlovskyi, O., & Ostapov, S. (2020). Analysis of the text preprocessing methods influence on the destructive messages classifier. Advanced Information Systems, 4(3), 104–108. https://doi.org/10.20998/2522-9052.2020.3.14 [http://ais.khpi.edu.ua/article/view/2522-9052.2020.3.14]uk_UA
dc.relation.references12. Roman B. Sergienko, Muhammad Shan, Wolfgang Minker:A Comparative Study of Text Preprocessing Approaches for Topic Detection of User Utterances. LREC 2016.uk_UA
dc.relation.references13. Denny, Matthew and Spirling, Arthur, Text Preprocessing for Unsupervised Learning: Why It Matters, When It Misleads, and What to Do about It (September 27, 2017). Available at SSRN: https://ssrn.com/abstract=2849145 or http://dx.doi.org/10.2139/ssrn.2849145.uk_UA
dc.relation.references14. Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.uk_UA
dc.relation.references15. Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed.). Draft.uk_UA
dc.relation.references16. Kowsari, K., et al. (2019). Text Classification Algorithms: A Survey. ACM Computing Surveys, 52(3).uk_UA
dc.relation.references17. Camacho-Collados, J., & Pilehvar, M. T. (2018). From Word to Sense Embeddings. Journal of Artificial Intelligence Research.uk_UA
dc.relation.references18. Lamba, M., & Margam, M. (2022). Text Pre-Processing. In Text Mining for Information Professionals (pp. 79–103). https://doi.org/10.1007/978-3-030-85085-2_3uk_UA
dc.relation.references19. Glazkova, A. (2023). A comparison of text preprocessing techniques. Social Network Analysis and Mining, 13. https://doi.org/10.1007/s13278-023-01156-yuk_UA
dc.relation.references20. Denny, M., & Spirling, A. (2017). Text Preprocessing for Unsupervised Learning. https://doi.org/10.2139/ssrn.2849145uk_UA
dc.relation.references21. Qiang, Z., Taylor, K., & Wang, W. (2024). How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching? https://doi.org/10.48550/arXiv.2411.03962uk_UA
dc.relation.references22. Mikolov, T., et al. (2013). Efficient Estimation of Word Representations. arXiv.uk_UA
dc.relation.references23. Aliero, Abubakar & Bashir, Sulaimon & Aliyu, Hamzat & Tafida, Amina & Kangiwa, Bashar & Dankolo, Nasiru. (2023). Systematic Review on Text Normalization Techniques and its Approach to Non-Standard Words. International Journal of Computer Applications. 185. 975-8887.uk_UA
dc.relation.references24. Webster, Jonathan & Kit, Chunyu. (1992). Tokenization as the initial phase in NLP. 1106-1110. 10.3115/992424.992434.uk_UA
dc.relation.references25. Bojanowski, P., et al. (2017). Enriching Word Vectors. TACL.uk_UA
dc.relation.references26. Reimers, N., & Gurevych, I. (2019). Sentence-BERT. EMNLP.uk_UA
dc.relation.references27. Zhang, Y., & Wallace, B. (2017). A Sensitivity Analysis of CNNs. EMNLP.uk_UA
dc.relation.references28. Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O’Reilly.uk_UA
dc.relation.references29. https://kuprienko.info/ukrainian-stopwords/uk_UA
dc.relation.references30. Jabbar, Abdul & Iqbal, Sajid & Tamimy, Manzoor & Rehman, Amjad & Bahaj, Saeed & Saba, Tanzila. (2023). An Analytical Analysis of Text Stemming Methodologies in Information Retrieval and Natural Language Processing Systems. IEEE Access. PP. 1-1. 10.1109/ACCESS.2023.3332710.uk_UA
dc.relation.references31. Khyani, Divya & B S, Siddhartha & Niveditha, N. & M., Divya & Y M, Dr. (2021). An Interpretation of Lemmatization and Stemming in Natural Language Processing. Shanghai Ligong Daxue Xuebao/Journal of University of Shanghai for Science and Technology. 22. 350-357.uk_UA
dc.relation.references32. Munawaroh, Khafifah & Alamsyah, Alamsyah. (2023). Performance Comparison of SVM, Naïve Bayes, and KNN Algorithms for Analysis of Public Opinion Sentiment Against COVID-19 Vaccination on Twitter. Journal of Advances in Information Systems and Technology. 4. 113-125. 10.15294/jaist.v4i2.59493.uk_UA
dc.relation.references33. Pranckevicius, Tomas & Marcinkevičius, Virginijus. (2016). Application of Logistic Regression with part-of-the-speech tagging for multi-class text classification. 1-5. 10.1109/AIEEE.2016.7821805.uk_UA
dc.relation.references34. Jannah, Nurul & Kusnawi, Kusnawi. (2024). Comparison of Naïve Bayes and SVM in Sentiment Analysis of Product Reviews on Marketplaces. Sinkron. 8. 727-733. 10.33395/sinkron.v8i2.13559.uk_UA
dc.relation.references35. Darji, Dhara & Goswami, Sachinkumar. (2024). The Comparative study of Python Libraries for Natural Language Processing (NLP). International Journal of Scientific Research in Computer Science, Engineering and Information Technology. 10. 499-512. 10.32628/CSEIT2410242.uk_UA
dc.relation.references36. Python vs R for Data Science [Електронний ресурс]. URL: https://www.stratascratch.com/blog/python-vs-r-for-data-science/uk_UA
dc.relation.references37. UCI Reuters 50 50 [Електронний ресурс]. URL: https://www.kaggle.com/datasets/realabyszero/uci-reuters-50-50uk_UA
dc.relation.references38. ДСН 3.3.6.042-99. Санітарні норми мікроклімату виробничих приміщень. [Електронний ресурс]. URL: https://zakon.rada.gov.ua/rada/show/va042282-99#Textuk_UA
dc.relation.references39. Методичний посібник для здобувачів освітнього ступеня «магістр» всіх спеціальностей денної та заочної (дистанційної) форм навчання «БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ» / В.С. Стручок –Тернопіль: ФОП Паляниця В.А., – 156 с. Отримано з https://elartu.tntu.edu.ua/handle/lib/39196.uk_UA
dc.contributor.affiliationТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра комп’ютерних наук, м. Тернопіль, Українаuk_UA
dc.coverage.countryUAuk_UA
dc.identifier.citation2015Цимбалюк Г. О. Б. Дослідження впливу методів попередньої обробки текстових даних на якість класифікаційних моделей машинного навчання : робота на здобуття кваліфікаційного ступеня магістра : спец. 122 – комп’ютерні науки / наук. кер. В. В. Никитюк. – Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2025. – 74 с.uk_UA
Koleksiyonlarda Görünür:122 — комп’ютерні науки

Bu öğenin dosyaları:
Dosya Açıklama BoyutBiçim 
2025_KRM_SNm-61_Tsymbaliuk_G_O_B.pdfДипломна робота2,42 MBAdobe PDFGöster/Aç


DSpace'deki bütün öğeler, aksi belirtilmedikçe, tüm hakları saklı tutulmak şartıyla telif hakkı ile korunmaktadır.

Yönetim Araçları