霂瑞霂��撘����迨��辣:
http://elartu.tntu.edu.ua/handle/lib/48208
タイトル: | Використання методів машинного навчання в задачах виявлення спам-листів |
その他のタイトル: | Using Machine Learning Methods for Spam Email Detection |
著者: | Дячун, Всеволод Петрович Diachun, Vsevolod |
Affiliation: | ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра кібербезпеки, м. Тернопіль, Україна |
Bibliographic description (Ukraine): | Дячун В.П. Використання методів машинного навчання в задачах виявлення спам-листів: робота на здобуття кваліфікаційного ступеня магістра: спец. 125 - Кібербезпека та захист інформації / наук. кер. Н.В.Загородна Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2024. 68 с. |
発行日: | 1-1月-2025 |
Date of entry: | 24-2月-2025 |
Country (code): | UA |
Place of the edition/event: | ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна |
Supervisor: | Загородна, Наталія Володимирівна Zahorodna, Nataliia |
Committee members: | Марценко, Сергій Володимирович Martsenko, Serhii |
キーワード: | spam ham machine learning машинне навчання SVM naïve Bayes |
抄録: | Кваліфікаційна робота присвячена оцінки ефективності методів машинного навчання в задачах виявлення спаму В першому розділі здійснено огляд проблеми виявлення спаму, як такої, наведено класифікацію спаму та проаналізовано основні методи фільтрації спаму. В другому розділі кваліфікаційної роботи висвітлено особливості попередньої обробки текстових даних та описано моделі машинного навчання, які, згідно огляду джерел, найчастіше використовують для виявлення спаму. В третьому розділі описано деталі практичної реалізації методів машинного навчання для виявлення спаму, проведено оцінку точності побудованих моделей. The qualification paper is devoted to the evaluation of the effectiveness of machine learning methods in spam detection tasks The first section provides an overview of the problem of spam detection, classifying spam and analyzing the main methods of spam filtering. The second section of the qualification work highlights the peculiarities of text data pre-processing and describes machine learning models that, according to the review of sources, are most often used for spam detection. The third section describes the details of the practical implementation of machine learning methods for spam detection, and evaluates the accuracy of the built models. |
記述: | Використання методів машинного навчання в задачах виявлення спам-листів // ОР «Магістр» // Дячун Всеволод Петрович // Тернопільський національний технічний університет імені Івана Пулюя, факультет комп’ютерно-інформаційних систем і програмної інженерії, кафедра кібербезпеки, група СБм-61 // Тернопіль, 2024 // С. 68, рис. – 15, табл. – 1, кресл. – __, додат. – 2. |
Content: | ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І ТЕРМІНІВ 8 ВСТУП 9 РОЗДІЛ 1. АНАЛІЗ ПРОБЛЕМИ ВИЯВЛЕННЯ СПАМ-ЛИСТІВ 12 1.1 Історія виникнення спаму 12 1.2 Суть та ознаки спаму 15 1.3 Класифікація спаму 17 1.4 Методи виявлення спаму: традиційні та сучасні підходи 21 1.4.1 Фільтрація спаму на основі списків 22 1.4.2 Фільтрація на основі вмісту повідомлення 24 1.4.3 Фільтри на основі методів машинного навчання. 25 1.4.4 Інші методи фільтрації спаму 28 РОЗДІЛ 2 ТЕОРЕТИЧНІ ОСНОВИ РОЗРОБКИ СИСТЕМ ВИЯВЛЕННЯ СПАМУ НА ОСНОВІ МЕТОДІВ МАШИННОГО НАВЧАННЯ 29 2.1 Попередня обробка даних для задачі класифікації спаму 29 2.1.2 Стоп-слова 30 2.1.3 Стеммінг 31 2.1.4 Лематизація 32 2.2 Формування простору ознак 33 2.2.1 Мішок слів 34 2.2.2 Удосконалення методу «мішка слів» (TF-IDF) 35 2.2.3 Формування простору ознак з врахуванням семантики 37 2.3 Методи балансування даних 38 2.4 Моделі машинного навчання 40 2.4.1 Модель наївного Байєса 41 2.4.2 Модель опорних векторів (SVM) 43 2.4.3 Випадкові ліси 45 2.4.4 Нейронні мережі 46 РОЗДІЛ 3 ПРАКТИЧНА РЕАЛІЗАЦІЯ МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ВИЯВЛЕННЯ СПАМУ 49 3.1 Вибір середовища 49 3.2 Огляд бібліотек та деяких основних функцій реалізації 51 3.3 Опис наборів даних 55 3.4 Результати тестування 56 4 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 59 4.1 Охорона праці 59 4.2 Організація оповіщення і зв’язку у надзвичайних ситуаціях техногенного та природного характеру 61 ВИСНОВКИ 66 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 67 Додаток А Публікація 69 Додаток Б - Лістинг програми, яка зчитає дані датасету Enron Spam Dataset, формує датасет і записує в csv файл 71 |
URI: | http://elartu.tntu.edu.ua/handle/lib/48208 |
Copyright owner: | © Дячун Всеволод Петрович, 2024 |
References (Ukraine): | 1. The Radicati Group. Email Statistics Report, 2017-2021. [Електронний ресурс]. URL: https://www.radicati.com/wp/wp-content/uploads/2017/01/Email-Statistics-Report-2017-2021-Executive-Summary.pdf. 2. Tymoshchuk, D., Yasniy, O., Mytnyk, M., Zagorodna, N. & Tymoshchuk, V.(2024). Detection and classification of DDoS flooding attacks by machine learning method. CEUR Workshop Proceedings, 3842, 184–195. 3. Hossein Siadati, Sima (Tahereh) Jafarikhah, Markus Jakobsson. Traditional Countermeasures to Unwanted Emails. Understanding Social Engineering Based Scams. 2016. P. 51–62. DOI: http://dx.doi.org/10.1007/978-1-4939-6457-4_5. 4. Lypa, B., Horyn, I., Zagorodna, N., Tymoshchuk, D., Lechachenko T., (2024). Comparison of feature extraction tools for network traffic data. CEUR Workshop Proceedings, 3896, pp. 1-11. 5. Ghozali, Nurul & NOZARI, NUR & Zamzuri, Nur. (2023). Types and Methods of Managing SPAM Messages: A Review. 10.36227/techrxiv.170327076.62289830/v1. 6. 10 Spam Text Message Examples [Електронний ресурс] URL: https://blog.textedly.com/spam-text-message-examples 7. ТИМОЩУК, Д., ЯЦКІВ, В., ТИМОЩУК, В., & ЯЦКІВ, Н. (2024). INTERACTIVE CYBERSECURITY TRAINING SYSTEM BASED ON SIMULATION ENVIRONMENTS. MEASURING AND COMPUTING DEVICES IN TECHNOLOGICAL PROCESSES, (4), 215-220. 8. Ten Spam-Filtering Methods Explained [Електронний ресурс] URL: https://www.techsoupbrasil.org.br/10_sfm_explained 9. N Zagorodna, M Stadnyk, B Lypa, M Gavrylov, R Kozak. 2022. Network Attack Detection Using Machine Learning Methods. Challenges to national defence in contemporary geopolitical situation, No 1, P. 55-61 10. Borotić, Gordana & Granoša, Lara & Kovačević, Jurica & Bagic Babac, Marina. (2024). Effective Spam Detection with Machine Learning. Croatian Regional Development Journal. 4. 43-64. 10.2478/crdj-2023-0007. 11. Ahmed, N., Amin, R., Aldabbas, H., Koundal, D., Alouffi, B., & Shah, T. (2022). Machine Learning Techniques for Spam Detection in Email and IoT Platforms: Analysis and Research Challenges. Security and Communication Networks, 1862888. https://doi.org/10.1155/2022/1862888 12. ТИМОЩУК, Д., & ЯЦКІВ, В. (2024). USING HYPERVISORS TO CREATE A CYBER POLYGON. MEASURING AND COMPUTING DEVICES IN TECHNOLOGICAL PROCESSES, (3), 52-56. 13. Siddique, Z. B., Khan, M. A., Din, I. U., Almogren, A., Mohiuddin, I., & Nazir, S. (2021). Machine Learning-Based Detection of Spam Emails. Scientific Programming, 2021, 6508784. https://doi.org/10.1155/2021/6508784 14. Sinha, A., & Singh, S. (2020). A Detailed study on email spam filtering techniques. International Journal of Data Science and Analytics, 10(3), 1-34 15. Tymoshchuk, D., & Yatskiv, V. (2024). Slowloris ddos detection and prevention in real-time. Collection of scientific papers «ΛΌГOΣ», (August 16, 2024; Oxford, UK), 171-176. 16. Enron-Spam dataset [Електронний ресурс] URL: http://nlp.cs.aueb.gr/software_and_datasets/Enron-Spam/index.html 17. Enron Spam Dataset [Електронний ресурс] URL: https://github.com/mwiechmann/enron_spam_data 18. Emmanuel Gbenga Dada, Joseph Stephen Bassi, Haruna Chiroma, Shafi'i Muhammad Abdulhamid, Adebayo Olusola Adetunmbi, Opeyemi Emmanuel Ajibuwa, Machine learning for email spam filtering: review, approaches and open research problems,Heliyon,Volume 5, Issue 6, 2019, https://doi.org/10.1016/j.heliyon.2019.e01802. 19. Методичний посібник для здобувачів освітнього ступеня «магістр» всіх спеціальностей денної та заочної (дистанційної) форм навчання «БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ» / В.С. Стручок –Тернопіль: ФОП Паляниця В.А., – 156 с. Отримано з https://elartu.tntu.edu.ua/handle/lib/39196. |
Content type: | Master Thesis |
出現コレクション: | 125 — кібербезпека, Кібербезпека та захист інформації |
このアイテムのファイル:
ファイル | 記述 | サイズ | フォーマット | |
---|---|---|---|---|
Master_Thesis__SBm-6_Diachun_2024.pdf | 1,54 MB | Adobe PDF | 見る/開く |
このリポジトリに保管されているアイテムはすべて著作権により保護されています。
蝞∠�極�