Генеративні мовні моделі в аналізі шкідливого коду

Легкобит, Олексій Юрійович; Lehkobyt, Oleksii

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://elartu.tntu.edu.ua/handle/lib/51464

Titel:	Генеративні мовні моделі в аналізі шкідливого коду
Sonstige Titel:	Generative language models in malware analysis
Autor(en):	Легкобит, Олексій Юрійович Lehkobyt, Oleksii
Affiliation:	ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра кібербезпеки, м. Тернопіль, Україна
Bibliographic description (Ukraine):	Легкобит О. Ю. Генеративні мовні моделі в аналізі шкідливого коду : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „125 — Кібербезпека та захист інформації“ / О. Ю. Легкобит. — Тернопіль: ТНТУ, 2025. — 108 с.
Erscheinungsdatum:	2-Jan-2026
Submitted date:	22-Dez-2025
Date of entry:	4-Feb-2026
Country (code):	UA
Place of the edition/event:	ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна
Supervisor:	Стадник, Марія Андріївна Stadnyk, Mariya
Committee members:	Никитюк, Вячеслав Вячеславович Nykytiuk, Viacheslav
UDC:	004.056.53:004.8
Stichwörter:	генеративні мовні моделі generative language models LLM few-shot learning шкідливе програмне забезпечення malicious software виявлення malware malware detection семантичний аналіз semantic analysis
Zusammenfassung:	У кваліфікаційній роботі проведено дослідження можливостей застосування генеративних мовних моделей для виявлення та аналізу шкідливого програмного забезпечення. Здійснено огляд сучасних підходів до аналізу malware та обґрунтовано доцільність використання великих мовних моделей для семантичного аналізу програмного коду в умовах обфускації та zero-day загроз. Для практичної реалізації обрано моделі сімейств GPT, LLaMA та Mistral, які представляють різні підходи до розгортання та використання LLM у системах кібербезпеки. У межах роботи сформовано збалансований набір даних на основі реальних зразків шкідливого програмного забезпечення з репозиторію MalwareBazaar та легітимного програмного коду з відкритих репозиторіїв GitHub, представлений у статичному текстовому вигляді. Запропоновано методику застосування LLM із використанням few-shot підходу та фіксованого prompt для забезпечення стабільності результатів. Проведено експериментальні дослідження ефективності моделей з використанням метрик accuracy, precision, recall та матриць помилок, а також виконано порівняльний аналіз їхньої якості та практичної придатності для задач виявлення шкідливого програмного коду. In this qualification thesis, a study is conducted on the possibilities of applying generative language models for the detection and analysis of malicious software. A review of modern approaches to malware analysis is carried out, and the feasibility of using large language models for the semantic analysis of program code under conditions of obfuscation and zero-day threats is substantiated. For practical implementation, models from the GPT, LLaMA, and Mistral families are selected, representing different approaches to the deployment and use of LLMs in cybersecurity systems. Within the scope of the work, a balanced dataset is constructed based on real malware samples from the MalwareBazaar repository and legitimate program code from open GitHub repositories, represented in a static textual form. A methodology for applying LLMs using a few-shot approach and a fixed prompt is proposed to ensure the stability of results. Experimental studies of model performance are conducted using accuracy, precision, recall metrics, and confusion matrices, and a comparative analysis of their quality and practical suitability for malware detection tasks is performed.
Content:	ЗМІСТ ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І ТЕРМІНІВ 8 ВСТУП 9 РОЗДІЛ 1 ТЕОРЕТИЧНІ ЗАСАДИ АНАЛІЗУ ШКІДЛИВОГО ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ 12 1.1 Проблема виявлення шкідливого програмного забезпечення та коду 12 1.2 Класифікація шкідливого програмного забезпечення 17 1.3 Методи аналізу шкідливого коду 20 1.3.1 Статичний підхід до аналізу шкідливого коду 21 1.3.2 Динамічний підхід до аналізу шкідливого коду 25 1.3.3 Сигнатурний аналіз шкідливого ПЗ 28 РОЗДІЛ 2 ГЕНЕРАТИВНІ МОВНІ МОДЕЛІ В АНАЛІЗІ ШКІДЛИВОГО ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ 31 2.1 Генеративні мовні моделі 31 2.1.1 Передумови появи Transformer 33 2.1.2 Архітектура Transformer 35 2.1.2.1 Принцип роботи кодера 36 2.1.2.2 Принцип роботи декодера 43 2.1.3 Типи та класифікація LLM 47 2.2 Можливості LLM для аналізу шкідливої поведінки програмного коду 49 2.3 Порівняльний аналіз традиційних методів аналізу шкідливого програмного забезпечення та підходів на основі LLM 52 РОЗДІЛ 3 ПРАКТИЧНА РЕАЛІЗАЦІЯ LLM ПІДХОДІВ ДЛЯ ВИЯВЛЕННЯ ШКІДЛИВОГО ПЗ 55 3.1 Обґрунтування вибору LLM моделі 55 3.2 Формування набору даних дослідження 58 3.3 Методика застосування LLM для аналізу та класифікації коду 61 3.4 Застосування досліджуваних LLM 64 3.5 Порівняльний аналіз результатів експериментального дослідження 67 РОЗДІЛ 4 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 70 4.1 Охорона праці 70 4.2 Характеристика стихійних лих, аварій (катастроф) та їх наслідків 74 ВИСНОВКИ 82 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 84 Додаток А Публікація 88 Додаток Б Лістинг GPT.py 90 Додаток В Лістинг LLaMA.py 97 Додаток Г Лістинг Mistral.py 103
URI:	http://elartu.tntu.edu.ua/handle/lib/51464
Copyright owner:	© Легкобит Олексій Юрійович, 2025
References (Ukraine):	1. Verizon. (2025). 2025 Data Breach Investigations Report (DBIR). Verizon Enterprise Solutions.https://www.verizon.com/business/resources/reports/dbir/ 2. ENISA. (2024). ENISA Threat Landscape 2024. European Union Agency for Cybersecurity. https://www.enisa.europa.eu/publications/enisa-threatlandscape-2024 3. IBM Security. (2024). Cost of a Data Breach Report 2024. IBM Corporation. https://www.ibm.com/reports/data-breach 4. Chainalysis. (2025). Crypto Crime Report 2025. Chainalysis Inc. https://www.chainalysis.com/reports/crypto-crime-2025/ 5. AV-TEST Institute. (2024). Security Report 2023/2024. AV-TEST GmbH. https://www.av-test.org/en/statistics/malware/ 6. SonicWall. (2024). SonicWall Cyber Threat Report. SonicWall Inc. https://www.sonicwall.com/threat-report/ 7. Kaspersky. (2023). IoT Threat Landscape. Kaspersky Securelist. https://securelist.com/iot-threat-landscape/ 8. Statista. (2023). Number of IoT malware samples worldwide from 2018 to 2022. https://www.statista.com/statistics/1288627/iot-malware-samples/ 9. Anderson, H. S., Kharkar, A., Filar, B., Evans, D., & Roth, P. (2018). Learning to evade static PE machine learning malware models via reinforcement learning. arXiv:1801.08917. https://arxiv.org/abs/1801.08917 10. Raff, E., Barker, J., Sylvester, J., Brandon, R., Catanzaro, B., & Nicholas, C. (2020). Malware detection by eating a whole executable. Journal of Machine Learning Research, 21(1), 1–35. 11. Zhang, J., Li, Z., Xiao, Y., & Chen, X. (2021). Dynamic behavior-based malware detection using network traffic analysis. Computers & Security, 102, 102123. https://doi.org/10.1016/j.cose.2020.102123 12. Fan, C., Liu, Z., Wang, X., & Li, Y. (2022). Early-stage ransomware detection based on dynamic file behavior analysis. IEEE Access, 10, 11521–11534. https://doi.org/10.1109/ACCESS.2022.314XXXX 13. Singh, P., Kumar, R., & Kim, T. (2023). Fileless malware detection using dynamic execution traces and deep learning. Computers & Security, 124, 102984. https://doi.org/10.1016/j.cose.2022.102984 14. Коваленко, А.О. Інтелектуальна система розпізнавання шкідливого програмного забезпечення [Текст]: робота на здобуття кваліфікаційного рівня магістра; спец.: 122 - комп`ютерні науки (інформатика) / А.О. Коваленко; наук. кер. В.В. Москаленко. - Суми: СумДУ, 2021. - 68 с. 15. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901. 16. DataCamp. (2023). How transformers work. https://www.datacamp.com/tutorial/how-transformers-work 17. OpenAI. (2023). GPT-4 technical report. arXiv:2303.08774. https://arxiv.org/abs/2303.08774 18. Microsoft. (2023). Responsible AI and large language models. https://www.microsoft.com/ai 19. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT 2019, 4171–4186. 20. Thoppilan, R., et al. (2022). LaMDA: Language models for dialog applications. arXiv:2201.08239. https://arxiv.org/abs/2201.08239 21. Raffel, C., et al. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1–67. 22. Google DeepMind. (2023). Gemini: A family of highly capable multimodal models. https://deepmind.google/technologies/gemini 23. Zhang, H., Zhou, Y., & Luo, X. (2023). Large language models for malware analysis: A survey. IEEE Access, 11, 123456–123470. https://doi.org/10.1109/ACCESS.2023.XXXXX 24. Stadnyk, M., Fryz, M., Zagorodna, N., Muzh, V., Kochan, R., Nikodem, J., & Hamera, L. (2022). Steady state visual evoked potential classification by modified KNN method. Procedia Computer Science, 207, 71-79. 25. Skarga-Bandurova, I., Biloborodova, T., Skarha-Bandurov, I., Boltov, Y., & Derkach, M. (2021). A Multilayer LSTM Auto-Encoder for Fetal ECG Anomaly Detection. Studies in health technology and informatics, 285, 147-152. 26. Zagorodna, N., Skorenkyy, Y., Kunanets, N.E., Baran, I., & Stadnyk, M. (2022). Augmented Reality Enhanced Learning Tools Development for Cybersecurity Major. International Workshop on Information Technologies: Theoretical and Applied Problems. 27. Matiuk D., Skarga-Bandurova I., Derkach M. (2025) EMG pattern recognition for thumb muscle states using wearable sensing and adaptive neural network. Scientific Journal of TNTU (Tern.), vol 119, no 3, pp. 5–11. 28. Muzh, V., & Lechachenko, T. (2024). Computer technologies as an object and source of forensic knowledge: challenges and prospects of development. Вісник Тернопільського національного технічного університету, 115(3), 17-22. 29. Верховна Рада України. (1992). Закон України «Про охорону праці» від 14 жовтня 1992 р. № 2694-XII. https://zakon.rada.gov.ua/laws/show/2694-12 30. Верховна Рада України. (2012). Кодекс цивільного захисту України від 2 жовтня 2012 р. № 5403-VI.https://zakon.rada.gov.ua/laws/show/5403-17 31. Міністерство внутрішніх справ України. (2014). Правила пожежної безпеки в Україні: наказ від 30 грудня 2014 р. № 1417. https://zakon.rada.gov.ua/laws/show/z0252-15 32. Міністерство соціальної політики України. (2018). Вимоги щодо безпеки та захисту здоров’я працівників під час роботи з екранними пристроями: наказ від 14 лютого 2018 р. № 207 (НПАОП 0.00-7.15-18). https://zakon.rada.gov.ua/laws/show/z0508-18 33. Державний комітет України з нагляду за охороною праці. (1997). Правила безпечної експлуатації електроустановок споживачів (НПАОП 40.1-1.01- 97). https://zakon.rada.gov.ua/laws/show/z0011-98
Content type:	Master Thesis
Enthalten in den Sammlungen:	125 — кібербезпека, Кібербезпека та захист інформації

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
Lehkobyt_Oleksii_SBm61_2025.pdf		1,63 MB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt, soweit nicht anderweitig angezeigt.

Administrationswerkzeuge