Генеративні мовні моделі в аналізі шкідливого коду

Легкобит, Олексій Юрійович; Lehkobyt, Oleksii

Empreu aquest identificador per citar o enllaçar aquest ítem: http://elartu.tntu.edu.ua/handle/lib/51464

Registre complet de metadades

Camp DC	Valor	Lengua/Idioma
dc.contributor.advisor	Стадник, Марія Андріївна	-
dc.contributor.advisor	Stadnyk, Mariya	-
dc.contributor.author	Легкобит, Олексій Юрійович	-
dc.contributor.author	Lehkobyt, Oleksii	-
dc.date.accessioned	2026-02-04T14:00:55Z	-
dc.date.available	2026-02-04T14:00:55Z	-
dc.date.issued	2026-01-02	-
dc.date.submitted	2025-12-22	-
dc.identifier.citation	Легкобит О. Ю. Генеративні мовні моделі в аналізі шкідливого коду : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „125 — Кібербезпека та захист інформації“ / О. Ю. Легкобит. — Тернопіль: ТНТУ, 2025. — 108 с.	uk_UA
dc.identifier.uri	http://elartu.tntu.edu.ua/handle/lib/51464	-
dc.description.abstract	У кваліфікаційній роботі проведено дослідження можливостей застосування генеративних мовних моделей для виявлення та аналізу шкідливого програмного забезпечення. Здійснено огляд сучасних підходів до аналізу malware та обґрунтовано доцільність використання великих мовних моделей для семантичного аналізу програмного коду в умовах обфускації та zero-day загроз. Для практичної реалізації обрано моделі сімейств GPT, LLaMA та Mistral, які представляють різні підходи до розгортання та використання LLM у системах кібербезпеки. У межах роботи сформовано збалансований набір даних на основі реальних зразків шкідливого програмного забезпечення з репозиторію MalwareBazaar та легітимного програмного коду з відкритих репозиторіїв GitHub, представлений у статичному текстовому вигляді. Запропоновано методику застосування LLM із використанням few-shot підходу та фіксованого prompt для забезпечення стабільності результатів. Проведено експериментальні дослідження ефективності моделей з використанням метрик accuracy, precision, recall та матриць помилок, а також виконано порівняльний аналіз їхньої якості та практичної придатності для задач виявлення шкідливого програмного коду.	uk_UA
dc.description.abstract	In this qualification thesis, a study is conducted on the possibilities of applying generative language models for the detection and analysis of malicious software. A review of modern approaches to malware analysis is carried out, and the feasibility of using large language models for the semantic analysis of program code under conditions of obfuscation and zero-day threats is substantiated. For practical implementation, models from the GPT, LLaMA, and Mistral families are selected, representing different approaches to the deployment and use of LLMs in cybersecurity systems. Within the scope of the work, a balanced dataset is constructed based on real malware samples from the MalwareBazaar repository and legitimate program code from open GitHub repositories, represented in a static textual form. A methodology for applying LLMs using a few-shot approach and a fixed prompt is proposed to ensure the stability of results. Experimental studies of model performance are conducted using accuracy, precision, recall metrics, and confusion matrices, and a comparative analysis of their quality and practical suitability for malware detection tasks is performed.	uk_UA
dc.description.tableofcontents	ЗМІСТ ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І ТЕРМІНІВ 8 ВСТУП 9 РОЗДІЛ 1 ТЕОРЕТИЧНІ ЗАСАДИ АНАЛІЗУ ШКІДЛИВОГО ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ 12 1.1 Проблема виявлення шкідливого програмного забезпечення та коду 12 1.2 Класифікація шкідливого програмного забезпечення 17 1.3 Методи аналізу шкідливого коду 20 1.3.1 Статичний підхід до аналізу шкідливого коду 21 1.3.2 Динамічний підхід до аналізу шкідливого коду 25 1.3.3 Сигнатурний аналіз шкідливого ПЗ 28 РОЗДІЛ 2 ГЕНЕРАТИВНІ МОВНІ МОДЕЛІ В АНАЛІЗІ ШКІДЛИВОГО ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ 31 2.1 Генеративні мовні моделі 31 2.1.1 Передумови появи Transformer 33 2.1.2 Архітектура Transformer 35 2.1.2.1 Принцип роботи кодера 36 2.1.2.2 Принцип роботи декодера 43 2.1.3 Типи та класифікація LLM 47 2.2 Можливості LLM для аналізу шкідливої поведінки програмного коду 49 2.3 Порівняльний аналіз традиційних методів аналізу шкідливого програмного забезпечення та підходів на основі LLM 52 РОЗДІЛ 3 ПРАКТИЧНА РЕАЛІЗАЦІЯ LLM ПІДХОДІВ ДЛЯ ВИЯВЛЕННЯ ШКІДЛИВОГО ПЗ 55 3.1 Обґрунтування вибору LLM моделі 55 3.2 Формування набору даних дослідження 58 3.3 Методика застосування LLM для аналізу та класифікації коду 61 3.4 Застосування досліджуваних LLM 64 3.5 Порівняльний аналіз результатів експериментального дослідження 67 РОЗДІЛ 4 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 70 4.1 Охорона праці 70 4.2 Характеристика стихійних лих, аварій (катастроф) та їх наслідків 74 ВИСНОВКИ 82 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 84 Додаток А Публікація 88 Додаток Б Лістинг GPT.py 90 Додаток В Лістинг LLaMA.py 97 Додаток Г Лістинг Mistral.py 103	uk_UA
dc.language.iso	uk	uk_UA
dc.subject	генеративні мовні моделі	uk_UA
dc.subject	generative language models	uk_UA
dc.subject	LLM	uk_UA
dc.subject	few-shot learning	uk_UA
dc.subject	шкідливе програмне забезпечення	uk_UA
dc.subject	malicious software	uk_UA
dc.subject	виявлення malware	uk_UA
dc.subject	malware detection	uk_UA
dc.subject	семантичний аналіз	uk_UA
dc.subject	semantic analysis	uk_UA
dc.title	Генеративні мовні моделі в аналізі шкідливого коду	uk_UA
dc.title.alternative	Generative language models in malware analysis	uk_UA
dc.type	Master Thesis	uk_UA
dc.rights.holder	© Легкобит Олексій Юрійович, 2025	uk_UA
dc.contributor.committeeMember	Никитюк, Вячеслав Вячеславович	-
dc.contributor.committeeMember	Nykytiuk, Viacheslav	-
dc.coverage.placename	ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна	uk_UA
dc.subject.udc	004.056.53:004.8	uk_UA
dc.relation.references	1. Verizon. (2025). 2025 Data Breach Investigations Report (DBIR). Verizon Enterprise Solutions.https://www.verizon.com/business/resources/reports/dbir/	uk_UA
dc.relation.references	2. ENISA. (2024). ENISA Threat Landscape 2024. European Union Agency for Cybersecurity. https://www.enisa.europa.eu/publications/enisa-threatlandscape-2024	uk_UA
dc.relation.references	3. IBM Security. (2024). Cost of a Data Breach Report 2024. IBM Corporation. https://www.ibm.com/reports/data-breach	uk_UA
dc.relation.references	4. Chainalysis. (2025). Crypto Crime Report 2025. Chainalysis Inc. https://www.chainalysis.com/reports/crypto-crime-2025/	uk_UA
dc.relation.references	5. AV-TEST Institute. (2024). Security Report 2023/2024. AV-TEST GmbH. https://www.av-test.org/en/statistics/malware/	uk_UA
dc.relation.references	6. SonicWall. (2024). SonicWall Cyber Threat Report. SonicWall Inc. https://www.sonicwall.com/threat-report/	uk_UA
dc.relation.references	7. Kaspersky. (2023). IoT Threat Landscape. Kaspersky Securelist. https://securelist.com/iot-threat-landscape/	uk_UA
dc.relation.references	8. Statista. (2023). Number of IoT malware samples worldwide from 2018 to 2022. https://www.statista.com/statistics/1288627/iot-malware-samples/	uk_UA
dc.relation.references	9. Anderson, H. S., Kharkar, A., Filar, B., Evans, D., & Roth, P. (2018). Learning to evade static PE machine learning malware models via reinforcement learning. arXiv:1801.08917. https://arxiv.org/abs/1801.08917	uk_UA
dc.relation.references	10. Raff, E., Barker, J., Sylvester, J., Brandon, R., Catanzaro, B., & Nicholas, C. (2020). Malware detection by eating a whole executable. Journal of Machine Learning Research, 21(1), 1–35.	uk_UA
dc.relation.references	11. Zhang, J., Li, Z., Xiao, Y., & Chen, X. (2021). Dynamic behavior-based malware detection using network traffic analysis. Computers & Security, 102, 102123. https://doi.org/10.1016/j.cose.2020.102123	uk_UA
dc.relation.references	12. Fan, C., Liu, Z., Wang, X., & Li, Y. (2022). Early-stage ransomware detection based on dynamic file behavior analysis. IEEE Access, 10, 11521–11534. https://doi.org/10.1109/ACCESS.2022.314XXXX	uk_UA
dc.relation.references	13. Singh, P., Kumar, R., & Kim, T. (2023). Fileless malware detection using dynamic execution traces and deep learning. Computers & Security, 124, 102984. https://doi.org/10.1016/j.cose.2022.102984	uk_UA
dc.relation.references	14. Коваленко, А.О. Інтелектуальна система розпізнавання шкідливого програмного забезпечення [Текст]: робота на здобуття кваліфікаційного рівня магістра; спец.: 122 - комп`ютерні науки (інформатика) / А.О. Коваленко; наук. кер. В.В. Москаленко. - Суми: СумДУ, 2021. - 68 с.	uk_UA
dc.relation.references	15. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877–1901.	uk_UA
dc.relation.references	16. DataCamp. (2023). How transformers work. https://www.datacamp.com/tutorial/how-transformers-work	uk_UA
dc.relation.references	17. OpenAI. (2023). GPT-4 technical report. arXiv:2303.08774. https://arxiv.org/abs/2303.08774	uk_UA
dc.relation.references	18. Microsoft. (2023). Responsible AI and large language models. https://www.microsoft.com/ai	uk_UA
dc.relation.references	19. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT 2019, 4171–4186.	uk_UA
dc.relation.references	20. Thoppilan, R., et al. (2022). LaMDA: Language models for dialog applications. arXiv:2201.08239. https://arxiv.org/abs/2201.08239	uk_UA
dc.relation.references	21. Raffel, C., et al. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140), 1–67.	uk_UA
dc.relation.references	22. Google DeepMind. (2023). Gemini: A family of highly capable multimodal models. https://deepmind.google/technologies/gemini	uk_UA
dc.relation.references	23. Zhang, H., Zhou, Y., & Luo, X. (2023). Large language models for malware analysis: A survey. IEEE Access, 11, 123456–123470. https://doi.org/10.1109/ACCESS.2023.XXXXX	uk_UA
dc.relation.references	24. Stadnyk, M., Fryz, M., Zagorodna, N., Muzh, V., Kochan, R., Nikodem, J., & Hamera, L. (2022). Steady state visual evoked potential classification by modified KNN method. Procedia Computer Science, 207, 71-79.	uk_UA
dc.relation.references	25. Skarga-Bandurova, I., Biloborodova, T., Skarha-Bandurov, I., Boltov, Y., & Derkach, M. (2021). A Multilayer LSTM Auto-Encoder for Fetal ECG Anomaly Detection. Studies in health technology and informatics, 285, 147-152.	uk_UA
dc.relation.references	26. Zagorodna, N., Skorenkyy, Y., Kunanets, N.E., Baran, I., & Stadnyk, M. (2022). Augmented Reality Enhanced Learning Tools Development for Cybersecurity Major. International Workshop on Information Technologies: Theoretical and Applied Problems.	uk_UA
dc.relation.references	27. Matiuk D., Skarga-Bandurova I., Derkach M. (2025) EMG pattern recognition for thumb muscle states using wearable sensing and adaptive neural network. Scientific Journal of TNTU (Tern.), vol 119, no 3, pp. 5–11.	uk_UA
dc.relation.references	28. Muzh, V., & Lechachenko, T. (2024). Computer technologies as an object and source of forensic knowledge: challenges and prospects of development. Вісник Тернопільського національного технічного університету, 115(3), 17-22.	uk_UA
dc.relation.references	29. Верховна Рада України. (1992). Закон України «Про охорону праці» від 14 жовтня 1992 р. № 2694-XII. https://zakon.rada.gov.ua/laws/show/2694-12	uk_UA
dc.relation.references	30. Верховна Рада України. (2012). Кодекс цивільного захисту України від 2 жовтня 2012 р. № 5403-VI.https://zakon.rada.gov.ua/laws/show/5403-17	uk_UA
dc.relation.references	31. Міністерство внутрішніх справ України. (2014). Правила пожежної безпеки в Україні: наказ від 30 грудня 2014 р. № 1417. https://zakon.rada.gov.ua/laws/show/z0252-15	uk_UA
dc.relation.references	32. Міністерство соціальної політики України. (2018). Вимоги щодо безпеки та захисту здоров’я працівників під час роботи з екранними пристроями: наказ від 14 лютого 2018 р. № 207 (НПАОП 0.00-7.15-18). https://zakon.rada.gov.ua/laws/show/z0508-18	uk_UA
dc.relation.references	33. Державний комітет України з нагляду за охороною праці. (1997). Правила безпечної експлуатації електроустановок споживачів (НПАОП 40.1-1.01- 97). https://zakon.rada.gov.ua/laws/show/z0011-98	uk_UA
dc.contributor.affiliation	ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра кібербезпеки, м. Тернопіль, Україна	uk_UA
dc.coverage.country	UA	uk_UA
Apareix a les col·leccions:	125 — кібербезпека, Кібербезпека та захист інформації

Arxius per aquest ítem:

Arxiu	Descripció	Mida	Format
Lehkobyt_Oleksii_SBm61_2025.pdf		1,63 MB	Adobe PDF	Veure/Obrir

Mostrar el registre simplificat de l'ítem

Els ítems de DSpace es troben protegits per copyright, amb tots els drets reservats, sempre i quan no s’indiqui el contrari.

Eines d'Administrador