Моля, използвайте този идентификатор за цитиране или линк към този публикация: http://elartu.tntu.edu.ua/handle/lib/49453
Заглавие: Розробка семантичної гри на основі NLP: векторні представлення слів, аналіз та оптимізація алгоритмів
Други Заглавия: Development of a semantic game based on NLP: word embeddings, analysis, and algorithm optimization
Автори: Конончук, Андрій Володимирович
Andrii, Kononchuk
Affiliation: ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра програмної інженерії, м. Тернопіль, Україна
Bibliographic description (Ukraine): Конончук А. В. Розробка веб-платформи для створення та введення блогів з використанням React, Node.js та MongoDB : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 121 - інженерія програмного забезпечення / наук. кер. І. Я. Мудрик. Тернопіль: – Тернопільський національний технічний університет імені Івана Пулюя, 2025. 72 с.
Дата на Публикуване: Юни-2025
Submitted date: 9-Юни-2025
Date of entry: 3-Юли-2025
Издател: ТНТУ ім. І. Пулюя
Country (code): UA
Place of the edition/event: ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна
Supervisor: Мудрик, Іван Ярославович
Committee members: Жаровський, Руслан Олегович
UDC: 004.9
Ключови Думи: інженерія програмного забезпечення
семантична гра
обробка природної мови (NLP)
веб-додаток
software engineering
semantic game
Natural Language Processing (NLP)
web application
Number of pages: 72
Резюме: Мета – розробка україномовної семантичної гри «Словозв'яз» на основі сучасних NLP-моделей (OpenAI text-embedding-3-large, gpt-3.5-turbo) та семантичних визначень, з порівняльним аналізом ефективності підходу. Об’єкт: програмно-алгоритмічні засоби та процес розробки україномовної семантичної гри. Предмет: методи отримання векторних представлень слів у поєднанні з генерованими семантичними визначеннями, алгоритми семантичної схожості, архітектура та реалізація системи «Словозв'яз», аналіз якості та ефективності. У роботі проаналізовано існуючі семантичні ігри, обґрунтовано актуальність створення україномовного аналога, розглянуто теоретичні основи NLP. Спроєктовано та розроблено клієнт-серверний веб-додаток «Словозв'яз» з підсистемою підготовки даних. Проведено аналіз якості семантичних рейтингів, порівняно підхід з Word2Vec/GloVe, оцінено оптимізації. Наукова новизна: Вперше розроблено україномовну семантичну гру «Словозв'яз» на базі OpenAI text-embedding-3-large та генерованих визначень; запропоновано підхід до генерації семантичних рейтингів, що фокусується на основному значенні слова. Практичне значення: Розроблено функціональний веб-додаток, що сприяє розширенню україномовного цифрового контенту.
The purpose is to develop a Ukrainian-language semantic game "Slovozviaz" based on modern NLP models (OpenAI text-embedding-3-large, gpt-3.5-turbo) and semantic definitions, with a comparative analysis of the approach's effectiveness. Object: software-algorithmic tools and the development process of a Ukrainian-language semantic game. Subject: methods for obtaining word embeddings combined with generated semantic definitions, semantic similarity algorithms, architecture and implementation of the "Slovozviaz" system, quality and efficiency analysis. The thesis analyzes existing semantic games, substantiates the relevance of creating a Ukrainian-language analogue, and reviews theoretical NLP foundations. A client-server web application "Slovozviaz" with a data preparation subsystem was designed and developed. The quality of semantic ratings was analyzed, the approach was compared with Word2Vec/GloVe, and optimizations were evaluated. Scientific novelty: For the first time, a Ukrainian-language semantic game "Slovozviaz" based on OpenAI text-embedding-3-large and generated definitions has been developed; an approach for generating semantic ratings focusing on the primary word meaning is proposed. Practical significance: A functional web application contributing to the expansion of Ukrainian-language digital content has been developed.
Content: ВСТУП 9 РОЗДІЛ 1. АНАЛІЗ СЕМАНТИЧНИХ ІГОР ТА ПОСТАНОВКА ЗАДАЧІ РОЗРОБКИ ГРИ "СЛОВОЗВ'ЯЗ" 12 1.1 АНАЛІЗ ІСНУЮЧИХ СЕМАНТИЧНИХ ІГОР НА ОСНОВІ ВЕКТОРНИХ ПРЕДСТАВЛЕНЬ СЛІВ 12 1.1.1 Contexto.me: Схожість на основі контексту використання (GloVe) 12 1.1.2 Semantle.com: Схожість на основі значення (Word2Vec) 13 1.2 АКТУАЛЬНІСТЬ РОЗРОБКИ УКРАЇНОМОВНОЇ ГРИ "СЛОВОЗВ'ЯЗ" З ВИКОРИСТАННЯМ СУЧАСНИХ NLP-МОДЕЛЕЙ ТА АНАЛІЗУ ВПЛИВУ СЕМАНТИЧНИХ ВИЗНАЧЕНЬ 15 РОЗДІЛ 2. ТЕОРЕТИЧНІ ОСНОВИ ТА МЕТОДИ NLP ДЛЯ РЕАЛІЗАЦІЇ СЕМАНТИЧНОЇ ГРИ 17 2.1 ВЕКТОРНІ ПРЕДСТАВЛЕННЯ СЛІВ 17 2.1.1 Концепція семантичних векторних просторів 17 2.1.2 Моделі статичних ембеддінгів 19 2.1.3 Сучасні моделі великих ембеддінгів: OpenAI text-embedding-3-large 20 2.1.4 Використаний підхід: Посилення семантики за допомогою генерованих визначень 22 2.2 КОСИНУСНА СХОЖІСТЬ ЯК МІРА БЛИЗЬКОСТІ У ВЕКТОРНОМУ ПРОСТОРІ 23 2.3 ТЕХНОЛОГІЇ ГЕНЕРАЦІЇ ТЕКСТУ: GPT-3.5-TURBO ДЛЯ СТВОРЕННЯ ВИЗНАЧЕНЬ 25 РОЗДІЛ 3 ПРОЄКТУВАННЯ, РОЗРОБКА ТА ОПТИМІЗАЦІЯ СИСТЕМИ "СЛОВОЗВ'ЯЗ" 26 3.1 АРХІТЕКТУРА СИСТЕМИ 26 3.2 ЕТАП ПІДГОТОВКИ ДАНИХ 31 3.2.1 Формування корпусу слів 31 3.2.2 Генерація семантичних визначень 32 3.2.3 Створення векторних представлень 32 3.2.4 Розрахунок рейтингів та формування бази даних 32 3.3 РОЗРОБКА ПІДСИСТЕМИ ГЕНЕРАЦІЇ РЕЙТИНГІВ 33 3.4 РЕАЛІЗАЦІЯ СЕРВЕРНОЇ ЧАСТИНИ (BACKEND) 34 3.5 РЕАЛІЗАЦІЯ КЛІЄНТСЬКОЇ ЧАСТИНИ (FRONTEND) 36 РОЗДІЛ 4. ПОРІВНЯЛЬНИЙ АНАЛІЗ АЛГОРИТМІВ ТА РЕЗУЛЬТАТІВ РОБОТИ ГРИ "СЛОВОЗВ'ЯЗ" 38 4.1 ФУНКЦІОНАЛ ТА ІНТЕРФЕЙС РОЗРОБЛЕНОЇ ГРИ "СЛОВОЗВ'ЯЗ" 38 4.2 АНАЛІЗ ЯКОСТІ СЕМАНТИЧНИХ РЕЙТИНГІВ У "СЛОВОЗВ'ЯЗ" 42 4.2.1 Приклади рейтингів та їх аналіз 42 4.3 ПОРІВНЯЛЬНИЙ АНАЛІЗ АЛГОРИТМІВ СЕМАНТИЧНОЇ СХОЖОСТІ ТА ЇХ ВПЛИВУ 45 4.3.1 Word2Vec (Semantle): Схожість за локальним контекстом 46 4.3.2 GloVe (Contexto): Схожість за глобальним контекстом 46 4.3.3 OpenAI + визначення: Схожість за сфокусованим значенням 47 4.3.4 Зіставлення підходів та вплив на гравця 48 4.4 АНАЛІЗ ЕФЕКТИВНОСТІ ЗАСТОСОВАНИХ ОПТИМІЗАЦІЙ 49 4.5 ПРАКТИЧНЕ ЗНАЧЕННЯ, ВИСНОВКИ ЩОДО ЕФЕКТИВНОСТІ ТА ЯКОСТІ ОБРАНОГО ПІДХОДУ У ПОРІВНЯННІ З АНАЛОГАМИ ТА НАПРЯМКИ РОЗВИТКУ 50 РОЗДІЛ 5. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 54 5.1 ПРАЦЕЗДАТНІСТЬ ЛЮДИНИ – ОПЕРАТОРА 54 5.2 ГІГІЄНІЧНІ ВИМОГИ ДО ОРГАНІЗАЦІЇ ТА ОБЛАДНАННЯ РОБОЧИХ МІСЦЬ З ВДТ 56 ВИСНОВКИ 60 ПЕРЕЛІК ДЖЕРЕЛ 62
URI: http://elartu.tntu.edu.ua/handle/lib/49453
Copyright owner: © Конончук Андрій Володимирович, 2025
References (Ukraine): 1. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space [Електронний ресурс]. – 2013. – Режим доступу: https://arxiv.org/pdf/1301.3781
2. Pennington J., Socher R., Manning C. D. GloVe: Global Vectors for Word Representation [Електронний ресурс]. – Stanford University, 2014. – Режим доступу: https://nlp.stanford.edu/projects/glove/
3. Як людство взаємодіє з цифровими технологіями: звіт Digital 2024 [Електронний ресурс]. – MediaMaker, 2024. – Режим доступу: https://mediamaker.me/yak-lyudstvo-vzayemodiye-z-czyfrovymy-tehnologiyamy-zvit-digital-2024-8566/
4. Малига І. Є., Шматков С. І. Аналіз впливу різних векторних представлень слів на точність класифікації текстових даних // Вісник Харківського національного університету імені В. Н. Каразіна. Серія «Математичне моделювання. Інформаційні технології. Автоматизовані системи управління» [Електронний ресурс]. – 2023. – Вип. 59. – С. 49–55. – Режим доступу: https://periodicals.karazin.ua/mia/article/download/23703/21588/
5. Embeddings [Електронний ресурс] // OpenAI API Documentation. – OpenAI. – Режим доступу: https://platform.openai.com/docs/guides/embeddings
6. Almeida F., Xexéo G. Word Embeddings: A Survey [Електронний ресурс]. – 2019. – arXiv:1901.09069. – Режим доступу: https://arxiv.org/abs/1901.09069
7. Firth J. R. A synopsis of linguistic theory, 1930-1955 // Studies in Linguistic Analysis. – Oxford : Blackwell, 1957. – P. 1–32.
8. Vaswani A. et al. Attention is all you need // Advances in neural information processing systems [Електронний ресурс]. – 2017. – Vol. 30. – Режим доступу: https://papers.nips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html
9. Devlin J. et al. Bert: Pre-training of deep bidirectional transformers for language understanding [Електронний ресурс]. – 2018. – arXiv:1810.04805. – Режим доступу: https://arxiv.org/abs/1810.04805
10. Peters M. E. et al. Deep contextualized word representations [Електронний ресурс]. – 2018. – arXiv:1802.05365. – Режим доступу: https://arxiv.org/abs/1802.05365
11. OpenAI's Text Embeddings v3 [Електронний ресурс] // Pinecone Learn. – Pinecone, 2024. – Режим доступу: https://www.pinecone.io/learn/openai-embeddings-v3/
12. What is the difference between static and contextual embeddings? [Електронний ресурс] // Zilliz AI FAQs. – Zilliz. – Режим доступу: https://zilliz.com/ai-faq/what-is-the-difference-between-static-and-contextual-embeddings
13. Cohen M. X. Practical Linear Algebra for Data Science. – O'Reilly Media, 2022. – 326 p.
14. GPT-3.5 [Електронний ресурс] // OpenAI API Documentation. – OpenAI. – Режим доступу: https://platform.openai.com/docs/models/gpt-3-5
15. Chaplynskyi D. Introducing UberText 2.0: A Corpus of Modern Ukrainian at Scale // Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP) [Електронний ресурс]. – Dubrovnik, Croatia : Association for Computational Linguistics, 2023. – P. 1–10. – Режим доступу: https://aclanthology.org/2023.unlp-1.1/
Content type: Bachelor Thesis
Показва се в Колекции:121 — Інженерія програмного забезпечення (бакалаври)

Файлове в Този Публикация:
Файл Описание РазмерФормат 
dyplom_Kononchuk_2025.pdf2,83 MBAdobe PDFИзглед/Отваряне


Публикацияте в DSpace са защитени с авторско право, с всички права запазени, освен ако не е указно друго.

Админ Инструменти