Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://elartu.tntu.edu.ua/handle/lib/45462
Назва: Вдосконалення великої мовної моделі (Large Language Model - LLM) для опрацювання тексту засобами штучного інтелекту
Інші назви: Improvement of the Large Language Model (LLM) for Text Processing by Means of Artificial Intelligence
Автори: Сороцький, Роман Михайлович
Sorotskyi, Roman
Приналежність: ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра комп’ютерних наук, м. Тернопіль, Україна
Бібліографічний опис: Сороцький Р. М. Вдосконалення великої мовної моделі (Large Language Model - LLM) для опрацювання тексту засобами штучного інтелекту : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 126 - інформаційні системи та технології / наук. кер. В. П. Марценюк. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2024. 48 с.
Дата публікації: 24-чер-2024
Дата подання: 10-чер-2024
Дата внесення: 26-чер-2024
Країна (код): UA
Місце видання, проведення: ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна
Науковий керівник: Марценюк, Василь Петрович
Члени комітету: Жаровський, Руслан Олегович
УДК: 004.9
Теми: NLP
LLM
покращення LLM
LLM tuning
алгоритми навчання
learning algorithms
моделі архітектури
models architecture
Короткий огляд (реферат): Покращення моделей великих мовних моделей (LLM) є ключовим напрямком сучасних досліджень в галузі штучного інтелекту. Ці моделі, такі як GPT-4, демонструють значні успіхи у генерації тексту, розумінні природної мови та інших завданнях, проте завжди є простір для вдосконалення. Ось кілька напрямків, над якими працюють дослідники та інженери для покращення LLM-моделей: 1. Підвищення якості даних для навчання: Якість вихідних даних має вирішальне значення для ефективності LLM. Використання більш чистих, структурованих та різноманітних наборів даних допомагає моделям краще розуміти контекст і створювати більш точні відповіді. Крім того, активне навчання, де модель взаємодіє з користувачами для збирання зворотного зв'язку, також сприяє покращенню. 2. Оптимізація архітектури моделей: Зміни в архітектурі моделей можуть значно вплинути на їх продуктивність. Наприклад, введення нових типів шарів або механізмів уваги, які дозволяють моделі краще фокусуватися на важливих частинах вхідного тексту, може покращити результати. Також досліджуються методи зменшення розміру моделей без втрати якості, що знижує витрати на обчислення. 3. Покращення алгоритмів навчання: Використання вдосконалених методів оптимізації та регуляризації може допомогти у навчанні більш стабільних і узагальнюючих моделей. Наприклад, методи, такі як Dropout і Data Augmentation, можуть запобігати перенавчанню і підвищувати загальну продуктивність моделі. 4. Інтеграція знань та логіки: Одним із способів підвищення ефективності LLM є інтеграція зовнішніх знань та логічних висновків. Використання баз знань та онтологій може допомогти моделям краще розуміти контекст і здійснювати більш точні прогнози. 5. Зниження упереджень: LLM часто можуть виявляти упередження, присутні у вихідних даних. Розробка методів для виявлення та зниження таких упереджень є важливим аспектом покращення моделей. Це включає як попередню обробку даних, так і розробку алгоритмів, які враховують етичні та соціальні аспекти. 6. Застосування у різних доменах: Покращення LLM також полягає у їх адаптації для специфічних галузей, таких як медицина, право або фінанси. Спеціалізовані моделі, навчені на доменних даних, можуть показувати кращі результати у відповідних контекстах. Таким чином, покращення великих мовних моделей є комплексним завданням, що охоплює як технологічні аспекти, так і етичні міркування. Постійний прогрес у цій галузі сприяє створенню більш потужних, точних та етично відповідальних моделей, які можуть бути корисними в різних сферах життя. Improving large language models (LLMs) is a key focus in the field of artificial intelligence research. These models, such as GPT-4, demonstrate significant success in text generation, natural language understanding, and other tasks, but there is always room for enhancement. Here are several areas researchers and engineers are working on to improve LLMs: 1. Enhancing Training Data Quality: The quality of the training data is crucial for the effectiveness of LLMs. Using cleaner, more structured, and diverse datasets helps models better understand context and generate more accurate responses. Additionally, active learning, where the model interacts with users to gather feedback, also contributes to improvement. 2. Optimizing Model Architecture: Changes in model architecture can significantly impact performance. For instance, introducing new types of layers or attention mechanisms that allow the model to better focus on important parts of the input text can improve outcomes. Researchers are also exploring methods to reduce model size without compromising quality, thereby lowering computational costs. 3. Improving Training Algorithms: Utilizing advanced optimization and regularization methods can help train more stable and generalizable models. Techniques like dropout and data augmentation can prevent overfitting and enhance overall model performance. 4. Integrating Knowledge and Logic: One way to enhance LLMs is by integrating external knowledge and logical reasoning. Using knowledge bases and ontologies can help models better understand context and make more accurate predictions. 5. Reducing Bias: LLMs often exhibit biases present in the training data. Developing methods to detect and mitigate these biases is an important aspect of improving models. This includes both preprocessing data and designing algorithms that consider ethical and social factors. 6. Application in Various Domains: Improving LLMs also involves adapting them for specific fields such as medicine, law, or finance. Specialized models trained on domain-specific data can deliver better results in their respective contexts. Thus, improving large language models is a multifaceted task that encompasses both technological and ethical considerations. Ongoing progress in this field contributes to the creation of more powerful, accurate, and ethically responsible models that can be beneficial in various areas of life.
Зміст: ВСТУП 9 1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 11 1.1 Переваги та обмеження LLM 11 1.2 Принцип функціонування LLM 12 1.3 Моделі-трансформери 13 1.4 Архітектура LLM 14 1.5 Типи моделей тансформерів та моделі навчання 19 2 НАЛАШТУВАННЯ МОДЕЛІ LLM 21 2.1 Точне налаштування великої мовної моделі (LLM) на спеціальному наборі даних за допомогою QLoRA 21 2.2 Методи тонкого налаштування 22 2.3 Що таке LoRa? 23 2.4 Що таке квантований LoRA ( QLoRA )? 24 2.4.1 Налаштування блокнота 24 2.4.2 Установка необхідних бібліотек 25 2.4.3 Завантаження набору даних 27 2.4.4 Створення конфігурації Bitsandbytes 28 2.4.5 Завантаження моделі Pre-Trained 28 2.4.6 Токенізація 29 2.4.7 Перевірка моделі за допомогою Zero Shot Inferencing 29 2.4.8 Попередня обробка набору даних 31 2.4.9 Підготовка моделі для QLoRA 34 2.4.10 Налаштування PEFT 34 2.4.11 Перехідник PEFT 35 2.4.12 Якісна оцінка моделі (людська оцінка) 37 2.4.13 Кількісна оцінка моделі (за допомогою показника ROUGE) 38 3 БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 41 3.1 Шляхи підвищення життєдіяльності людини 41 3.2 Інструкція для обслуговуючого персоналу на випадок виникнення аварії, пожежі 42 3.3 Вимоги до профілактичних медичних оглядів для працівників ПК 43 ВИСНОВОК 45 ПЕРЕЛІК ДЖЕРЕЛ 47 ДОДАТКИ
URI (Уніфікований ідентифікатор ресурсу): http://elartu.tntu.edu.ua/handle/lib/45462
Власник авторського права: © Сороцький Роман Михайлович, 2024
Перелік літератури: 1. Луцків, А. М., & Островський, А. Я. (2023). Характеристики та сфера застосування великих мовних моделей. Матеріали ⅩⅡ Міжнародної науково-практичної конференції молодих учених та студентів „Актуальні задачі сучасних технологій “, 452-452.
2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N.,... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
3. Long short-term memory. [Електронний ресурс]. – Режим доступу: https://en.wikipedia.org/wiki/Long_short-term_memory. 17.05.2024.
4. Word Vectors. [Електронний ресурс] – Режим доступу до ресурсу: https://pelinbalci.com/2023/01/01/Word_Vectors.html. Дата доступу: 03.05.2024.
5. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
6. Bolukbasi, T., Chang, K. W., Zou, J. Y., Saligrama, V., & Kalai, A. T. (2016). Man is to computer programmer as woman is to homemaker? debiasing word embeddings. Advances in neural information processing systems, 29.
7. Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).
8. Yogatama, D., Faruqui, M., Dyer, C., & Smith, N. (2015, June). Learning word representations with hierarchical sparse coding. In International Conference on Machine Learning (pp. 87-96). PMLR.
9. Yin, W., Rajani, N. F., Radev, D., Socher, R., & Xiong, C. (2020). Universal natural language processing with limited annotations: Try few-shot textual entailment as a start. arXiv preprint arXiv:2010.02584.
10. Wu, C. S., Hoi, S., Socher, R., & Xiong, C. (2020). TOD-BERT: Pre-trained natural language understanding for task-oriented dialogue. arXiv preprint arXiv:2004.06871.
11. Manning, C., Socher, R., Fang, G. G., & Mundra, R. (2017). CS224n: Natural Language Processing with Deep Learning1. [Електронний ресурс] – Режим доступу до ресурсу: https://www.youtube.com/playlist?list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4. Дата доступу: 03.03.2024.
12. Стручок, В. С., Стручок, О. С., & Мудра, Д. В. (2017). Навчальний посібник до написання розділу дипломного проекту та дипломної роботи ″Безпека в надзвичайних ситуаціях ″для студентів всіх спец. денної, заочної (дистанційної) та екстернатної форм навчання.
13. Стручок, В. С. (2022). Техноекологія та цивільна безпека. Частина «Цивільна безпека». Навчальний посібник.
14. Гігієнічні вимоги до організації роботи з візуальними дисплейними терміналами електронно-обчислювальних машин. Наказ N 246 [Електронний ресурс] – Режим доступу до ресурсу: https://zakon.rada.gov.ua/rada/show/v0007282-98#Text – Дата доступу: 08.05.2024.
15. Про затвердження Порядку проведення медичних оглядів працівників певних категорій. Наказ МОЗ від 21.05.2007 р. № 246 [Електронний ресурс] – Режим доступу до ресурсу: http://search.ligazakon.ua/l_doc2.nsf/link1/RE14113.html – Дата доступу: 08.05.2024.
Тип вмісту: Bachelor Thesis
Розташовується у зібраннях:126 — Інформаційні системи та технології (бакалаври)

Файли цього матеріалу:
Файл Опис РозмірФормат 
Сороцький СТс-41 бакалавр 2024.pdf1,49 MBAdobe PDFПереглянути/відкрити


Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

Інструменти адміністратора