Вдосконалення великої мовної моделі (Large Language Model - LLM) для опрацювання тексту засобами штучного інтелекту

Сороцький, Роман Михайлович; Sorotskyi, Roman

Моля, използвайте този идентификатор за цитиране или линк към този публикация: http://elartu.tntu.edu.ua/handle/lib/45462

Пълен Запис на метаданни

DC Поле	Стойност	Език
dc.contributor.advisor	Марценюк, Василь Петрович	-
dc.contributor.author	Сороцький, Роман Михайлович	-
dc.contributor.author	Sorotskyi, Roman	-
dc.date.accessioned	2024-06-26T09:48:27Z	-
dc.date.available	2024-06-26T09:48:27Z	-
dc.date.issued	2024-06-24	-
dc.date.submitted	2024-06-10	-
dc.identifier.citation	Сороцький Р. М. Вдосконалення великої мовної моделі (Large Language Model - LLM) для опрацювання тексту засобами штучного інтелекту : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 126 - інформаційні системи та технології / наук. кер. В. П. Марценюк. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2024. 48 с.	uk_UA
dc.identifier.uri	http://elartu.tntu.edu.ua/handle/lib/45462	-
dc.description.abstract	Покращення моделей великих мовних моделей (LLM) є ключовим напрямком сучасних досліджень в галузі штучного інтелекту. Ці моделі, такі як GPT-4, демонструють значні успіхи у генерації тексту, розумінні природної мови та інших завданнях, проте завжди є простір для вдосконалення. Ось кілька напрямків, над якими працюють дослідники та інженери для покращення LLM-моделей: 1. Підвищення якості даних для навчання: Якість вихідних даних має вирішальне значення для ефективності LLM. Використання більш чистих, структурованих та різноманітних наборів даних допомагає моделям краще розуміти контекст і створювати більш точні відповіді. Крім того, активне навчання, де модель взаємодіє з користувачами для збирання зворотного зв'язку, також сприяє покращенню. 2. Оптимізація архітектури моделей: Зміни в архітектурі моделей можуть значно вплинути на їх продуктивність. Наприклад, введення нових типів шарів або механізмів уваги, які дозволяють моделі краще фокусуватися на важливих частинах вхідного тексту, може покращити результати. Також досліджуються методи зменшення розміру моделей без втрати якості, що знижує витрати на обчислення. 3. Покращення алгоритмів навчання: Використання вдосконалених методів оптимізації та регуляризації може допомогти у навчанні більш стабільних і узагальнюючих моделей. Наприклад, методи, такі як Dropout і Data Augmentation, можуть запобігати перенавчанню і підвищувати загальну продуктивність моделі. 4. Інтеграція знань та логіки: Одним із способів підвищення ефективності LLM є інтеграція зовнішніх знань та логічних висновків. Використання баз знань та онтологій може допомогти моделям краще розуміти контекст і здійснювати більш точні прогнози. 5. Зниження упереджень: LLM часто можуть виявляти упередження, присутні у вихідних даних. Розробка методів для виявлення та зниження таких упереджень є важливим аспектом покращення моделей. Це включає як попередню обробку даних, так і розробку алгоритмів, які враховують етичні та соціальні аспекти. 6. Застосування у різних доменах: Покращення LLM також полягає у їх адаптації для специфічних галузей, таких як медицина, право або фінанси. Спеціалізовані моделі, навчені на доменних даних, можуть показувати кращі результати у відповідних контекстах. Таким чином, покращення великих мовних моделей є комплексним завданням, що охоплює як технологічні аспекти, так і етичні міркування. Постійний прогрес у цій галузі сприяє створенню більш потужних, точних та етично відповідальних моделей, які можуть бути корисними в різних сферах життя. Improving large language models (LLMs) is a key focus in the field of artificial intelligence research. These models, such as GPT-4, demonstrate significant success in text generation, natural language understanding, and other tasks, but there is always room for enhancement. Here are several areas researchers and engineers are working on to improve LLMs: 1. Enhancing Training Data Quality: The quality of the training data is crucial for the effectiveness of LLMs. Using cleaner, more structured, and diverse datasets helps models better understand context and generate more accurate responses. Additionally, active learning, where the model interacts with users to gather feedback, also contributes to improvement. 2. Optimizing Model Architecture: Changes in model architecture can significantly impact performance. For instance, introducing new types of layers or attention mechanisms that allow the model to better focus on important parts of the input text can improve outcomes. Researchers are also exploring methods to reduce model size without compromising quality, thereby lowering computational costs. 3. Improving Training Algorithms: Utilizing advanced optimization and regularization methods can help train more stable and generalizable models. Techniques like dropout and data augmentation can prevent overfitting and enhance overall model performance. 4. Integrating Knowledge and Logic: One way to enhance LLMs is by integrating external knowledge and logical reasoning. Using knowledge bases and ontologies can help models better understand context and make more accurate predictions. 5. Reducing Bias: LLMs often exhibit biases present in the training data. Developing methods to detect and mitigate these biases is an important aspect of improving models. This includes both preprocessing data and designing algorithms that consider ethical and social factors. 6. Application in Various Domains: Improving LLMs also involves adapting them for specific fields such as medicine, law, or finance. Specialized models trained on domain-specific data can deliver better results in their respective contexts. Thus, improving large language models is a multifaceted task that encompasses both technological and ethical considerations. Ongoing progress in this field contributes to the creation of more powerful, accurate, and ethically responsible models that can be beneficial in various areas of life.	uk_UA
dc.description.tableofcontents	ВСТУП 9 1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 11 1.1 Переваги та обмеження LLM 11 1.2 Принцип функціонування LLM 12 1.3 Моделі-трансформери 13 1.4 Архітектура LLM 14 1.5 Типи моделей тансформерів та моделі навчання 19 2 НАЛАШТУВАННЯ МОДЕЛІ LLM 21 2.1 Точне налаштування великої мовної моделі (LLM) на спеціальному наборі даних за допомогою QLoRA 21 2.2 Методи тонкого налаштування 22 2.3 Що таке LoRa? 23 2.4 Що таке квантований LoRA ( QLoRA )? 24 2.4.1 Налаштування блокнота 24 2.4.2 Установка необхідних бібліотек 25 2.4.3 Завантаження набору даних 27 2.4.4 Створення конфігурації Bitsandbytes 28 2.4.5 Завантаження моделі Pre-Trained 28 2.4.6 Токенізація 29 2.4.7 Перевірка моделі за допомогою Zero Shot Inferencing 29 2.4.8 Попередня обробка набору даних 31 2.4.9 Підготовка моделі для QLoRA 34 2.4.10 Налаштування PEFT 34 2.4.11 Перехідник PEFT 35 2.4.12 Якісна оцінка моделі (людська оцінка) 37 2.4.13 Кількісна оцінка моделі (за допомогою показника ROUGE) 38 3 БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 41 3.1 Шляхи підвищення життєдіяльності людини 41 3.2 Інструкція для обслуговуючого персоналу на випадок виникнення аварії, пожежі 42 3.3 Вимоги до профілактичних медичних оглядів для працівників ПК 43 ВИСНОВОК 45 ПЕРЕЛІК ДЖЕРЕЛ 47 ДОДАТКИ	uk_UA
dc.language.iso	uk	uk_UA
dc.subject	NLP	uk_UA
dc.subject	LLM	uk_UA
dc.subject	покращення LLM	uk_UA
dc.subject	LLM tuning	uk_UA
dc.subject	алгоритми навчання	uk_UA
dc.subject	learning algorithms	uk_UA
dc.subject	моделі архітектури	uk_UA
dc.subject	models architecture	uk_UA
dc.title	Вдосконалення великої мовної моделі (Large Language Model - LLM) для опрацювання тексту засобами штучного інтелекту	uk_UA
dc.title.alternative	Improvement of the Large Language Model (LLM) for Text Processing by Means of Artificial Intelligence	uk_UA
dc.type	Bachelor Thesis	uk_UA
dc.rights.holder	© Сороцький Роман Михайлович, 2024	uk_UA
dc.contributor.committeeMember	Жаровський, Руслан Олегович	-
dc.coverage.placename	ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна	uk_UA
dc.subject.udc	004.9	uk_UA
dc.relation.references	1. Луцків, А. М., & Островський, А. Я. (2023). Характеристики та сфера застосування великих мовних моделей. Матеріали ⅩⅡ Міжнародної науково-практичної конференції молодих учених та студентів „Актуальні задачі сучасних технологій “, 452-452.	uk_UA
dc.relation.references	2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N.,... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.	uk_UA
dc.relation.references	3. Long short-term memory. [Електронний ресурс]. – Режим доступу: https://en.wikipedia.org/wiki/Long_short-term_memory. 17.05.2024.	uk_UA
dc.relation.references	4. Word Vectors. [Електронний ресурс] – Режим доступу до ресурсу: https://pelinbalci.com/2023/01/01/Word_Vectors.html. Дата доступу: 03.05.2024.	uk_UA
dc.relation.references	5. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.	uk_UA
dc.relation.references	6. Bolukbasi, T., Chang, K. W., Zou, J. Y., Saligrama, V., & Kalai, A. T. (2016). Man is to computer programmer as woman is to homemaker? debiasing word embeddings. Advances in neural information processing systems, 29.	uk_UA
dc.relation.references	7. Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).	uk_UA
dc.relation.references	8. Yogatama, D., Faruqui, M., Dyer, C., & Smith, N. (2015, June). Learning word representations with hierarchical sparse coding. In International Conference on Machine Learning (pp. 87-96). PMLR.	uk_UA
dc.relation.references	9. Yin, W., Rajani, N. F., Radev, D., Socher, R., & Xiong, C. (2020). Universal natural language processing with limited annotations: Try few-shot textual entailment as a start. arXiv preprint arXiv:2010.02584.	uk_UA
dc.relation.references	10. Wu, C. S., Hoi, S., Socher, R., & Xiong, C. (2020). TOD-BERT: Pre-trained natural language understanding for task-oriented dialogue. arXiv preprint arXiv:2004.06871.	uk_UA
dc.relation.references	11. Manning, C., Socher, R., Fang, G. G., & Mundra, R. (2017). CS224n: Natural Language Processing with Deep Learning1. [Електронний ресурс] – Режим доступу до ресурсу: https://www.youtube.com/playlist?list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4. Дата доступу: 03.03.2024.	uk_UA
dc.relation.references	12. Стручок, В. С., Стручок, О. С., & Мудра, Д. В. (2017). Навчальний посібник до написання розділу дипломного проекту та дипломної роботи ″Безпека в надзвичайних ситуаціях ″для студентів всіх спец. денної, заочної (дистанційної) та екстернатної форм навчання.	uk_UA
dc.relation.references	13. Стручок, В. С. (2022). Техноекологія та цивільна безпека. Частина «Цивільна безпека». Навчальний посібник.	uk_UA
dc.relation.references	14. Гігієнічні вимоги до організації роботи з візуальними дисплейними терміналами електронно-обчислювальних машин. Наказ N 246 [Електронний ресурс] – Режим доступу до ресурсу: https://zakon.rada.gov.ua/rada/show/v0007282-98#Text – Дата доступу: 08.05.2024.	uk_UA
dc.relation.references	15. Про затвердження Порядку проведення медичних оглядів працівників певних категорій. Наказ МОЗ від 21.05.2007 р. № 246 [Електронний ресурс] – Режим доступу до ресурсу: http://search.ligazakon.ua/l_doc2.nsf/link1/RE14113.html – Дата доступу: 08.05.2024.	uk_UA
dc.contributor.affiliation	ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра комп’ютерних наук, м. Тернопіль, Україна	uk_UA
dc.coverage.country	UA	uk_UA
Показва се в Колекции:	126 — Інформаційні системи та технології (бакалаври)

Файлове в Този Публикация:

Файл	Описание	Размер	Формат
Сороцький СТс-41 бакалавр 2024.pdf		1,49 MB	Adobe PDF	Изглед/Отваряне

Показване на запис на публикация Разлистване на Статистики

Публикацияте в DSpace са защитени с авторско право, с всички права запазени, освен ако не е указно друго.

Админ Инструменти