Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://elartu.tntu.edu.ua/handle/lib/45462
Повний запис метаданих
Поле DCЗначенняМова
dc.contributor.advisorМарценюк, Василь Петрович-
dc.contributor.authorСороцький, Роман Михайлович-
dc.contributor.authorSorotskyi, Roman-
dc.date.accessioned2024-06-26T09:48:27Z-
dc.date.available2024-06-26T09:48:27Z-
dc.date.issued2024-06-24-
dc.date.submitted2024-06-10-
dc.identifier.citationСороцький Р. М. Вдосконалення великої мовної моделі (Large Language Model - LLM) для опрацювання тексту засобами штучного інтелекту : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 126 - інформаційні системи та технології / наук. кер. В. П. Марценюк. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2024. 48 с.uk_UA
dc.identifier.urihttp://elartu.tntu.edu.ua/handle/lib/45462-
dc.description.abstractПокращення моделей великих мовних моделей (LLM) є ключовим напрямком сучасних досліджень в галузі штучного інтелекту. Ці моделі, такі як GPT-4, демонструють значні успіхи у генерації тексту, розумінні природної мови та інших завданнях, проте завжди є простір для вдосконалення. Ось кілька напрямків, над якими працюють дослідники та інженери для покращення LLM-моделей: 1. Підвищення якості даних для навчання: Якість вихідних даних має вирішальне значення для ефективності LLM. Використання більш чистих, структурованих та різноманітних наборів даних допомагає моделям краще розуміти контекст і створювати більш точні відповіді. Крім того, активне навчання, де модель взаємодіє з користувачами для збирання зворотного зв'язку, також сприяє покращенню. 2. Оптимізація архітектури моделей: Зміни в архітектурі моделей можуть значно вплинути на їх продуктивність. Наприклад, введення нових типів шарів або механізмів уваги, які дозволяють моделі краще фокусуватися на важливих частинах вхідного тексту, може покращити результати. Також досліджуються методи зменшення розміру моделей без втрати якості, що знижує витрати на обчислення. 3. Покращення алгоритмів навчання: Використання вдосконалених методів оптимізації та регуляризації може допомогти у навчанні більш стабільних і узагальнюючих моделей. Наприклад, методи, такі як Dropout і Data Augmentation, можуть запобігати перенавчанню і підвищувати загальну продуктивність моделі. 4. Інтеграція знань та логіки: Одним із способів підвищення ефективності LLM є інтеграція зовнішніх знань та логічних висновків. Використання баз знань та онтологій може допомогти моделям краще розуміти контекст і здійснювати більш точні прогнози. 5. Зниження упереджень: LLM часто можуть виявляти упередження, присутні у вихідних даних. Розробка методів для виявлення та зниження таких упереджень є важливим аспектом покращення моделей. Це включає як попередню обробку даних, так і розробку алгоритмів, які враховують етичні та соціальні аспекти. 6. Застосування у різних доменах: Покращення LLM також полягає у їх адаптації для специфічних галузей, таких як медицина, право або фінанси. Спеціалізовані моделі, навчені на доменних даних, можуть показувати кращі результати у відповідних контекстах. Таким чином, покращення великих мовних моделей є комплексним завданням, що охоплює як технологічні аспекти, так і етичні міркування. Постійний прогрес у цій галузі сприяє створенню більш потужних, точних та етично відповідальних моделей, які можуть бути корисними в різних сферах життя. Improving large language models (LLMs) is a key focus in the field of artificial intelligence research. These models, such as GPT-4, demonstrate significant success in text generation, natural language understanding, and other tasks, but there is always room for enhancement. Here are several areas researchers and engineers are working on to improve LLMs: 1. Enhancing Training Data Quality: The quality of the training data is crucial for the effectiveness of LLMs. Using cleaner, more structured, and diverse datasets helps models better understand context and generate more accurate responses. Additionally, active learning, where the model interacts with users to gather feedback, also contributes to improvement. 2. Optimizing Model Architecture: Changes in model architecture can significantly impact performance. For instance, introducing new types of layers or attention mechanisms that allow the model to better focus on important parts of the input text can improve outcomes. Researchers are also exploring methods to reduce model size without compromising quality, thereby lowering computational costs. 3. Improving Training Algorithms: Utilizing advanced optimization and regularization methods can help train more stable and generalizable models. Techniques like dropout and data augmentation can prevent overfitting and enhance overall model performance. 4. Integrating Knowledge and Logic: One way to enhance LLMs is by integrating external knowledge and logical reasoning. Using knowledge bases and ontologies can help models better understand context and make more accurate predictions. 5. Reducing Bias: LLMs often exhibit biases present in the training data. Developing methods to detect and mitigate these biases is an important aspect of improving models. This includes both preprocessing data and designing algorithms that consider ethical and social factors. 6. Application in Various Domains: Improving LLMs also involves adapting them for specific fields such as medicine, law, or finance. Specialized models trained on domain-specific data can deliver better results in their respective contexts. Thus, improving large language models is a multifaceted task that encompasses both technological and ethical considerations. Ongoing progress in this field contributes to the creation of more powerful, accurate, and ethically responsible models that can be beneficial in various areas of life.uk_UA
dc.description.tableofcontentsВСТУП 9 1 АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 11 1.1 Переваги та обмеження LLM 11 1.2 Принцип функціонування LLM 12 1.3 Моделі-трансформери 13 1.4 Архітектура LLM 14 1.5 Типи моделей тансформерів та моделі навчання 19 2 НАЛАШТУВАННЯ МОДЕЛІ LLM 21 2.1 Точне налаштування великої мовної моделі (LLM) на спеціальному наборі даних за допомогою QLoRA 21 2.2 Методи тонкого налаштування 22 2.3 Що таке LoRa? 23 2.4 Що таке квантований LoRA ( QLoRA )? 24 2.4.1 Налаштування блокнота 24 2.4.2 Установка необхідних бібліотек 25 2.4.3 Завантаження набору даних 27 2.4.4 Створення конфігурації Bitsandbytes 28 2.4.5 Завантаження моделі Pre-Trained 28 2.4.6 Токенізація 29 2.4.7 Перевірка моделі за допомогою Zero Shot Inferencing 29 2.4.8 Попередня обробка набору даних 31 2.4.9 Підготовка моделі для QLoRA 34 2.4.10 Налаштування PEFT 34 2.4.11 Перехідник PEFT 35 2.4.12 Якісна оцінка моделі (людська оцінка) 37 2.4.13 Кількісна оцінка моделі (за допомогою показника ROUGE) 38 3 БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 41 3.1 Шляхи підвищення життєдіяльності людини 41 3.2 Інструкція для обслуговуючого персоналу на випадок виникнення аварії, пожежі 42 3.3 Вимоги до профілактичних медичних оглядів для працівників ПК 43 ВИСНОВОК 45 ПЕРЕЛІК ДЖЕРЕЛ 47 ДОДАТКИuk_UA
dc.language.isoukuk_UA
dc.subjectNLPuk_UA
dc.subjectLLMuk_UA
dc.subjectпокращення LLMuk_UA
dc.subjectLLM tuninguk_UA
dc.subjectалгоритми навчанняuk_UA
dc.subjectlearning algorithmsuk_UA
dc.subjectмоделі архітектуриuk_UA
dc.subjectmodels architectureuk_UA
dc.titleВдосконалення великої мовної моделі (Large Language Model - LLM) для опрацювання тексту засобами штучного інтелектуuk_UA
dc.title.alternativeImprovement of the Large Language Model (LLM) for Text Processing by Means of Artificial Intelligenceuk_UA
dc.typeBachelor Thesisuk_UA
dc.rights.holder© Сороцький Роман Михайлович, 2024uk_UA
dc.contributor.committeeMemberЖаровський, Руслан Олегович-
dc.coverage.placenameТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Українаuk_UA
dc.subject.udc004.9uk_UA
dc.relation.references1. Луцків, А. М., & Островський, А. Я. (2023). Характеристики та сфера застосування великих мовних моделей. Матеріали ⅩⅡ Міжнародної науково-практичної конференції молодих учених та студентів „Актуальні задачі сучасних технологій “, 452-452.uk_UA
dc.relation.references2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N.,... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.uk_UA
dc.relation.references3. Long short-term memory. [Електронний ресурс]. – Режим доступу: https://en.wikipedia.org/wiki/Long_short-term_memory. 17.05.2024.uk_UA
dc.relation.references4. Word Vectors. [Електронний ресурс] – Режим доступу до ресурсу: https://pelinbalci.com/2023/01/01/Word_Vectors.html. Дата доступу: 03.05.2024.uk_UA
dc.relation.references5. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.uk_UA
dc.relation.references6. Bolukbasi, T., Chang, K. W., Zou, J. Y., Saligrama, V., & Kalai, A. T. (2016). Man is to computer programmer as woman is to homemaker? debiasing word embeddings. Advances in neural information processing systems, 29.uk_UA
dc.relation.references7. Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP) (pp. 1532-1543).uk_UA
dc.relation.references8. Yogatama, D., Faruqui, M., Dyer, C., & Smith, N. (2015, June). Learning word representations with hierarchical sparse coding. In International Conference on Machine Learning (pp. 87-96). PMLR.uk_UA
dc.relation.references9. Yin, W., Rajani, N. F., Radev, D., Socher, R., & Xiong, C. (2020). Universal natural language processing with limited annotations: Try few-shot textual entailment as a start. arXiv preprint arXiv:2010.02584.uk_UA
dc.relation.references10. Wu, C. S., Hoi, S., Socher, R., & Xiong, C. (2020). TOD-BERT: Pre-trained natural language understanding for task-oriented dialogue. arXiv preprint arXiv:2004.06871.uk_UA
dc.relation.references11. Manning, C., Socher, R., Fang, G. G., & Mundra, R. (2017). CS224n: Natural Language Processing with Deep Learning1. [Електронний ресурс] – Режим доступу до ресурсу: https://www.youtube.com/playlist?list=PLoROMvodv4rMFqRtEuo6SGjY4XbRIVRd4. Дата доступу: 03.03.2024.uk_UA
dc.relation.references12. Стручок, В. С., Стручок, О. С., & Мудра, Д. В. (2017). Навчальний посібник до написання розділу дипломного проекту та дипломної роботи ″Безпека в надзвичайних ситуаціях ″для студентів всіх спец. денної, заочної (дистанційної) та екстернатної форм навчання.uk_UA
dc.relation.references13. Стручок, В. С. (2022). Техноекологія та цивільна безпека. Частина «Цивільна безпека». Навчальний посібник.uk_UA
dc.relation.references14. Гігієнічні вимоги до організації роботи з візуальними дисплейними терміналами електронно-обчислювальних машин. Наказ N 246 [Електронний ресурс] – Режим доступу до ресурсу: https://zakon.rada.gov.ua/rada/show/v0007282-98#Text – Дата доступу: 08.05.2024.uk_UA
dc.relation.references15. Про затвердження Порядку проведення медичних оглядів працівників певних категорій. Наказ МОЗ від 21.05.2007 р. № 246 [Електронний ресурс] – Режим доступу до ресурсу: http://search.ligazakon.ua/l_doc2.nsf/link1/RE14113.html – Дата доступу: 08.05.2024.uk_UA
dc.contributor.affiliationТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра комп’ютерних наук, м. Тернопіль, Українаuk_UA
dc.coverage.countryUAuk_UA
Розташовується у зібраннях:126 — Інформаційні системи та технології (бакалаври)

Файли цього матеріалу:
Файл Опис РозмірФормат 
Сороцький СТс-41 бакалавр 2024.pdf1,49 MBAdobe PDFПереглянути/відкрити


Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

Інструменти адміністратора