Методи автоматизованого перекладу природної мови на основі нейромережевої моделі “послідовність-послідовність”

Луцишин, Роман Олегович; Lutsyshyn, Roman Olehovych

Please use this identifier to cite or link to this item: http://elartu.tntu.edu.ua/handle/lib/33271

Title:	Методи автоматизованого перекладу природної мови на основі нейромережевої моделі “послідовність-послідовність”
Other Titles:	Methods of natural language computer-aid translation based on neuro network model of “sequence-sequence” type
Authors:	Луцишин, Роман Олегович Lutsyshyn, Roman Olehovych
Affiliation:	Тернопільський національний технічний університет імені Івана Пулюя
Bibliographic description (Ukraine):	Луцишин Р. О. Методи автоматизованого перекладу природної мови на основі нейромережевої моделі “послідовність-послідовність” : дипломна робота магістра за спеціальністю „123 — комп’ютерна інженерія“ / Р. О. Луцишин. — Тернопіль: ТНТУ, 2020. — 131 с.
Issue Date:	Dec-2020
Submitted date:	15-Dec-2020
Date of entry:	21-Dec-2020
Publisher:	Тернопільський національний технічний університет імені Івана Пулюя
Country (code):	UA
Place of the edition/event:	Тернопільський національний технічний університет імені Івана Пулюя
Supervisor:	Луцків, Андрій Мирославович Lutskiv, Andriy Myroslavovych
Committee members:	Баран, Ігор Олегович Baran, Ihor Olehovych
UDC:	004.62-004.855
Keywords:	123 комп’ютерна інженерія корпус нейромережева архітектура глибоке навчання енкодер декодер deep learning corpus neural network architecture decoder enoder
Number of pages:	131
Abstract:	Кваліфікаційну роботу магістра присвячено дослідженню та реалізації методів автоматизованого перекладу природної мови на основі нейромережевої моделі “послідовність-послідовність”. Розглянуто основні принципи та підходи до підготовки тренувальної вибірки даних, у тому числі з використанням глибоких нейронних мереж у якості енкодерів. Досліджено та проаналізовано наявні методи вирішення задачі перекладу природної мови, зокрема, було розглянуто декілька нейромережевих архітектур глибокого машинного навчання. Наведено приклади створення та обробки корпусів природної мови для вирішення задачі формування тренувальної та тестувальної вибірок даних. Було проведено повну оцінку вартості створення комп’ютерної системи, необхідної для вирішення поставленого завдання, а також описано повний процес розгортання програмного забезпечення на даному середовищі за допомогою сторонніх платформ. The master's thesis is devoted to the research and implementation of methods of automated translation of natural language on the basis of the neural network model "sequence-sequence". The basic principles and approaches to the preparation of training data sampling, including the use of deep neural networks as encoders, are considered. The existing methods of solving the problem of natural language translation have been studied and analyzed, in particular, several neural network architectures of deep machine origin have been considered. Examples of creation and processing of natural language corpora to solve the problem of forming training and test data samples are given. A full assessment of the cost of creating a computer system required to solve the problem was performed, as well as a complete process of deploying software in this environment using third-party platforms. The results of the research were a complete review of existing solutions to solve the problem, choosing the best technology, improving the latter, implementation and training of a deep neural network model such as sequence-sequence" for the problem of natural language translation.
Content:	1. ВСТУП 2. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 3. ОБҐРУНТУВАННЯ ОБРАНИХ ЗАСОБІВ 4. РЕАЛІЗАЦІЯ СИСТЕМИ ПЕРЕКЛАДУ ПРИРОДНОЇ МОВИ НА ОСНОВІ МОДЕЛІ "ПОСЛІДОВНІСТЬ-ПОСЛІДОВНІСТЬ" ТА НЕЙРОМЕРЕЖЕВОЇ АРХІТЕКТУРИ ТРАСНФОРМЕРС 5. ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ
URI:	http://elartu.tntu.edu.ua/handle/lib/33271
Copyright owner:	Луцишин Роман Олегович, 2020
References (Ukraine):	1. Alvaro P. NMT-Keras: a Very Flexible Toolkit with a Focus on Interactive NMT and Online Learning [Електронний ресурс] / P. Álvaro, C. Francisco. – 2018. – Режим доступу до ресурсу: https://arxiv.org/pdf/1807.03096v3.pdf. 2. Attention Is All You Need [Електронний ресурс] / [V. Ashish, S. Noam, P. Niki та ін.]. – 2017. – Режим доступу до ресурсу: https://arxiv.org/pdf/1706.03762.pdf. - Дата доступу: 14.12.2020 3. BERT Deep Learning Model [Електронний ресурс] – Режим доступу до ресурсу: https://github.com/google-research/bert. - Дата доступу: 14.12.2020 4. Changhan W. Neural Machine Translation with Byte-Level Subwords [Електронний ресурс] / W. Changhan, C. Kyunghyun, G. Jiatao. – 2019. – Режим доступу до ресурсу: https://arxiv.org/pdf/1909.03341.pdf. - Дата доступу: 14.12.2020 5. Character-based NMT with Transformer [Електронний ресурс] / G.Rohit,B. Laurent, D. Marc, G. Matthias // Arxiv. – 2019. – Режим доступу до ресурсу: https://arxiv.org/pdf/1911.04997.pdf. SubCharacter Chinese-English Neural Machine Translation with Wubi encoding [Електронний ресурс] / [Z. Wei, L. Feifei, W. Xiaodong та ін.] // Arxiv. – 2019. – Режим доступу до ресурсу: https://arxiv.org/pdf/1911.02737.pdf - Дата доступу: 14.12.2020 6. Delip R. Natural Language Processing with PyTorch: Build Intelligent Language Applications Using Deep Learning / R. Delip, M. Brian. – New York: O'Reilly Media, Inc, 2019. – 256 с. 7. Doc2Vec [Електронний ресурс] – Режим ресурсу:https://radimrehurek.com/gensim/models/doc2vec.html. - доступу Дата до доступу: 14.12.2020 8. Eli S. Deep Learning with PyTorch / S. Eli, A. Luca, V. Thomas. –Washington: Manning Publications, 2020. – 450 с. 9. Emily S. A Byte-sized Approach to Named Entity Recognition [Електронний ресурс] / S. Emily, N. Prem // Arxiv. – 2018. – Режим доступу до ресурсу: https://arxiv.org/pdf/1809.08386.pdf. 7210. Flair NER Tagger [Електронний ресурс] – Режим доступу до ресурсу: https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_TAGGI NG.md. - Дата доступу: 14.12.2020 11. Lutskiv, A., Popovych, N. (2020) Big data approach to developing adaptable corpus tools CEUR Workshop Proceedings, 2604, pp. 374-395. 12. Lutskiv, A., Popovych, N. (2020) Big data-based approach to automated linguistic analysis effectiveness. In: Proceedings of the 2020 IEEE 3rd International Conference on Data Stream Mining and Processing, DSMP 2020, pp. 438-443 13. Lutskiv, A., Popovych, N.(2019) Adaptable text corpus development for specific linguistic research. In: 2019 IEEE International Scientific-Practical Conference: Problems of Infocommunications Science and Technology, PIC S and T 2019 - Proceedings, pp. 217-223. 14. MedLane: A Benchmark Dataset for Understandable Medical Language Translation [Електронний ресурс] / W.Yaqing, Y. Quanzeng, X. Cao, M. Fenglong. – 2020. – Режим доступу до ресурсу: https://arxiv.org/pdf/2012.02420.pdf. - Дата доступу: 14.12.2020 15. Natural Language Toolkit [Електронний ресурс] – Режим доступу до ресурсу: https://www.nltk.org/py-modindex.html. - Дата доступу: 14.12.2020 16. Popovych N., Lutskiv A., Tyshtchuk A. (2020) Corpus-Based Concept Translation in: Фаховий та художній переклад: теорія, методологія, практика: збірник наукових праць / за заг. ред. А.Г. Гудманяна, С.І. Сидоренка. К.: Аграр Медіа Груп,340 с. С. 306-314. 17. Stanford NER [Електронний ресурс] – Режим доступу до ресурсу: https://nlp.stanford.edu/software/. - Дата доступу: 14.12.2020 18. Universal Sentence Encoder [Електронний ресурс] – Режим доступу до ресурсу: https://tfhub.dev/google/universal-sentence-encoder/1. - Дата доступу: 14.12.2020 19. Word2Vec [Електронний ресурс] – Режим доступу до ресурсу: https://radimrehurek.com/gensim/tutorial.html. - Дата доступу: 14.12.2020 7320. WordNet [Електронний ресурс] – Режим доступу до ресурсу: https://wordnet.princeton.edu/documentation. - Дата доступу: 14.12.2020 21. Марк Л. Python. Карманный справочник / Лутц Марк., 2016. – 320 с. 22. Массарон Л. Крупномасштабное машинное обучение вместе с Python / Л. Массарон, Б. Шарден, А. Боскетті., 2016. – 358 с. 23. Охеда Т. Прикладной анализ текстовых данных на Python / Т. Охеда, Б. Бенгфорт, Р. Білбро. – Санкт-Петербург: Питер, 2016. – 368 с. 24. Патрік Д. Искусственный интеллект с примерами на Python / Патрік., 2019. – 448 с. 25. Плас В. Python для сложных задач. Наука о данных и машинное обучение/ Вандер Плас. – Санкт-Петербург: Питер, 2016. – 576 с. 26. Шоллє Ф. Глубокое обучение на Python / Франуса Шоллє., 2016. – 400 с.
Content type:	Master Thesis
Appears in Collections:	123 — комп’ютерна інженерія, F7 Комп’ютерна інженерія

Files in This Item:

File	Description	Size	Format
717956_avtorska_7_magistr.doc		39,5 kB	Microsoft Word	View/Open
FULL_master.pdf		4,89 MB	Adobe PDF	View/Open

Show full item record

Admin Tools