Please use this identifier to cite or link to this item:
http://elartu.tntu.edu.ua/handle/lib/48111
Title: | Методи та засоби розгортання артефактів екосистеми опрацювання великих даних Hadoop |
Other Titles: | Methods and tools for deploying artifacts in the Hadoop Big Data processing ecosystem |
Authors: | Мельник, Назарій Олександрович Melnyk, Nazarii |
Affiliation: | Тернопільський національний технічний університет імені Івана Пулюя Ternopil Ivan Puluj National Technical University |
Bibliographic description (Ukraine): | Мельник Н. О. Методи та засоби розгортання артефактів екосистеми опрацювання великих даних Hadoop : кваліфікаційна робота на здобуття ступеня магістр: спец. 123 — комп’ютерна інженерія / наук.кер. А. М. Луцків. Тернопіль: ТНТУ, 2024. 71 с. |
Bibliographic description (International): | Melnyk N. Methods and tools for deploying artifacts in the Hadoop Big Data processing ecosystem : Master Thesis „123 — Computer Engineering“ / Nazarii Melnyk - Ternopil, TNTU, 2024 – 71 p. |
Issue Date: | 22-Dec-2024 |
Submitted date: | 23-Jun-2024 |
Date of entry: | 2-Feb-2025 |
Publisher: | Тернопільський національний технічний університет імені Івана Пулюя |
Country (code): | UA |
Place of the edition/event: | Тернопільський національний технічний університет імені Івана Пулюя |
Supervisor: | Луцків, Андрій Мирославович Lutskiv, Andriy |
Committee members: | Бревус, Віталій Миколайович Brevus, Vitaly |
UDC: | 004.75+004.42 |
Keywords: | 123 комп’ютерна інженерія артефакт Великі Дані Bigtop Ambari Big Data artifact deployment розгортання Hadoop |
Number of pages: | 71 |
Abstract: | Кваліфікаційна робота присвячена дослідженню методів і засобів розгортання артефактів екосистеми опрацювання великих даних Hadoop. Робота включає в себе аналіз існуючих досліджень у сфері розгортання екосистеми Hadoop, а також акцентує увагу на можливостях використання комбінованого методу для розгортання та тестування власних артефактів сервісів Hadoop.
Під час виконання кваліфікаційної роботи проведено детальний теоретичний огляд, аналіз та порівняння наявних на даний момент методів і інструментів розгортання. На основі зробленого теоретичного аналізу запропоновано новий метод розгортання екосистеми Hadoop, що використовує поєднання декількох з інструментів, спрямованих на виконання поставленого завдання.
Проведено експериментальні дослідження розгортання артефактів, використовуючи засоби та інструменти, які було обрано при теоретичному аналізі для реалізації запропонованого комбінованого методу розгортання.
Результати проведеного дослідження можуть мати велике теоретичне та практичне значення для полегшення розгортання сформованих артефактів, що налаштовані під специфічні вимоги поставлених завдань, а також забезпечення високої гнучкості, масштабованості екосистми Hadoop та зручності використання. The Master’s graduation thesis is dedicated to to researching methods and tools for deploying artifacts within the Hadoop big data processing ecosystem. The work includes an analysis of existing studies in the field of Hadoop ecosystem deployment and emphasizes the potential of utilizing a combined approach for deploying and testing custom Hadoop service artifacts. During the preparation of the thesis, a detailed theoretical review, analysis, and comparison of currently available deployment methods and tools were conducted. Based on the theoretical analysis, a new Hadoop ecosystem deployment method was proposed, which combines several tools to address the defined objectives. Experimental studies were carried out to deploy artifacts using the tools and methods selected during the theoretical analysis to implement the proposed combined deployment method. The results of the study may have significant theoretical and practical value by facilitating the deployment of tailored artifacts configured to meet specific task requirements. Additionally, they contribute to enhancing the flexibility, scalability, and usability of the Hadoop ecosystem. |
Content: | ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І ТЕРМІНІВ 8 ВСТУП 9 РОЗДІЛ 1 ОГЛЯД ЕКОСИСТЕМИ ОПРАЦЮВАННЯ ВЕЛИКИХ ДАНИХ HADOOP ТА АНАЛІЗ МЕТОДІВ РОЗГОРТАННЯ ЇЇ АРТЕФАКТІВ 12 1.1. Огляд екосистеми опрацювання великих даних Hadoop 12 1.2. Дослідження та аналіз проблематики розгортання екосистеми Hadoop 17 1.3. Огляд та аналіз існуючих методів та засобів розгортання екосистеми опрацювання великих даних Hadoop 19 1.3.1. Традиційний метод розгортання кластера Hadoop 19 1.3.2. Використання інструментів автоматизації 20 1.3.3. Використання власних збудованих артефактів 20 РОЗДІЛ 2 ВИБІР МЕТОДІВ ТА ІНСТРУМЕНТІВ РОЗГОРТАННЯ АРТЕФАКТІВ ЕКОСИСТЕМИ HADOOP. ТЕОРЕТИЧНЕ ОБҐРУНТУВАННЯ 23 2.2. Вибір інструментів автоматизації для формування та розгортання артефактів екосистеми Hadoop 23 2.3. Вибір додаткового інструменту автоматизації для виконання невеликих допоміжних програм при розгортанні 28 2.3. Поєднання інструментів Ambari та Apache Bigtop 31 2.4. Побудова власних артефактів за допомогою Apache Bigtop 33 РОЗДІЛ 3 ПРАКТИЧНЕ ДОСЛІДЖЕННЯ ТА РЕАЛІЗАЦІЯ РОЗГОРТАННЯ АРТЕФАКТІВ ЕКОСИСТЕМИ HADOOP 36 3.1. Вибір версій сервісів та формування власних артефактів екосистеми Hadoop 36 3.1.1. Опис середовища виконання та вибір версії проєкту Ambari 36 3.1.2. Вибір версії проєкту Apache Bigtop. Дослідження його структури та опис основних команд 37 3.1.3. Використання стеків сервісів Hadoop та Ambari MPack 38 3.1.4. Формування власних артефактів Ambari та їх завантаження у віддалені репозиторії 39 3.1.5. Ознайомлення із структурою проєкту Apache Bigtop та формування власних артефактів сервісів стеку Bigtop 40 3.2. Розгортання екосистеми Hadoop з використанням власних артефактів 42 3.3. Варіанти переналаштування артефактів екосистеми Hadoop з використанням Apache Bigtop 44 3.4. Налаштування власного CI/CD з використанням сервісу Jenkins 46 РОЗДІЛ 4 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 52 4.1. Охорона праці 52 4.2. Підвищення надійності захисту працівників підприємства під час роботи в надзвичайних ситуаціях 54 ВИСНОВКИ 57 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 58 Додаток A. Тези конференцій 62 Додаток Б. Скрипти для виконання завдань CI/CD реалізації 70 |
URI: | http://elartu.tntu.edu.ua/handle/lib/48111 |
Copyright owner: | © Мельник Назарій Олександрович, 2024 © Melnyk Nazarii, 2024 |
References (Ukraine): | Луцик Н.С., Луцків А.М., Осухівська Г.М., Тиш Є.В. Програма та методичні
рекомендації з проходження практики за тематикою кваліфікаційної роботи для
студентів спеціальності 123 «Комп’ютерна інженерія» другого (магістерського) рівня
вищої освіти усіх форм навчання. Тернопіль: ТНТУ. 2024. 45 с.
Луцик Н.С., Луцків А.М., Осухівська Г.М., Тиш Є.В. Методичні
рекомендації до виконання кваліфікаційної роботи магістра для студентів
спеціальності 123 «Комп’ютерна інженерія» другого (магістерського) рівня вищої
освіти усіх форм навчання. Тернопіль: ТНТУ. 2024. 44 с. Варавін А.В., Лещишин Ю.З., Чайковський А.В. Методичні вказівки до виконання курсового проєкту з дисципліни «Дослідження і проєктування комп’ютерних систем та мереж» для здобувачів другого (магістерського) рівня вищої освіти спеціальності 123 «Комп’ютерна інженерія» усіх форм навчання. Тернопіль: ТНТУ, 2024. 32 с. Мельник Н. Методи та засоби розгортання артефактів екосистеми Hadoop. Матеріали VІI міжнародної студентської науково-технічної конференції "Природничі та гуманітарні науки. Актуальні питання" Тернопільського національного технічного університету імені Івана Пулюя, Тернопіль: ТНТУ, 2024, 345-346 с. Мельник Н. О. Розгортання власних артефактів екосистеми Hadoop. Матеріали V міжнародної науково-практичної конференції учених та студентів «Цифрова економіка як фактор інновацій та сталого розвитку суспільства» Тернопільського національного технічного університету імені Івана Пулюя, Тернопіль: ТНТУ, 2024, 182-183 с. Стручок В. С. Методичний посібник для здобувачів освітнього ступеня «магістр» всіх спеціальностей денної та заочної (дистанційної) форм навчання «БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ» Тернопіль: ТНТУ, 2024. 155 с. Микитишин А. Г., Митник М. М., Стухляк П. Д., Пасічник В. В. Комп’ютерні мережі. Книга 1 [навчальний посібник]. Львів: «Магнолія 2006», 2013. 256 с. Микитишин А. Г., Митник М. М., Стухляк П. Д., Пасічник В. В. Комп’ютерні мережі. Книга 2. [навчальний посібник]. Львів: "Магнолія 2006", 2014. 312 с. Джавад А. Ш., Мухаммад А. Х. Big Data Systems. A 360-degree Approach. Лондон: Taylor & Francis, 2023. 340 с. Офіційний сайт Apache Hadoop. Apache Hadoop. URL: https://hadoop.apache.org (дата звернення: 10.09.2024). Інформація про HDFS. HDFS Architecture. URL: https://hadoop.apache.org/docs/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html (дата звернення: 20.09.2024). Інформація про фреймворк MapReduce. MapReduce Tutorial. URL: https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html (дата звернення: 20.09.2024). Офіційний сайт Apache Zookeeper. Apache Zookeeper. URL: https://zookeeper.apache.org (дата звернення: 21.09.2024). Офіційний сайт Apache Hive. Apache Hive. URL: https://hive.apache.org (дата звернення 25.09.2024). Офіційний сайт Apache Spark. Apache Spark. URL: https://spark.apache.org (дата звернення: 05.10.2024). Офіційний сайт Apache Kafka. Apache Kafka. URL: , (дата звернення: 06.10.2024). Apache Bigtop. Apache Software Foundation. URL: https://bigtop.apache.org/, (дата звернення: 10.10.2024). Apache Ambari. Apache Software Foundation. URL: https://ambari.apache.org/, (дата звернення: 11.10.2024). Defining a Custom Stack and Services. Confluence Apache Ambari. URL: https://cwiki.apache.org/confluence/display/AMBARI/Defining+a+Custom+Stack+and+Services, (дата звернення: 22.10.2024). Davoudian, A. and M. Liu, "Big Data Systems", ACM Computing Surveys, 53(5), 2020, pp. 1–39. Chang, W.L. and N. Grady, "NIST Big Data Interoperability Framework: Volume 1, Definitions", 2019. Roy, C., S. Swarup Rautaray, and M. Pandey, "Big Data Optimization Techniques: A Survey", International Journal of Information Engineering and Electronic Business, 10(4), 2018, pp. 41–48. Günther, W.A., M.H. Rezazade Mehrizi, M. Huysman, and F. Feldberg, "Debating big data: A literature review on realizing value from big data", The Journal of Strategic Information Systems, 26(3), 2017, pp. 191–209. Volk, M., D. Staegemann, N. Jamous, M. Pohl, and K. Turowski, "Providing Clarity on Big Data Technologies", International Journal of Intelligent Information Technologies, 16(2), 2020, pp. 49–73. Volk, M., D. Staegemann, S. Bosse, R. Häusler, and K. Turowski, "Approaching the (Big) Data Science Engineering Process", in Proceedings, 5th International Conference on Internet of Things, Big Data and Security, Prague, Czech Republic. 2020. SCITEPRESS. Immonen, A., P. Paakkonen, and E. Ovaska, "Evaluating the Quality of Social Media Data in Big Data Architecture", IEEE Access, 3, 2015, pp. 2028–2043. Kune, R., P.K. Konugurthi, A. Agarwal, R.R. Chillarige, and R. Buyya, "The anatomy of big data computing", Software: Practice and Experience, 46(1), 2016, pp. 79–105. Casale, G. and C. Li, "Enhancing Big Data Application Design with the DICE Framework", in Advances in Service-Oriented and Cloud Computing, Z.Á. Mann and V. Stolz, Editors. Springer International Publishing : Cham, 2018. Офіційна документація Cloudera. Cloudera. URL: https://docs.cloudera.com/cdsw/1.10.5/architecture-overview/topics/cdsw-cloudera-manager.html (дата звернення: 23.10.2024). Офіційний сайт Clemlab Ambari та ODP. Open Source Data Platform - ODP - Clemlab. URL: https://www.opensourcedataplatform.com/ (дата звернення: 24.10.2024) Офіційна документаця Puppet. Documentation Puppet by Perforce. URL: https://help.puppet.com/ (дата звернення: 25.10.2024). Офіційна документаця Chef. Chef Documentation. URL: https://docs.chef.io/ (дата звернення: 25.10.2024). Офіційна документаця Ansible. Ansible Documentation. URL: https://docs.ansible.com/ansible/latest/index.html (дата звернення: 25.10.2024). Реалізація CI від Apache Bigtop. Bigtop CI Setup Guide. URL: https://cwiki.apache.org/confluence/display/BIGTOP/Bigtop+CI+Setup+Guide (дата звернення: 04.11.2024). Формування та реалізація власного стеку Ambari. How-To Define Stacks and Services. URL: https://cwiki.apache.org/confluence/display/AMBARI/How-To+Define+Stacks+and+Services, (дата звернення: 06.11.2024). В.С. Стручок. Навчальний посібник «ТЕХНОЕКОЛОГІЯ ТА ЦИВІЛЬНА БЕЗПЕКА. ЧАСТИНА «ЦИВІЛЬНА БЕЗПЕКА»». Тернопіль: ФОП Паляниця В. А., 2022. 156 с. A. Lutskiv, N. Popovych, Big data-based approach to automated linguistic analysis effectiveness, Proceedings of the 2020 IEEE 3rd International Conference on Data Stream Mining and Processing, DSMP 2020, Lviv, (2020) 438-443. A. Lutskiv, N. Popovych, Big data approach to developing adaptable corpus tools CEUR Workshop Proceedings, Lviv, (2020) 374-395. |
Content type: | Master Thesis |
Appears in Collections: | 123 — комп’ютерна інженерія |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Nazarii_Melnyk.pdf | 4,04 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.
Admin Tools