Аналіз методів підвищення продуктивності засобів опрацювання великих даних

Лебідко, Дмитро Миколайович; Lebidko, Dmytro Mykolaiovych

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://elartu.tntu.edu.ua/handle/lib/38281

Назва:	Аналіз методів підвищення продуктивності засобів опрацювання великих даних
Інші назви:	Analysis of methods to the productivity increase of big data processing tools
Автори:	Лебідко, Дмитро Миколайович Lebidko, Dmytro Mykolaiovych
Приналежність:	ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра комп’ютерних наук, м. Тернопіль, Україна
Бібліографічний опис:	Лебідко Д. М. Аналіз методів підвищення продуктивності засобів опрацювання великих даних : кваліфікаційна робота освітнього рівня „Бакалавр“ „122 — комп’ютерні науки“ / Д. М. Лебідко. — Тернопіль : ТНТУ, 2022. — 50 с.
Дата публікації:	23-чер-2022
Дата подання:	9-чер-2022
Дата внесення:	28-чер-2022
Країна (код):	UA
Місце видання, проведення:	ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна
Науковий керівник:	Пасічник, Володимир Володимирович
Члени комітету:	Стадник, Марія Андріївна
УДК:	004.62
Теми:	аналітичне опрацювання analytical processing налаштування продуктивності performance tuning платформи великих даних big data platforms продуктивність performance системи баз даних database systems cистеми великих даних big data systems
Короткий огляд (реферат):	Кваліфікаційна робота присвячена аналізу методів підвищення продуктивності засобів опрацювання великих даних. Мета роботи підвищення якості надання послуг в галузі аналітичного опрацювання даних. В першому розділі кваліфікаційної роботи подано означення великих за обсягом даних. Описано великі дані та аналітику великих даних. Розглянуто типові архітектури для аналітики великих даних. Прокласифіковано типи BigDate-систем. Описано типи BigDate-навантаження. Розглянуто BigDate-архітектури. Висвітлено поняття бенчмаркінґу великих даних. Подано огляд налаштування систем баз даних. В другому розділі кваліфікаційної роботи проаналізовано підходи до підвищення продуктивності засобів опрацювання великих даних. Зокрема, розглянуто логічне та фізичне оформлення великих даних. Описано перемикачі та параметри систем. Висвітлено техніки машинного навчання для підвищення продуктивності BigData. Проаналізовано налаштування великомасштабних систем обробки BigData. Розглянуто розміщення сховища та розміщення даних. На основі аналізу обширного переліку наукових публікацій запропоновано рекомендації для підвищення продуктивності засобів опрацювання великих даних по категоріях. Qualification work is devoted to the analysis of methods of increase of productivity of means of processing of big data. The purpose of improving the quality of services in the field of analytical data processing. In the first section of the qualification work the definitions of large data are given. Big data and big data analytics are described. Typical architectures for big data analytics are considered. Types of BigDate systems are classified. Describes the types of BigDate load. BigDate-architecture is considered. The concept of big data benchmarking is covered. An overview of database system settings is provided. In the second section of the qualification work the approaches to increase the productivity of big data processing tools are analyzed. In particular, the logical and physical design of big data is considered. Switches and system parameters are described. Machine learning techniques to increase BigData productivity are highlighted. The settings of large-scale BigData processing systems are analyzed. Storage location and data placement are considered. Based on the analysis of an extensive list of scientific publications, recommendations for improving the productivity of large data processing tools by category are proposed.
Зміст:	ВСТУП 8 РОЗДІЛ 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ BIGDATA 9 1.1 Великі за обсягом дані 9 1.2 Великі дані та аналітика великих даних 11 1.3 Архітектури для аналітики великих даних 13 1.3.1 Типи BigData-систем 13 1.3.2 Типи BigData-навантаження 17 1.3.3 BigData-архітектури 19 1.4 Бенчмаркінг великих даних 22 1.5 Огляд налаштування систем БД 23 1.6 Висновок до першого розділу 24 РОЗДІЛ 2. АНАЛІЗ МЕТОДІВ ПІДВИЩЕННЯ ПРОДУКТИВНОСТІ ЗАСОБІВ ОПРАЦЮВАННЯ ВЕЛИКИХ ДАНИХ 25 2.1 Підходи до підвищення продуктивності засобів опрацювання великих даних 25 2.1.1 Логічне та фізичне оформлення 26 2.1.2 Перемикачі та параметри систем 27 2.1.3 Техніки машинного навчання для підвищення продуктивності BigData 28 2.2 Налаштування великомасштабних систем обробки BigData 29 2.3 Розміщення сховища та розміщення даних 30 2.4 Тиражування даних, передача даних, відмовостійкість та продуктивність BigData 31 2.5 Кешування та налаштування пам’яті 32 2.6 Сховища великих даних і логічна організація 33 2.7 Рекомендації для підвищення продуктивності засобів аналітичного опрацювання великих даних 34 2.8 Висновок до другого розділу 37 РОЗДІЛ 3. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 38 3.1 Управління та нагляд за безпекою життєдіяльності в Україні 38 3.2 Контроль за станом охорони праці 40 ВИСНОВКИ 43 ПЕРЕЛІК ДЖЕРЕЛ 44
URI (Уніфікований ідентифікатор ресурсу):	http://elartu.tntu.edu.ua/handle/lib/38281
Власник авторського права:	© Лебідко Дмитро Миколайович, 2022
Перелік літератури:	1 D. Abadi, A. Ailamaki, D. Andersen, P. Bailis, M. Balazinska, P. Bernstein, P. Boncz, S. Chaudhuri, A. Cheung, A.H. Doan, L. Dong, M.J. Franklin, J. Freire, A. Halevy, J.M. Hellerstein, S. Idreos, D. Kossmann, T. Kraska, S. Krishnamurthy, V. Markl, S. Melnik, T. Milo, C. Mohan, T. Neumann, B.C. Ooi, F. Ozcan, J. Patel, A. Pavlo, R. Popa, R. Ramakrishnan, C. Ré, M. Stonebraker, D. Suciu, The Seattle report on database research, SIGMOD Rec. 48 (4) (2020) 44–53. 2 A. Arvanitis, S. Babu, E. Chu, A. Popescu, A. Simitsis, K. Wilkinson, Automated performance management for the big data stack, in: CIDR 2019 - 9th Biennial Conference on Innovative Data Systems Research, 2019. 3 Duda, O., et al, Selection of Effective Methods of Big Data Analytical Processing in Information Systems of Smart Cities. CEUR Workshop Proceedings 2631, pp. 68-78. 2020. 4 H. Zhang, B. Cho, E. Seyfe, A. Ching, M.J. Freedman, Riffle: optimized Shuffle service for large-scale data, in: Proceedings of the Thirteenth EuroSys Conference, 2018, pp. 1–15. 5 Duda, Oleksii, et al. "COVID-19 data collections and analytical processing." 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT). Vol. 2. IEEE, 2021. 6 Y. Riahi, S. Riahi, Big Data and Big Data analytics: concepts, types and technologies, Int. J. Res. Eng. 5 (9) (2018) 524–528. 7 E.G. Ularu, F.C. Puican, A. Apostu, M. Velicanu, Perspectives on Big Data and Big Data analytics, Database Syst. J. 3 (4) (2012) 3–14. 8 X. Jin, B.W. Wah, X. Cheng, Y. Wang, Significance and challenges of Big Data research, Big Data Res. 2 (2) (2015) 59–64. 9 U. Sivarajah, M.M. Kamal, Z. Irani, V. Weerakkody, Critical analysis of Big Data challenges and analytical methods, J. Bus. Res. 70 (2017) 263–286. 10 Duda, O., Pasichnyk, V., Kunanets, N., Antonii, R., & Matsiuk, O. (2020, September). Multidimensional Representation of COVID-19 Data Using OLAP Information Technology. In 2020 IEEE 15th International Conference on Computer Sciences and Information Technologies (CSIT) (Vol. 2, pp. 277-280). IEEE. 11 D. Abadi, R. Agrawal, A. Ailamaki, M. Balazinska, P.A. Bernstein, M.J. Carey, S. Chaudhuri, J. Dean, A. Doan, M.J. Franklin, J. Gehrke, L.M. Haas, A.Y. Halevy, J.M. Hellerstein, Y.E. Ioannidis, H.V. Jagadish, D. Kossmann, S. Madden, S. Mehrotra, T. Milo, J.F. Naughton, R. Ramakrishnan, V. Markl, C. Olston, B.C. Ooi, C. Re, D. Suciu, M. Stonebraker, T. Walter, J. Widom, Beckman report on database research, Commun. ACM 59 (2) (2016) 92–99. 12 Costa, Rogério Luís de C., et al. "A survey on data-driven performance tuning for big data analytics platforms." Big Data Research 25 (2021): 100206. 13 Bodnarchuk I., Duda O., Kharchenko A., Kunanets N., Matsiuk O., Pasichnyk V. Choice method of analytical information-technology platform for projects associated to the smart city class. ICTERI 2020 ICT in Education, Research and Industrial Applications. Integration, Harmonization and Knowledge Transfer Proceedings of the 14th International Conference on ICT in Education, Research and Industrial Applications. Integration, Harmonization and Knowledge Transfer. Volume I: Main Conference р.317-330. 14 The Apache Software Foundation, Apache Hadoop, https://hadoop .apache .org/. 15 A. Thusoo, J.S. Sarma, N. Jain, Z. Shao, P. Chakka, S. Anthony, H. Liu, P. Wyckoff, R. Murthy, Hive: a warehousing solution over a map-reduce framework, Proc. VLDB Endow. 2 (2) (2009) 1626–1629. 16 M. Kornacker, A. Behm, V. Bittorf, T. Bobrovytsky, C. Ching, A. Choi, J. Erickson, M. Grund, D. Hecht, M. Jacobs, I. Joshi, L. Kuff, D. Kumar, A. Leblang, N. Li, I. Pandis, H. Robinson, D. Rorke, S. Rus, J. Russell, D. Tsirogiannis, S. Wanderman-Milne, M. Yoder, Impala: a modern, open-source SQL engine for Hadoop, in: CIDR 2015, Seventh Biennial Conference on Innovative Data Systems Research, Online Proceedings, Asilomar, CA, USA, January 4-7, 2015, 2015, pp. 1406–1415. 17 M. Armbrust, R.S. Xin, C. Lian, Y. Huai, D. Liu, J.K. Bradley, X. Meng, T. Kaftan, M.J. Franklin, A. Ghodsi, M. Zaharia, Spark SQL: relational data processing in spark, in: Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, SIGMOD ’15, 2015, pp. 1383–1394. 18 Duda, O., Pasichnyk, V., Kunanets, N., Antonii, R., Matsiuk, O. Multidimensional Representation of COVID-19 Data Using OLAP Information Technology. International Scientific and Technical Conference on Computer Sciences and Information Technologies, 2020, 2, pp. 277–280, 9321889. 19 Apache Kudu - Fast Analytics on Fast Data, https://kudu .apache .org/. 20 A. Corbellini, C. Mateos, A. Zunino, D. Godoy, S. Schiaffino, Persisting big-data: the NoSQL landscape, Inf. Syst. 63 (2017) 1–23, https://doi .org /10 .1016 /j .is . 2016 .07.009. 21 B.G. Tudorica, C. Bucur, A comparison between several NoSQL databases with comments and notes, in: Proc. - RoEduNet IEEE Int. Conf., 2011. 22 R. Hecht, S. Jablonski, Nosql evaluation: a use case oriented survey, in: 2011 International Conference on Cloud and Service Computing, CSC, IEEE Computer Society, 2011, pp. 336–341. 23 E. Stefani, K. Hoxha, Implementing triple-stores using NoSQL databases, CEUR Workshop Proc. 2280 (2018) 86–92. 24 A.T. Kabakus, R. Kara, A performance evaluation of in-memory databases, J. King Saud Univ, Comput. Inf. Sci. 29 (4) (2017) 520–525, https:// doi .org /10 .1016 /j .jksuci .2016 .06 .007, http://www.sciencedirect .com /science / article /pii /S1319157816300453. 25 C. Li, B. Li, M.Z.A. Bhuiyan, L. Wang, J. Si, G. Wei, J. Li, Flutedb: an efficient and scalable in-memory time series database for sensor-cloud, J. Parallel Distrib. Comput. 122 (2018) 95–108, https://doi .org /10 .1016 /j .jpdc .2018 .07.021, http://www.sciencedirect .com /science /article /pii /S0743731518305422. 26 J. Arulraj, A. Pavlo, How to build a non-volatile memory database management system, in: S. Salihoglu, W. Zhou, R. Chirkova, J. Yang, D. Suciu (Eds.), Proceedings of the 2017 ACM International Conference on Management of Data, SIGMOD Conference, ACM, 2017, pp. 1753–1758. 27 D. Kim, W.G. Choi, H. Sung, S. Park, A scalable and persistent key-value store using non-volatile memory, in: Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing, SAC ’19, Association for Computing Machinery, New York, NY, USA, 2019, pp. 464–467, https://doi .org /10 .1145 /3297280.3298991. 28 C. Barba-González, A.J. Nebro, A. Benítez-Hidalgo, J. García-Nieto, J.F. Aldana-Montes, On the design of a framework integrating an optimization engine with streaming technologies, Future Gener. Comput. Syst. 107 (2020) 538–550, https://doi .org /10 .1016 /j .future .2020 .02 .020, http://www. sciencedirect .com /science /article /pii /S0167739X19315699. 29 V. Persico, A. Pescapé, A. Picariello, G. Sperlí, Benchmarking big data architectures for social networks data processing using public cloud platforms, Future Gener. Comput. Syst. 89 (2018) 98–109. 30 R. Han, L.K. John, J. Zhan, Benchmarking Big Data systems: a review, IEEE Trans. Serv. Comput. 11 (3) (2018) 580–597. 31 S. Chaudhuri, G. Weikum, Foundations of automated database tuning, in: Proceedings of the ACM SIGMOD International Conference on Management of Data, Baltimore, Maryland, USA, June 14-16, 2005, ACM, Baltimore, Maryland, USA, 2005, pp. 964–965. 32 A. Abouzeid, K. Bajda-Pawlikowski, D. Abadi, A. Silberschatz, A. Rasin, Hadoopdb: an architectural hybrid of MapReduce and DBMS technologies for analytical workloads, Proc. VLDB Endow. 2 (1) (2009) 922–933, https:// doi .org /10 .14778 /1687627.1687731. 33 N. Noon, J. Getta, Automated performance tuning of data management systems with materializations and indices, J. Comput. Commun. 04 (2016) 47–53. 34 P. Ameri, On a self-tuning index recommendation approach for databases, in: 32nd IEEE International Conference on Data Engineering Workshops, ICDE Workshops, 2016, pp. 201–205. 35 R.A.P. Rangel, J.P. Ortega, J.A. Martínez Flores, J.J.G. Barbosa, Mirna P. Ponce F., Least likely to use: a new page replacement strategy for improving database management system response time, in: Computer Science - Theory and Applications, First International Computer Science Symposium in Russia, CSR, 2006, pp. 514–523. 36 A.O. Thakare, P.S. Deshpande, Probabilistic page replacement policy in buffer cache management for flash-based cloud databases, Comput. Inform. 38 (6) (2019) 1237–1271. 37 G. Li, X. Zhou, S. Li, B. Gao, Qtune: a query-aware database tuning system with deep reinforcement learning, Proc. VLDB Endow. 12 (12) (2019) 2118–2130. 38 D.V. Aken, A. Pavlo, G.J. Gordon, B. Zhang, Automatic database management system tuning through large-scale machine learning, in: Proceedings of the ACM SIGMOD International Conference on Management of Data, 2017, pp. 1009–1024. 39 C. Zheng, Z. Ding, J. Hu, Self-tuning performance of database systems with neural network, in: Proceedings of 10th International Conference Intelligent Computing Theory ICIC, 2014, pp. 1–12. 40 J. Lu, Y. Chen, H. Herodotou, S. Babu, Speedup your analytics: automatic parameter tuning for databases and big data systems, Proc. VLDB Endow. 12 (12) (2018) 1970–1973. 41 G. Bansal, A. Gupta, U. Pyne, M. Singhal, S. Banerjee, A framework for performance analysis and tuning in Hadoop based clusters, in: Workshop on Smarter Planet and Big Data Analytics, SPBDA, 2014, pp. 1–6. 42 H. Herodotou, H. Lim, G. Luo, N. Borisov, L. Dong, B. Cetin, S. Babu, Starfish: a self-tuning system for Big Data analytics, in: CIDR 2011, Fifth Biennial Conference on Innovative Data Systems Research, 2011, pp. 261–272. 43 S.-W. Lee, B. Moon, C. Park, J.-M. Kim, S.-W. Kim, A case for flash memory SSD in enterprise database applications, in: Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data, 2008, pp. 1075–1086. 44 M. Bakratsas, P. Basaras, D. Katsaros, L. Tassiulas, Hadoop MapReduce performance on SSDs for analyzing social networks, Big Data Res. 11 (2018) 1–10. 45 S. Moon, J. Lee, X. Sun, Y. suk Kee, Optimizing the Hadoop MapReduce framework with high-performance storage devices, J. Supercomput. 71 (9) (2015) 3525–3548. 46 D.Q. Ren, B. Xia, File system performance tuning for standard Big Data benchmarks, in: Procs. Intl. Conf. on Computing and Data Engineering, ICCDE, 2018, pp. 22–26. 47 K.R. Krish, M.S. Iqbal, A.R. Butt, Venu: orchestrating SSDs in Hadoop storage, in: 2014 IEEE International Conference on Big Data (Big Data), 2014, pp. 207–212. 48 A. Rasmussen, V.T. Lam, M. Conley, G. Porter, R. Kapoor, A. Vahdat, Themis: an I/O-efficient MapReduce, in: Proceedings of the Third ACM Symposium on Cloud Computing - SoCC, ACM Press, 2012, pp. 1–14. 49 A.-K. Koliopoulos, P. Yiapanis, F. Tekiner, G. Nenadic, J. Keane, Towards automatic memory tuning for in-memory Big Data analytics in clusters, in: 2016 IEEE International Congress on Big Data (BigData Congress), 2016. 50 M. Zaharia, R.S. Xin, P. Wendell, T. Das, M. Armbrust, A. Dave, X. Meng, J. Rosen, S. Venkataraman, M.J. Franklin, A. Ghodsi, J. Gonzalez, S. Shenker, I. Stoica, Apache spark: a unified engine for Big Data processing, Commun. ACM 59 (11) (2016) 56–65. 51 K. Aziz, D. Zaidouni, M. Bellafkih, Leveraging resource management for efficient performance of Apache Spark, J. Big Data 6 (1) (2019) 78. 52 M. Pticekˇ , B. Vrdoljak, Big Data and new data Warehousing approaches, in: Proceedings of the 2017 International Conference on Cloud and Big Data Computing - ICCBDC 2017, ACM Press, 2017, pp. 6–10. 53 E. Costa, C. Costa, M.Y. Santos, Evaluating partitioning and bucketing strategies for hive-based Big Data Warehousing systems, J. Big Data 6 (1) (2019) 34. 54 C. Costa, M.Y. Santos, Evaluating several design patterns and trends in Big Data Warehousing systems, in: Advanced Information Systems Engineering, Springer International Publishing, 2018, pp. 459–473. 55 TPC Homepage, http://www.tpc .org. 56 Управління та нагляд за станом безпеки життєдіяльності. URL: https://pidru4niki.com/14360106/bzhd/upravlinnya_naglyad_stanom_bezpeki_zhittyediyalnosti. 57 Профілактика травматизму. URL: http://www.oht.sm.gov.ua/index.php/ uk/gumanitarna-politika/sotsialniy-zahyst/6249-profilaktika-travmatizmu. 58 Організація охорони праці на підприємстві. URL: https://www.sop.com.ua/article/378-organzatsya-ohoroni-prats. 59 Контроль за станом охорони праці на підприємстві. URL: https://www.sop.com.ua/article/262-qqq-16-m1-11-01-2016-kontrol-za-stanom-ohoroni-prats-na-pdprimstv. 60 Як контролювати стан охорони праці на підприємстві: основні кроки у поміч. URL: https://nov-rada.gov.ua/2021/06/18/iak-kontroliuvaty-stan-okhorony-pratsi-na-pidpryiemstvi-osnovni-kroky-u-pomich/.
Тип вмісту:	Bachelor Thesis
Розташовується у зібраннях:	122 — Компʼютерні науки, F3 Комп’ютерні науки (бакалаври)

Файли цього матеріалу:

Файл	Опис	Розмір	Формат
2022_KRB_SNs-42_Lebidko_DM_v38.pdf		1,25 MB	Adobe PDF	Переглянути/відкрити

Показати повний опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

Інструменти адміністратора