Аналіз методів підвищення продуктивності засобів опрацювання великих даних

Лебідко, Дмитро Миколайович; Lebidko, Dmytro Mykolaiovych

Por favor use este identificador para citas ou ligazóns a este item: http://elartu.tntu.edu.ua/handle/lib/38281

Rexistro de metadatos completo

Campo DC	Valor	Idioma
dc.contributor.advisor	Пасічник, Володимир Володимирович	-
dc.contributor.author	Лебідко, Дмитро Миколайович	-
dc.contributor.author	Lebidko, Dmytro Mykolaiovych	-
dc.date.accessioned	2022-06-28T06:35:11Z	-
dc.date.available	2022-06-28T06:35:11Z	-
dc.date.issued	2022-06-23	-
dc.date.submitted	2022-06-09	-
dc.identifier.citation	Лебідко Д. М. Аналіз методів підвищення продуктивності засобів опрацювання великих даних : кваліфікаційна робота освітнього рівня „Бакалавр“ „122 — комп’ютерні науки“ / Д. М. Лебідко. — Тернопіль : ТНТУ, 2022. — 50 с.	uk_UA
dc.identifier.uri	http://elartu.tntu.edu.ua/handle/lib/38281	-
dc.description.abstract	Кваліфікаційна робота присвячена аналізу методів підвищення продуктивності засобів опрацювання великих даних. Мета роботи підвищення якості надання послуг в галузі аналітичного опрацювання даних. В першому розділі кваліфікаційної роботи подано означення великих за обсягом даних. Описано великі дані та аналітику великих даних. Розглянуто типові архітектури для аналітики великих даних. Прокласифіковано типи BigDate-систем. Описано типи BigDate-навантаження. Розглянуто BigDate-архітектури. Висвітлено поняття бенчмаркінґу великих даних. Подано огляд налаштування систем баз даних. В другому розділі кваліфікаційної роботи проаналізовано підходи до підвищення продуктивності засобів опрацювання великих даних. Зокрема, розглянуто логічне та фізичне оформлення великих даних. Описано перемикачі та параметри систем. Висвітлено техніки машинного навчання для підвищення продуктивності BigData. Проаналізовано налаштування великомасштабних систем обробки BigData. Розглянуто розміщення сховища та розміщення даних. На основі аналізу обширного переліку наукових публікацій запропоновано рекомендації для підвищення продуктивності засобів опрацювання великих даних по категоріях. Qualification work is devoted to the analysis of methods of increase of productivity of means of processing of big data. The purpose of improving the quality of services in the field of analytical data processing. In the first section of the qualification work the definitions of large data are given. Big data and big data analytics are described. Typical architectures for big data analytics are considered. Types of BigDate systems are classified. Describes the types of BigDate load. BigDate-architecture is considered. The concept of big data benchmarking is covered. An overview of database system settings is provided. In the second section of the qualification work the approaches to increase the productivity of big data processing tools are analyzed. In particular, the logical and physical design of big data is considered. Switches and system parameters are described. Machine learning techniques to increase BigData productivity are highlighted. The settings of large-scale BigData processing systems are analyzed. Storage location and data placement are considered. Based on the analysis of an extensive list of scientific publications, recommendations for improving the productivity of large data processing tools by category are proposed.	uk_UA
dc.description.tableofcontents	ВСТУП 8 РОЗДІЛ 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ BIGDATA 9 1.1 Великі за обсягом дані 9 1.2 Великі дані та аналітика великих даних 11 1.3 Архітектури для аналітики великих даних 13 1.3.1 Типи BigData-систем 13 1.3.2 Типи BigData-навантаження 17 1.3.3 BigData-архітектури 19 1.4 Бенчмаркінг великих даних 22 1.5 Огляд налаштування систем БД 23 1.6 Висновок до першого розділу 24 РОЗДІЛ 2. АНАЛІЗ МЕТОДІВ ПІДВИЩЕННЯ ПРОДУКТИВНОСТІ ЗАСОБІВ ОПРАЦЮВАННЯ ВЕЛИКИХ ДАНИХ 25 2.1 Підходи до підвищення продуктивності засобів опрацювання великих даних 25 2.1.1 Логічне та фізичне оформлення 26 2.1.2 Перемикачі та параметри систем 27 2.1.3 Техніки машинного навчання для підвищення продуктивності BigData 28 2.2 Налаштування великомасштабних систем обробки BigData 29 2.3 Розміщення сховища та розміщення даних 30 2.4 Тиражування даних, передача даних, відмовостійкість та продуктивність BigData 31 2.5 Кешування та налаштування пам’яті 32 2.6 Сховища великих даних і логічна організація 33 2.7 Рекомендації для підвищення продуктивності засобів аналітичного опрацювання великих даних 34 2.8 Висновок до другого розділу 37 РОЗДІЛ 3. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 38 3.1 Управління та нагляд за безпекою життєдіяльності в Україні 38 3.2 Контроль за станом охорони праці 40 ВИСНОВКИ 43 ПЕРЕЛІК ДЖЕРЕЛ 44	uk_UA
dc.language.iso	uk	uk_UA
dc.subject	аналітичне опрацювання	uk_UA
dc.subject	analytical processing	uk_UA
dc.subject	налаштування продуктивності	uk_UA
dc.subject	performance tuning	uk_UA
dc.subject	платформи великих даних	uk_UA
dc.subject	big data platforms	uk_UA
dc.subject	продуктивність	uk_UA
dc.subject	performance	uk_UA
dc.subject	системи баз даних	uk_UA
dc.subject	database systems	uk_UA
dc.subject	cистеми великих даних	uk_UA
dc.subject	big data systems	uk_UA
dc.title	Аналіз методів підвищення продуктивності засобів опрацювання великих даних	uk_UA
dc.title.alternative	Analysis of methods to the productivity increase of big data processing tools	uk_UA
dc.type	Bachelor Thesis	uk_UA
dc.rights.holder	© Лебідко Дмитро Миколайович, 2022	uk_UA
dc.contributor.committeeMember	Стадник, Марія Андріївна	-
dc.coverage.placename	ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна	uk_UA
dc.subject.udc	004.62	uk_UA
dc.relation.references	1 D. Abadi, A. Ailamaki, D. Andersen, P. Bailis, M. Balazinska, P. Bernstein, P. Boncz, S. Chaudhuri, A. Cheung, A.H. Doan, L. Dong, M.J. Franklin, J. Freire, A. Halevy, J.M. Hellerstein, S. Idreos, D. Kossmann, T. Kraska, S. Krishnamurthy, V. Markl, S. Melnik, T. Milo, C. Mohan, T. Neumann, B.C. Ooi, F. Ozcan, J. Patel, A. Pavlo, R. Popa, R. Ramakrishnan, C. Ré, M. Stonebraker, D. Suciu, The Seattle report on database research, SIGMOD Rec. 48 (4) (2020) 44–53. 2 A. Arvanitis, S. Babu, E. Chu, A. Popescu, A. Simitsis, K. Wilkinson, Automated performance management for the big data stack, in: CIDR 2019 - 9th Biennial Conference on Innovative Data Systems Research, 2019. 3 Duda, O., et al, Selection of Effective Methods of Big Data Analytical Processing in Information Systems of Smart Cities. CEUR Workshop Proceedings 2631, pp. 68-78. 2020. 4 H. Zhang, B. Cho, E. Seyfe, A. Ching, M.J. Freedman, Riffle: optimized Shuffle service for large-scale data, in: Proceedings of the Thirteenth EuroSys Conference, 2018, pp. 1–15. 5 Duda, Oleksii, et al. "COVID-19 data collections and analytical processing." 2021 IEEE 16th International Conference on Computer Sciences and Information Technologies (CSIT). Vol. 2. IEEE, 2021. 6 Y. Riahi, S. Riahi, Big Data and Big Data analytics: concepts, types and technologies, Int. J. Res. Eng. 5 (9) (2018) 524–528. 7 E.G. Ularu, F.C. Puican, A. Apostu, M. Velicanu, Perspectives on Big Data and Big Data analytics, Database Syst. J. 3 (4) (2012) 3–14. 8 X. Jin, B.W. Wah, X. Cheng, Y. Wang, Significance and challenges of Big Data research, Big Data Res. 2 (2) (2015) 59–64. 9 U. Sivarajah, M.M. Kamal, Z. Irani, V. Weerakkody, Critical analysis of Big Data challenges and analytical methods, J. Bus. Res. 70 (2017) 263–286. 10 Duda, O., Pasichnyk, V., Kunanets, N., Antonii, R., & Matsiuk, O. (2020, September). Multidimensional Representation of COVID-19 Data Using OLAP Information Technology. In 2020 IEEE 15th International Conference on Computer Sciences and Information Technologies (CSIT) (Vol. 2, pp. 277-280). IEEE. 11 D. Abadi, R. Agrawal, A. Ailamaki, M. Balazinska, P.A. Bernstein, M.J. Carey, S. Chaudhuri, J. Dean, A. Doan, M.J. Franklin, J. Gehrke, L.M. Haas, A.Y. Halevy, J.M. Hellerstein, Y.E. Ioannidis, H.V. Jagadish, D. Kossmann, S. Madden, S. Mehrotra, T. Milo, J.F. Naughton, R. Ramakrishnan, V. Markl, C. Olston, B.C. Ooi, C. Re, D. Suciu, M. Stonebraker, T. Walter, J. Widom, Beckman report on database research, Commun. ACM 59 (2) (2016) 92–99. 12 Costa, Rogério Luís de C., et al. "A survey on data-driven performance tuning for big data analytics platforms." Big Data Research 25 (2021): 100206. 13 Bodnarchuk I., Duda O., Kharchenko A., Kunanets N., Matsiuk O., Pasichnyk V. Choice method of analytical information-technology platform for projects associated to the smart city class. ICTERI 2020 ICT in Education, Research and Industrial Applications. Integration, Harmonization and Knowledge Transfer Proceedings of the 14th International Conference on ICT in Education, Research and Industrial Applications. Integration, Harmonization and Knowledge Transfer. Volume I: Main Conference р.317-330. 14 The Apache Software Foundation, Apache Hadoop, https://hadoop .apache .org/. 15 A. Thusoo, J.S. Sarma, N. Jain, Z. Shao, P. Chakka, S. Anthony, H. Liu, P. Wyckoff, R. Murthy, Hive: a warehousing solution over a map-reduce framework, Proc. VLDB Endow. 2 (2) (2009) 1626–1629. 16 M. Kornacker, A. Behm, V. Bittorf, T. Bobrovytsky, C. Ching, A. Choi, J. Erickson, M. Grund, D. Hecht, M. Jacobs, I. Joshi, L. Kuff, D. Kumar, A. Leblang, N. Li, I. Pandis, H. Robinson, D. Rorke, S. Rus, J. Russell, D. Tsirogiannis, S. Wanderman-Milne, M. Yoder, Impala: a modern, open-source SQL engine for Hadoop, in: CIDR 2015, Seventh Biennial Conference on Innovative Data Systems Research, Online Proceedings, Asilomar, CA, USA, January 4-7, 2015, 2015, pp. 1406–1415. 17 M. Armbrust, R.S. Xin, C. Lian, Y. Huai, D. Liu, J.K. Bradley, X. Meng, T. Kaftan, M.J. Franklin, A. Ghodsi, M. Zaharia, Spark SQL: relational data processing in spark, in: Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, SIGMOD ’15, 2015, pp. 1383–1394. 18 Duda, O., Pasichnyk, V., Kunanets, N., Antonii, R., Matsiuk, O. Multidimensional Representation of COVID-19 Data Using OLAP Information Technology. International Scientific and Technical Conference on Computer Sciences and Information Technologies, 2020, 2, pp. 277–280, 9321889. 19 Apache Kudu - Fast Analytics on Fast Data, https://kudu .apache .org/. 20 A. Corbellini, C. Mateos, A. Zunino, D. Godoy, S. Schiaffino, Persisting big-data: the NoSQL landscape, Inf. Syst. 63 (2017) 1–23, https://doi .org /10 .1016 /j .is . 2016 .07.009. 21 B.G. Tudorica, C. Bucur, A comparison between several NoSQL databases with comments and notes, in: Proc. - RoEduNet IEEE Int. Conf., 2011. 22 R. Hecht, S. Jablonski, Nosql evaluation: a use case oriented survey, in: 2011 International Conference on Cloud and Service Computing, CSC, IEEE Computer Society, 2011, pp. 336–341. 23 E. Stefani, K. Hoxha, Implementing triple-stores using NoSQL databases, CEUR Workshop Proc. 2280 (2018) 86–92. 24 A.T. Kabakus, R. Kara, A performance evaluation of in-memory databases, J. King Saud Univ, Comput. Inf. Sci. 29 (4) (2017) 520–525, https:// doi .org /10 .1016 /j .jksuci .2016 .06 .007, http://www.sciencedirect .com /science / article /pii /S1319157816300453. 25 C. Li, B. Li, M.Z.A. Bhuiyan, L. Wang, J. Si, G. Wei, J. Li, Flutedb: an efficient and scalable in-memory time series database for sensor-cloud, J. Parallel Distrib. Comput. 122 (2018) 95–108, https://doi .org /10 .1016 /j .jpdc .2018 .07.021, http://www.sciencedirect .com /science /article /pii /S0743731518305422. 26 J. Arulraj, A. Pavlo, How to build a non-volatile memory database management system, in: S. Salihoglu, W. Zhou, R. Chirkova, J. Yang, D. Suciu (Eds.), Proceedings of the 2017 ACM International Conference on Management of Data, SIGMOD Conference, ACM, 2017, pp. 1753–1758. 27 D. Kim, W.G. Choi, H. Sung, S. Park, A scalable and persistent key-value store using non-volatile memory, in: Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing, SAC ’19, Association for Computing Machinery, New York, NY, USA, 2019, pp. 464–467, https://doi .org /10 .1145 /3297280.3298991. 28 C. Barba-González, A.J. Nebro, A. Benítez-Hidalgo, J. García-Nieto, J.F. Aldana-Montes, On the design of a framework integrating an optimization engine with streaming technologies, Future Gener. Comput. Syst. 107 (2020) 538–550, https://doi .org /10 .1016 /j .future .2020 .02 .020, http://www. sciencedirect .com /science /article /pii /S0167739X19315699. 29 V. Persico, A. Pescapé, A. Picariello, G. Sperlí, Benchmarking big data architectures for social networks data processing using public cloud platforms, Future Gener. Comput. Syst. 89 (2018) 98–109. 30 R. Han, L.K. John, J. Zhan, Benchmarking Big Data systems: a review, IEEE Trans. Serv. Comput. 11 (3) (2018) 580–597. 31 S. Chaudhuri, G. Weikum, Foundations of automated database tuning, in: Proceedings of the ACM SIGMOD International Conference on Management of Data, Baltimore, Maryland, USA, June 14-16, 2005, ACM, Baltimore, Maryland, USA, 2005, pp. 964–965. 32 A. Abouzeid, K. Bajda-Pawlikowski, D. Abadi, A. Silberschatz, A. Rasin, Hadoopdb: an architectural hybrid of MapReduce and DBMS technologies for analytical workloads, Proc. VLDB Endow. 2 (1) (2009) 922–933, https:// doi .org /10 .14778 /1687627.1687731. 33 N. Noon, J. Getta, Automated performance tuning of data management systems with materializations and indices, J. Comput. Commun. 04 (2016) 47–53. 34 P. Ameri, On a self-tuning index recommendation approach for databases, in: 32nd IEEE International Conference on Data Engineering Workshops, ICDE Workshops, 2016, pp. 201–205. 35 R.A.P. Rangel, J.P. Ortega, J.A. Martínez Flores, J.J.G. Barbosa, Mirna P. Ponce F., Least likely to use: a new page replacement strategy for improving database management system response time, in: Computer Science - Theory and Applications, First International Computer Science Symposium in Russia, CSR, 2006, pp. 514–523. 36 A.O. Thakare, P.S. Deshpande, Probabilistic page replacement policy in buffer cache management for flash-based cloud databases, Comput. Inform. 38 (6) (2019) 1237–1271. 37 G. Li, X. Zhou, S. Li, B. Gao, Qtune: a query-aware database tuning system with deep reinforcement learning, Proc. VLDB Endow. 12 (12) (2019) 2118–2130. 38 D.V. Aken, A. Pavlo, G.J. Gordon, B. Zhang, Automatic database management system tuning through large-scale machine learning, in: Proceedings of the ACM SIGMOD International Conference on Management of Data, 2017, pp. 1009–1024. 39 C. Zheng, Z. Ding, J. Hu, Self-tuning performance of database systems with neural network, in: Proceedings of 10th International Conference Intelligent Computing Theory ICIC, 2014, pp. 1–12. 40 J. Lu, Y. Chen, H. Herodotou, S. Babu, Speedup your analytics: automatic parameter tuning for databases and big data systems, Proc. VLDB Endow. 12 (12) (2018) 1970–1973. 41 G. Bansal, A. Gupta, U. Pyne, M. Singhal, S. Banerjee, A framework for performance analysis and tuning in Hadoop based clusters, in: Workshop on Smarter Planet and Big Data Analytics, SPBDA, 2014, pp. 1–6. 42 H. Herodotou, H. Lim, G. Luo, N. Borisov, L. Dong, B. Cetin, S. Babu, Starfish: a self-tuning system for Big Data analytics, in: CIDR 2011, Fifth Biennial Conference on Innovative Data Systems Research, 2011, pp. 261–272. 43 S.-W. Lee, B. Moon, C. Park, J.-M. Kim, S.-W. Kim, A case for flash memory SSD in enterprise database applications, in: Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data, 2008, pp. 1075–1086. 44 M. Bakratsas, P. Basaras, D. Katsaros, L. Tassiulas, Hadoop MapReduce performance on SSDs for analyzing social networks, Big Data Res. 11 (2018) 1–10. 45 S. Moon, J. Lee, X. Sun, Y. suk Kee, Optimizing the Hadoop MapReduce framework with high-performance storage devices, J. Supercomput. 71 (9) (2015) 3525–3548. 46 D.Q. Ren, B. Xia, File system performance tuning for standard Big Data benchmarks, in: Procs. Intl. Conf. on Computing and Data Engineering, ICCDE, 2018, pp. 22–26. 47 K.R. Krish, M.S. Iqbal, A.R. Butt, Venu: orchestrating SSDs in Hadoop storage, in: 2014 IEEE International Conference on Big Data (Big Data), 2014, pp. 207–212. 48 A. Rasmussen, V.T. Lam, M. Conley, G. Porter, R. Kapoor, A. Vahdat, Themis: an I/O-efficient MapReduce, in: Proceedings of the Third ACM Symposium on Cloud Computing - SoCC, ACM Press, 2012, pp. 1–14. 49 A.-K. Koliopoulos, P. Yiapanis, F. Tekiner, G. Nenadic, J. Keane, Towards automatic memory tuning for in-memory Big Data analytics in clusters, in: 2016 IEEE International Congress on Big Data (BigData Congress), 2016. 50 M. Zaharia, R.S. Xin, P. Wendell, T. Das, M. Armbrust, A. Dave, X. Meng, J. Rosen, S. Venkataraman, M.J. Franklin, A. Ghodsi, J. Gonzalez, S. Shenker, I. Stoica, Apache spark: a unified engine for Big Data processing, Commun. ACM 59 (11) (2016) 56–65. 51 K. Aziz, D. Zaidouni, M. Bellafkih, Leveraging resource management for efficient performance of Apache Spark, J. Big Data 6 (1) (2019) 78. 52 M. Pticekˇ , B. Vrdoljak, Big Data and new data Warehousing approaches, in: Proceedings of the 2017 International Conference on Cloud and Big Data Computing - ICCBDC 2017, ACM Press, 2017, pp. 6–10. 53 E. Costa, C. Costa, M.Y. Santos, Evaluating partitioning and bucketing strategies for hive-based Big Data Warehousing systems, J. Big Data 6 (1) (2019) 34. 54 C. Costa, M.Y. Santos, Evaluating several design patterns and trends in Big Data Warehousing systems, in: Advanced Information Systems Engineering, Springer International Publishing, 2018, pp. 459–473. 55 TPC Homepage, http://www.tpc .org. 56 Управління та нагляд за станом безпеки життєдіяльності. URL: https://pidru4niki.com/14360106/bzhd/upravlinnya_naglyad_stanom_bezpeki_zhittyediyalnosti. 57 Профілактика травматизму. URL: http://www.oht.sm.gov.ua/index.php/ uk/gumanitarna-politika/sotsialniy-zahyst/6249-profilaktika-travmatizmu. 58 Організація охорони праці на підприємстві. URL: https://www.sop.com.ua/article/378-organzatsya-ohoroni-prats. 59 Контроль за станом охорони праці на підприємстві. URL: https://www.sop.com.ua/article/262-qqq-16-m1-11-01-2016-kontrol-za-stanom-ohoroni-prats-na-pdprimstv. 60 Як контролювати стан охорони праці на підприємстві: основні кроки у поміч. URL: https://nov-rada.gov.ua/2021/06/18/iak-kontroliuvaty-stan-okhorony-pratsi-na-pidpryiemstvi-osnovni-kroky-u-pomich/.	uk_UA
dc.contributor.affiliation	ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра комп’ютерних наук, м. Тернопіль, Україна	uk_UA
dc.coverage.country	UA	uk_UA
Aparece nas Coleccións	122 — Компʼютерні науки, F3 Комп’ютерні науки (бакалаври)

Arquivos neste item

Arquivo	Descrición	Tamaño	Formato
2022_KRB_SNs-42_Lebidko_DM_v38.pdf		1,25 MB	Adobe PDF	Ver/abrir

Mostrar o rexistro en formato simple

Todos os documentos en Dspace estan protexidos por copyright, con todos os dereitos reservados

Ferramentas administrativas