Veuillez utiliser cette adresse pour citer ce document : http://elartu.tntu.edu.ua/handle/lib/36653
Titre: Розподілена комп’ютерна система для прогнозування поширення рослинного покриву з використанням засобів машинного навчання
Autre(s) titre(s): Distributed computer system for predicting the spread of vegetation using machine learning tools
Auteur(s): Соболь, Віталій Миколайович
Sobol, Vitaliy
Affiliation: Тернопільський національний технічний університет імені Івана Пулюя
Ternopil Ivan Puluj National Technical University
Bibliographic description (Ukraine): Соболь В. М. Розподілена комп’ютерна система для прогнозування поширення рослинного покриву з використанням засобів машинного навчання : кваліфікаційна робота магістра за спеціальністю „123 — Комп’ютерна інженерія“ / В. М. Соболь. – Тернопіль: ТНТУ, 2021. – 99 c.
Bibliographic description (International): Vitaliy Sobol Distributed computer system for predicting the spread of vegetation using machine learning tools: master qualification work „123 — Computer Engineering“ / V. Sobol – Ternopil: TNTU, 2021. p. – 99.
Date de publication: déc-2021
Submitted date: déc-2021
Date of entry: 21-déc-2021
Editeur: Тернопільський національний технічний університет імені Івана Пулюя
Country (code): UA
Place of the edition/event: Тернопільський національний технічний університет імені Івана Пулюя
Supervisor: Луцків, Андрій Мирославович
Lutskiv, Andrii
Committee members: Савків, Володимир Богданович
Savkiv, Volodymyr
UDC: 681.518.3
Mots-clés: 123
комп’ютерна інженерія
big data
великі дані
Apache Spark
машинне навчання
machine learning
прогнозування
програмне забезпечення
software
forecasting
Number of pages: 99
Résumé: Метою роботи є розробка програмного забезпечення та імплементація алгоритмів машинного навчання для прогнозування лісового покриття певної території, зважаючи на різноманітність та унікальність навколишнього середовища, та початкових насаджень на певній території. У дослідженні проведено аналіз важливих понять, принципів і послідовності виконання процесів, що використовуються при проектуванні комп’ютерних систем та написання програм, та роботі з великими даними, зокрема, термінологічні особливості у процесі імплементації програмного забезпечення на прогнозування, що дало змогу зрозуміти і в подальшому визначити шляхи імплементації методів машинного навчання для підвищення ефективності зелених насаджень на певній території.
The aim of the work is to develop software and implement machine learning algorithms for forecasting the forest cover of a certain area, taking into account the diversity and uniqueness of the environment and the original plantings in a certain area. The study analyzes important concepts, principles and sequences of processes used in the design of computer systems and program writing, and work with big data, in particular, terminological features in the process of implementing software for forecasting, which allowed to understand further identify ways to implement machine learning methods to improve the efficiency of greenery in a given area.
Content: ПЕРЕЛІК ОСНОВНИХ УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ І СКОРОЧЕНЬ... 9 ВСТУП...10 РОЗДІЛ 1. АНАЛІЗ ОСОБЛИВОСТЕЙ ПРОЦЕСУ ОБРОБКИ ВЕЛИКИХ ДАНИХ ТА КЛАСИФІКАЦІЯ ОСНОВНИХ АЛГОРИТМІВ...14 1.1. Аналіз та основні виклики науки про дані...14 1.2. Порівняння Hadoop і Spark, як основних конкурентів по роботі з Великими даними...17 1.3. Обгрунтування вибору Apache Spark як основного фреймворка роботи...19 1.4. Швидкий перехід до регресії...22 1.5. Вектори та особливості...23 1.6. Тренувальні приклади...24 1.7. Дерева рішень та ліси...25 1.8. Набір даних лісового покриття...26 1.9. Висновки до розділу...27 РОЗДІЛ 2. ОПИС ТА ВИБІР МЕТОДІВ МАШИННОГО НАВЧАННЯ ПРИ ОБРОБЦІ ВЕЛИКИХ ДАНИХ...28 2.1. Попередня обробка даних та аналіз даних...28 2.1.1. Пропущені значення...29 2.1.2. Дублювання даних...29 2.1.3. Шуми та викиди...30 2.1.4. Очищення даних...31 2.1.5. Методи нормування даних...32 2.1.6. Методи заповнення пропусків...33 2.2. Вибір базових класифікаторів...34 2.2.1. Загальна постановка задачі класифікації...34 2.2.2. Лінійні класифікатори...36 2.2.2.1. Лінійний дискримінант Фішера...40 2.2.2.2. Одношаровий персептрон...40 2.2.2.3. Логістична регресія...40 2.2.2.4. Метод опорних векторів...41 2.2.3. Метод k найбільших сусідів...42 2.2.4. Наївний байєсівський класифікатор...43 2.2.5. Дерева рішень...44 2.3. Використання ансамблів моделей класифікації, як більш ефективного алгоритму...45 2.3.1. Беггінг...45 2.3.2. Бустинг...48 2.4. Метрики оцінки якості роботи класифікаторів ...50 2.4.1. Правильність (Accuracy)...51 2.4.2. Точність (Precision)..51 2.4.3. Повнота (Recall) або Чутливість (Sensitivity)... 51 2.4.4. Специфічність (Specificity).... 52 2.4.5. F - міра...52 2.4.6. Log-loss (logarithmic loss).... 52 2.4.7. ROC крива (Receiver Operating Characteristics Curve)... 52 2.5. Висновки до розділу...54 РОЗДІЛ 3. ВИБІР ТА ОПИС МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ОБРОБКИ ВЕЛИКИХ ДАНИХ...55 3.1. Підготовка вхідних даних та обробка файлу CSV...55 3.2. Перше дерево рішень (Decision Tree).... 57 3.3. Гіперпараметри дерева рішень...61 3.4. Налаштування дерев рішень...63 3.5. Переглянуто категорійні характеристики...68 3.6. Висновки до розділу...71 РОЗДІЛ 4. ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ...73 4.1. Охорона праці...73 4.2. Підвищення стійкості роботи об'єктів господарської діяльності у воєнний час...75 4.3. Висновки до розділу...80 ВИСНОВКИ...82 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ...84 Додаток А Тези конференцій...86 Додаток Б Повний код програми...90
URI/URL: http://elartu.tntu.edu.ua/handle/lib/36653
Copyright owner: © Соболь Віталій Миколайович, 2021
References (Ukraine): 1. Apache Spark офіційна сторінка: https://spark.apache.org/downloads.html 2. Повний набір даних: https://archive.ics.uci.edu/ml/machine-learning-databases/covtype/ 3. Sandy Ryza, Uri Laserson, Sean Owen, & Josh Wills “Advanced Analytics with Spark, second edition” 4. Фоурино Р. Электронное качество данных: скрытая перспектива очистки данных / Фоурино Р.: http://www.iso.ru/print/rus/document5820.phtml 5. Воронцов К.В. Машинное обучение: курс лекций / Воронцов К.В. — Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D085 %B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87 %D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_ %D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92 .%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29 6. Воронцов К.В. Лекции по логическим алгоритмам классификации / Воронцов К.В.: http://www.ccas.ru/voron/download/LogicAlgs.pdf 7. Курс "Машинное обучение" на ФКН ВШЭ : https://github.com/esokolov/ml-course-hse 8. Rodrıguez J.J. Rotation Forest: A New Classifier Ensemble Method / Rodrıguez J.J., Kuncheva L.I., Alonso C.J. // IEEE Transactions on Pattern Analysis and Machine Intelligence. ВШЭ : https://ieeexplore.ieee.org/abstract/document/1677518/ 9. Дьяконов А. Введение в анализ данных и машинное обучение / Дьяконов А.: https://alexanderdyakonov.files.wordpress.com/2017/06/book_boosting_pdf.pdf 10. Chen T. XGBoost: A Scalable Tree Boosting System/ Chen T., Guestrin C.: https://arxiv.org/abs/1603.02754 11. Tumer К.A Error Correlation and Error Reduction in Ensemble Classiers / Tumer К.A.: https://www.tandfonline.com/doi/abs/10.1080/095400996116839 12. Hand D.J. Measuring classifier performance: a coherent alternative to the area under the ROC curve / Hand D.J. – Springer Science+Business Media, LLC 2009: https://link.springer.com/content/pdf/10.1007%2Fs10994-009-5119-5.pdf 13. Dean Wampler, Alex Payne Programming Scala, 2nd edition 14. Alven Alexander Scala Cookbook 15. Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009. 16. Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2017-11-01). "Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning". 17. Noel, Mathew Mithra; L, Arunkumar; Trivedi, Advait; Dutta, Praneet (2021-09-04). "Growing Cosine Unit: A Novel Oscillatory Activation Function That86 Can Speedup Training and Reduce Parameters in Convolutional Neural Networks". 18. Tolles, Juliana; Meurer, William J (2016). "Logistic Regression Relating Patient Characteristics to Outcomes". JAMA. 316 (5): 533–4. 19. M. Strano; B.M. Colosimo (2006). "Logistic regression analysis for experimental determination of forming limit diagrams". International Journal of Machine Tools and Manufacture. 46 (6): 673–682. 20. Murphy, Kevin P. (2012). Machine Learning – A Probabilistic Perspective. The MIT Press. pp. 245pp. 21. Rodríguez, G. (2007). Lecture Notes on Generalized Linear Models. pp. Chapter 3, page 45 22. Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems 23. Piryonesi, S. Madeh; El-Diraby, Tamer E. (2021-02-01). "Using Machine Learning to Examine Impact of Type of Performance Indicator on Flexible Pavement Deterioration Modeling". Journal of Infrastructure Systems. 24. Lalchand, Vidhi (2020). "Extracting more from boosted decision trees: A high energy physics case study". 25. McCallum, Andrew. "Graphical Models, Lecture2: Bayesian Network Representation" (PDF). Retrieved 22 October 2019 26. Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06-01). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 27. Metsis, Vangelis; Androutsopoulos, Ion; Paliouras, Georgios (2006). Spam filtering with Naive Bayes—which Naive Bayes?. Third conference on email and anti-spam (CEAS).
Content type: Master Thesis
Collection(s) :123 — комп’ютерна інженерія



Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.

Outils d'administration