Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал:
http://elartu.tntu.edu.ua/handle/lib/36653
Назва: | Розподілена комп’ютерна система для прогнозування поширення рослинного покриву з використанням засобів машинного навчання |
Інші назви: | Distributed computer system for predicting the spread of vegetation using machine learning tools |
Автори: | Соболь, Віталій Миколайович Sobol, Vitaliy |
Приналежність: | Тернопільський національний технічний університет імені Івана Пулюя Ternopil Ivan Puluj National Technical University |
Бібліографічний опис: | Соболь В. М. Розподілена комп’ютерна система для прогнозування поширення рослинного покриву з використанням засобів машинного навчання : кваліфікаційна робота магістра за спеціальністю „123 — Комп’ютерна інженерія“ / В. М. Соболь. – Тернопіль: ТНТУ, 2021. – 99 c. |
Bibliographic description: | Vitaliy Sobol Distributed computer system for predicting the spread of vegetation using machine learning tools: master qualification work „123 — Computer Engineering“ / V. Sobol – Ternopil: TNTU, 2021. p. – 99. |
Дата публікації: | гру-2021 |
Дата подання: | гру-2021 |
Дата внесення: | 21-гру-2021 |
Видавництво: | Тернопільський національний технічний університет імені Івана Пулюя |
Країна (код): | UA |
Місце видання, проведення: | Тернопільський національний технічний університет імені Івана Пулюя |
Науковий керівник: | Луцків, Андрій Мирославович Lutskiv, Andrii |
Члени комітету: | Савків, Володимир Богданович Savkiv, Volodymyr |
УДК: | 681.518.3 |
Теми: | 123 комп’ютерна інженерія big data великі дані Apache Spark машинне навчання machine learning прогнозування програмне забезпечення software forecasting |
Кількість сторінок: | 99 |
Короткий огляд (реферат): | Метою роботи є розробка програмного забезпечення та імплементація алгоритмів машинного навчання для прогнозування лісового покриття певної території, зважаючи на різноманітність та унікальність навколишнього середовища, та початкових насаджень на певній території. У дослідженні проведено аналіз важливих понять, принципів і послідовності виконання процесів, що використовуються при проектуванні комп’ютерних систем та написання програм, та роботі з великими даними, зокрема, термінологічні особливості у процесі імплементації програмного забезпечення на прогнозування, що дало змогу зрозуміти і в подальшому визначити шляхи імплементації методів машинного навчання для підвищення ефективності зелених насаджень на певній території. The aim of the work is to develop software and implement machine learning algorithms for forecasting the forest cover of a certain area, taking into account the diversity and uniqueness of the environment and the original plantings in a certain area. The study analyzes important concepts, principles and sequences of processes used in the design of computer systems and program writing, and work with big data, in particular, terminological features in the process of implementing software for forecasting, which allowed to understand further identify ways to implement machine learning methods to improve the efficiency of greenery in a given area. |
Зміст: | ПЕРЕЛІК ОСНОВНИХ УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ І СКОРОЧЕНЬ... 9 ВСТУП...10 РОЗДІЛ 1. АНАЛІЗ ОСОБЛИВОСТЕЙ ПРОЦЕСУ ОБРОБКИ ВЕЛИКИХ ДАНИХ ТА КЛАСИФІКАЦІЯ ОСНОВНИХ АЛГОРИТМІВ...14 1.1. Аналіз та основні виклики науки про дані...14 1.2. Порівняння Hadoop і Spark, як основних конкурентів по роботі з Великими даними...17 1.3. Обгрунтування вибору Apache Spark як основного фреймворка роботи...19 1.4. Швидкий перехід до регресії...22 1.5. Вектори та особливості...23 1.6. Тренувальні приклади...24 1.7. Дерева рішень та ліси...25 1.8. Набір даних лісового покриття...26 1.9. Висновки до розділу...27 РОЗДІЛ 2. ОПИС ТА ВИБІР МЕТОДІВ МАШИННОГО НАВЧАННЯ ПРИ ОБРОБЦІ ВЕЛИКИХ ДАНИХ...28 2.1. Попередня обробка даних та аналіз даних...28 2.1.1. Пропущені значення...29 2.1.2. Дублювання даних...29 2.1.3. Шуми та викиди...30 2.1.4. Очищення даних...31 2.1.5. Методи нормування даних...32 2.1.6. Методи заповнення пропусків...33 2.2. Вибір базових класифікаторів...34 2.2.1. Загальна постановка задачі класифікації...34 2.2.2. Лінійні класифікатори...36 2.2.2.1. Лінійний дискримінант Фішера...40 2.2.2.2. Одношаровий персептрон...40 2.2.2.3. Логістична регресія...40 2.2.2.4. Метод опорних векторів...41 2.2.3. Метод k найбільших сусідів...42 2.2.4. Наївний байєсівський класифікатор...43 2.2.5. Дерева рішень...44 2.3. Використання ансамблів моделей класифікації, як більш ефективного алгоритму...45 2.3.1. Беггінг...45 2.3.2. Бустинг...48 2.4. Метрики оцінки якості роботи класифікаторів ...50 2.4.1. Правильність (Accuracy)...51 2.4.2. Точність (Precision)..51 2.4.3. Повнота (Recall) або Чутливість (Sensitivity)... 51 2.4.4. Специфічність (Specificity).... 52 2.4.5. F - міра...52 2.4.6. Log-loss (logarithmic loss).... 52 2.4.7. ROC крива (Receiver Operating Characteristics Curve)... 52 2.5. Висновки до розділу...54 РОЗДІЛ 3. ВИБІР ТА ОПИС МЕТОДІВ МАШИННОГО НАВЧАННЯ ДЛЯ ОБРОБКИ ВЕЛИКИХ ДАНИХ...55 3.1. Підготовка вхідних даних та обробка файлу CSV...55 3.2. Перше дерево рішень (Decision Tree).... 57 3.3. Гіперпараметри дерева рішень...61 3.4. Налаштування дерев рішень...63 3.5. Переглянуто категорійні характеристики...68 3.6. Висновки до розділу...71 РОЗДІЛ 4. ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ...73 4.1. Охорона праці...73 4.2. Підвищення стійкості роботи об'єктів господарської діяльності у воєнний час...75 4.3. Висновки до розділу...80 ВИСНОВКИ...82 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ...84 Додаток А Тези конференцій...86 Додаток Б Повний код програми...90 |
URI (Уніфікований ідентифікатор ресурсу): | http://elartu.tntu.edu.ua/handle/lib/36653 |
Власник авторського права: | © Соболь Віталій Миколайович, 2021 |
Перелік літератури: | 1. Apache Spark офіційна сторінка: https://spark.apache.org/downloads.html 2. Повний набір даних: https://archive.ics.uci.edu/ml/machine-learning-databases/covtype/ 3. Sandy Ryza, Uri Laserson, Sean Owen, & Josh Wills “Advanced Analytics with Spark, second edition” 4. Фоурино Р. Электронное качество данных: скрытая перспектива очистки данных / Фоурино Р.: http://www.iso.ru/print/rus/document5820.phtml 5. Воронцов К.В. Машинное обучение: курс лекций / Воронцов К.В. — Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D085 %B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87 %D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_ %D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92 .%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29 6. Воронцов К.В. Лекции по логическим алгоритмам классификации / Воронцов К.В.: http://www.ccas.ru/voron/download/LogicAlgs.pdf 7. Курс "Машинное обучение" на ФКН ВШЭ : https://github.com/esokolov/ml-course-hse 8. Rodrıguez J.J. Rotation Forest: A New Classifier Ensemble Method / Rodrıguez J.J., Kuncheva L.I., Alonso C.J. // IEEE Transactions on Pattern Analysis and Machine Intelligence. ВШЭ : https://ieeexplore.ieee.org/abstract/document/1677518/ 9. Дьяконов А. Введение в анализ данных и машинное обучение / Дьяконов А.: https://alexanderdyakonov.files.wordpress.com/2017/06/book_boosting_pdf.pdf 10. Chen T. XGBoost: A Scalable Tree Boosting System/ Chen T., Guestrin C.: https://arxiv.org/abs/1603.02754 11. Tumer К.A Error Correlation and Error Reduction in Ensemble Classiers / Tumer К.A.: https://www.tandfonline.com/doi/abs/10.1080/095400996116839 12. Hand D.J. Measuring classifier performance: a coherent alternative to the area under the ROC curve / Hand D.J. – Springer Science+Business Media, LLC 2009: https://link.springer.com/content/pdf/10.1007%2Fs10994-009-5119-5.pdf 13. Dean Wampler, Alex Payne Programming Scala, 2nd edition 14. Alven Alexander Scala Cookbook 15. Hastie, Trevor. Tibshirani, Robert. Friedman, Jerome. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, New York, NY, 2009. 16. Elfwing, Stefan; Uchibe, Eiji; Doya, Kenji (2017-11-01). "Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning". 17. Noel, Mathew Mithra; L, Arunkumar; Trivedi, Advait; Dutta, Praneet (2021-09-04). "Growing Cosine Unit: A Novel Oscillatory Activation Function That86 Can Speedup Training and Reduce Parameters in Convolutional Neural Networks". 18. Tolles, Juliana; Meurer, William J (2016). "Logistic Regression Relating Patient Characteristics to Outcomes". JAMA. 316 (5): 533–4. 19. M. Strano; B.M. Colosimo (2006). "Logistic regression analysis for experimental determination of forming limit diagrams". International Journal of Machine Tools and Manufacture. 46 (6): 673–682. 20. Murphy, Kevin P. (2012). Machine Learning – A Probabilistic Perspective. The MIT Press. pp. 245pp. 21. Rodríguez, G. (2007). Lecture Notes on Generalized Linear Models. pp. Chapter 3, page 45 22. Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-03-01). "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index". Journal of Infrastructure Systems 23. Piryonesi, S. Madeh; El-Diraby, Tamer E. (2021-02-01). "Using Machine Learning to Examine Impact of Type of Performance Indicator on Flexible Pavement Deterioration Modeling". Journal of Infrastructure Systems. 24. Lalchand, Vidhi (2020). "Extracting more from boosted decision trees: A high energy physics case study". 25. McCallum, Andrew. "Graphical Models, Lecture2: Bayesian Network Representation" (PDF). Retrieved 22 October 2019 26. Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06-01). "Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems". Journal of Transportation Engineering, Part B: Pavements. 27. Metsis, Vangelis; Androutsopoulos, Ion; Paliouras, Georgios (2006). Spam filtering with Naive Bayes—which Naive Bayes?. Third conference on email and anti-spam (CEAS). |
Тип вмісту: | Master Thesis |
Розташовується у зібраннях: | 123 — комп’ютерна інженерія |
Файли цього матеріалу:
Файл | Опис | Розмір | Формат | |
---|---|---|---|---|
Соболь В.М. Авторська довідка.docx | 11,55 kB | Microsoft Word XML | Переглянути/відкрити | |
Соболь_В_М_Розподілена_комп’ютерна_система_для_прогнозування_поширення.pdf | 2,33 MB | Adobe PDF | Переглянути/відкрити |
Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.
Інструменти адміністратора