Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал:
http://elartu.tntu.edu.ua/handle/lib/52407| Назва: | Методи та засоби оброблення даних з врахуванням вимог якості до них |
| Інші назви: | Methods and Tools for Data Processing Considering Data Quality Requirements |
| Автори: | Лотоцький, Дмитро Віталійович Lototskyi, Dmytro |
| Приналежність: | Тернопільський національний технічний університет імені ім. І. Пулюя |
| Бібліографічний опис: | {ВІДКОРЕГУЙТЕ!!!} Прізвище І. Б. Назва : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „122 — комп’ютерні науки“ / І. Б. Прізвище. — Тернопіль: ТНТУ, РІК. — ХХ с. |
| Бібліографічне посилання: | Лотоцький Д. В. Методи та засоби оброблення даних з врахуванням вимог якості до них : робота на здобуття кваліфікаційного ступеня магістра : спец. 122 - комп’ютерні науки / наук. кер. О. С. Голотенко. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2026. 74 с. |
| Дата публікації: | 27-тра-2026 |
| Дата подання: | 13-тра-2026 |
| Дата внесення: | 12-чер-2026 |
| Видавництво: | ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна |
| Країна (код): | UA |
| Місце видання, проведення: | Тернопіль |
| Науковий керівник: | Голотенко, Олександр Сергійович Holotenko, Olexander |
| УДК: | 004.65:005.6(043.3) |
| Теми: | 122 комп’ютерні науки якість даних профілювання даних метрики якості даних моніторинг якості даних огляд інструментів управління даними data quality data profiling data quality metrics data quality monitoring overview of tools data management |
| Діапазон сторінок: | 74 |
| Короткий огляд (реферат): | Робота присвячена систематичному огляду сучасних програмних інструментів вимірювання та моніторингу якості даних і дослідженню розриву між теоретичними концепціями в цій галузі та їх практичною реалізацією.
У роботі розглянуто теоретичні засади якості даних – визначення, основні виміри (точність, повнота, узгодженість, своєчасність) та метрики їх вимірювання. Описано процес управління якістю даних як циклічний процес, що охоплює профілювання, вимірювання, очищення та моніторинг даних.
Для досягнення мети проведено систематичний пошук, у результаті якого ідентифіковано ряд програмних інструментів якості даних. Зокрема це Informatica Data Quality, Experian Pandora, Apache Griffin, DataCleaner, MobyDQ, Oracle EDQ, SAS Data Quality, Talend Open Studio та інші.
Отримані результати свідчать про такі ключові висновки: більшість інструментів підтримують базове профілювання даних, тоді як багатостовпцеве профілювання та виявлення залежностей реалізовані лише в окремих рішеннях; жоден з оглянутих інструментів не реалізує повного спектра теоретично запропонованих метрик якості даних – натомість більшість пропонують механізм користувацьких бізнес-правил; моніторинг якості даних здебільшого є преміальною платною функцією в комерційних продуктах, а інструменти з відкритим кодом, орієнтовані на моніторинг, позбавлені функцій профілювання.
Результати дослідження мають практичну цінність для фахівців з якості даних при виборі інструментів, а також для наукової спільноти як підґрунтя для розроблення практико-орієнтованих методологій вимірювання якості даних. The work is devoted to a systematic review of modern software tools for measuring and monitoring data quality and to investigate the gap between theoretical concepts in this field and their practical implementation. The paper considers the theoretical foundations of data quality - definitions, basic dimensions (accuracy, completeness, consistency, timeliness) and metrics for their measurement. The data quality management process is described as a cyclical process that includes profiling, measuring, cleaning and monitoring data. To achieve the goal, a systematic search was conducted, as a result of which a number of software tools for data quality were identified. In particular, these are Informatica Data Quality, Experian Pandora, Apache Griffin, DataCleaner, MobyDQ, Oracle EDQ, SAS Data Quality, Talend Open Studio and others. The results obtained indicate the following key conclusions: most tools support basic data profiling, while multi-column profiling and dependency detection are implemented only in individual solutions; none of the reviewed tools implements the full range of theoretically proposed data quality metrics – instead, most offer a mechanism for custom business rules; data quality monitoring is mostly a premium paid feature in commercial products, and open source tools focused on monitoring lack profiling features. The results of the study have practical value for data quality professionals when choosing tools, as well as for the scientific community as a basis for developing practice-oriented methodologies for measuring data quality. |
| Опис: | Роботу виконано на кафедрі комп'ютерних наук Тернопільського національного технічного університету імені Івана Пулюя. Захист відбудеться 27.05.2026р. на засіданні екзаменаційної комісії №33 у Тернопільському національному технічному університеті імені Івана Пулюя |
| Зміст: | ВСТУП 9 1 ОГЛЯД А ОГЛЯД ПРОБЛЕМИ ЯКОСТІ ДАНИХ 14 1.1 Джерела та наслідки проблем якості даних 14 1.2 Співвідношення понять «дані», «інформація» та «якість» 16 1.3 Якість даних, як багатовимірне поняття 17 1.4 Точність (Accuracy) 19 1.5 Повнота (Completeness) 21 1.6 Узгодженість (Consistency) 22 1.7 Своєчасність (Timeliness) 23 2 ОПИС ПРОЦЕСУ ОЦІНЮВАННЯ ЯКОСТІ ДАНИХ 25 2.1 Управління якістю даних 25 2.1.1 Профілювання даних 26 2.1.2 Вимірювання якості даних 27 2.1.3 Очищення даних 29 2.1.4 Моніторинг якості даних 29 2.2 Вимоги до інструментів якості даних 30 2.3 Методологія дослідження та відбору інструментів 31 2.3.1 Дослідницькі питання 31 2.3.2 Систематичний пошук інструментів 32 2.3.3 Критерії відбору інструментів 32 2.3.4 Обмеження дослідження 33 2.4 Каталог вимог та стратегія оцінювання 34 3 ОГЛЯД ІНСТРУМЕНТІВ ЯКОСТІ ДАНИХ 35 3.1 Опис досліджених інструментів 35 3.1.1 Aggregate Profiler 35 3.1.2 Apache Griffin 36 3.1.3 Ataccama ONE 37 3.1.4 DataCleaner 38 3.1.5 Datamartist 39 3.1.6 Experian Pandora 40 3.1.7 Informatica Data Quality 41 3.1.8 IBM InfoSphere Information Server for Data Quality 42 3.1.9 InfoZoom & IZDQ 43 3.1.10 MobyDQ 44 3.1.11 OpenRefine & MetricDoc 45 3.1.12 Oracle Enterprise Data Quality 46 3.1.13 SAS Data Quality та Talend Open Studio 47 3.2 Порівняння можливостей профілювання даних 49 3.2.1 Розбіжності у тлумаченні базових характеристик 51 3.2.2 Виявлення залежностей 52 3.3 Порівняння можливостей вимірювання якості даних 53 3.3.1 Вимірювання за окремими вимірами 54 3.3.2 Бізнес-правила як механізм вимірювання 55 3.4 Порівняння можливостей моніторингу якості даних 56 3.5 Узагальнення результатів огляду 57 4 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ CИТУАЦІЯХ 59 4.1 Питання щодо охорони праці 59 4.2 Підвищення стійкості роботи об'єктів господарської діяльності у воєнний час 62 ВИСНОВКИ 68 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 70 ДОДАТКИ 75 |
| URI (Уніфікований ідентифікатор ресурсу): | http://elartu.tntu.edu.ua/handle/lib/52407 |
| ISBN: | {ВІДКОРЕГУЙТЕ!!!} Прізвище І. Б. Назва : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „122 — комп’ютерні науки“ / І. Б. Прізвище. — Тернопіль: ТНТУ, РІК. — ХХ с. {ВІДКОРЕГУЙТЕ!!!} Прізвище І. Б. Назва : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „122 — комп’ютерні науки“ / І. Б. Прізвище. — Тернопіль: ТНТУ, РІК. — ХХ с. {ВІДКОРЕГУЙТЕ!!!} Прізвище І. Б. Назва : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „122 — комп’ютерні науки“ / І. Б. Прізвище. — Тернопіль: ТНТУ, РІК. — ХХ с. |
| Власник авторського права: | © Лотоцький Дмитро Віталійович, 2026 |
| Перелік літератури: | 1. Abedjan Z., Golab L., Naumann F. Profiling relational data: a survey. The VLDB Journal. 2015. Vol. 24, No. 4. P. 557–581. 2. Abedjan Z., Golab L., Naumann F., Papenbrock T. Data Profiling. Synthesis Lectures on Data Management. Morgan & Claypool Publishers, 2019. 154 p. 3. Batini C., Scannapieco M. Data and Information Quality: Dimensions, Principles and Techniques. Cham : Springer International Publishing, 2016. 500 p. 4. Askham N., Cook D., Doyle M. et al. The Six Primary Dimensions for Data Quality Assessment. DAMA UK Working Group, 2013. 17 p. 5. Chrisman N. R. The role of quality information in the long-term functioning of a geographic information system. Cartographica. 1983. Vol. 21, No. 2–3. P. 79–88. 6. Chien M., Jain A. Magic Quadrant for Data Quality Tools. Technical Report. Stamford : Gartner, Inc., 2019. 7. Cichy C., Rass S. An overview of data quality frameworks. IEEE Access. 2019. Vol. 7. P. 24634–24648. 8. Dasu T., Johnson T. Exploratory Data Mining and Data Cleaning. New York : John Wiley & Sons, Inc., 2003. 224 p. 9. Ehrlinger L., Wöß W. Automated data quality monitoring. Proceedings of the 22nd MIT International Conference on Information Quality (ICIQ). Little Rock, 2017. P. 15.1–15.9. 10. Ge M., Helfert M. A review of information quality research. Proceedings of the 12th International Conference on Information Quality (ICIQ). Cambridge : MIT, 2007. P. 76–91. 11. Heinrich B., Hristova D., Klier M., Schiller A., Szubartowicz M. Requirements for data quality metrics. Journal of Data and Information Quality. 2018. Vol. 9, No. 2. P. 12:1–12:32. 12. Hildebrand K., Gebauer M., Hinrichs H., Mielke M. Daten- und Informationsqualität. 3rd ed. Wiesbaden : Springer Vieweg, 2015. 416 p. 13. IEEE Standard for a Software Quality Metrics Methodology. IEEE Std 1061-1998. Institute of Electrical and Electronics Engineers, 1998. 14. ISO/IEC 25012:2008. Systems and Software Engineering — Systems and Software Quality Requirements and Evaluation (SQuaRE) — Data Quality Model. Geneva : ISO, 2008. 15. ISO 8000-8:2015. Data Quality — Part 8: Information and Data Quality: Concepts and Measuring. Geneva : ISO, 2015. 16. Kitchenham B. Procedures for Performing Systematic Reviews. Technical Report TR/SE-0401. Keele University, 2004. 33 p. 17. Maydanchik A. Data Quality Assessment. Bradley Beach : Technics Publications, LLC, 2007. 336 p. 18. Moore S. How to Create a Business Case for Data Quality Improvement. Stamford : Gartner, Inc., 2018. 19. Naumann F. Data profiling revisited. ACM SIGMOD Record. 2014. Vol. 42, No. 4. P. 40–49. 20. Otto B., Österle H. Corporate Data Quality: Prerequisite for Successful Business Models. Berlin : Springer Gabler, 2016. 232 p. 21. Piro A. Datenqualität als kritischer Erfolgsfaktor: Vorgehensmodelle und Konzepte. Lohmar : Josef Eul Verlag, 2014. 22. Wang R. Y. A product perspective on total data quality management. Communications of the ACM. 1998. Vol. 41, No. 2. P. 58–65. 23. Sebastian-Coleman L. Measuring Data Quality for Ongoing Improvement: A Data Quality Assessment Framework. Waltham : Morgan Kaufmann, 2013. 376 p. 24. Wang R. Y., Strong D. M. Beyond accuracy: what data quality means to data consumers. Journal of Management Information Systems. 1996. Vol. 12, No. 4. P. 5–33. 25. Selvage M. Y., Judah S., Jain A. Magic Quadrant for Data Quality Tools. Technical Report. Stamford : Gartner, Inc., 2017. 26. Голінько В. І. Охорона праці в галузі інформаційних технологій: навч. посіб. / В. І. Голінько, М. Ю. Іконніков, Я. Я. Лебедєв; М-во освіти і науки України, Держ. вищий навч. закл. "Нац. гірн. ун-т". - Дніпропетровськ: НГУ, 2015. - 246 с. 27. Микитишин А. Г. Застосування методів машинного навчання для класифікації даних в комп’ютеризованих системах керування / Андрій Григорович Микитишин, І. С. Дідич, Р. І. Яцишин // Тези ⅩⅢ МНПК „Актуальні задачі сучасних технологій“, 11-12 грудня 2024 року. — Т. : ФОП Паляниця В. А., 2024. — С. 14–16. — (Нові матеріали, міцність і довговічність елементів конструкцій). 28. Карнаухов, О. К. (2024). Дослідження розробки електронного кабінету абітурієнта ТНТУ ім. І. Пулюя. Тези доповідей Ⅴ міжнародної науково-практичної конференції учених та студентів "Цифрова економіка як фактор інновацій та сталого розвитку суспільства", 46-47. 29. Кучеренко О. А. Особливості передобробки даних для методів прогнозування / О. А. Кучеренко, О. О. Кучеренко // ІМСТТ, 13-14 грудня 2023 року. — Т. : ТНТУ, 2023. — С. 72. — (Інформаційні системи та технології, кібербезпека). 30. Яцишин В. Процеси забезпечення якості даних при проектуванні систем машинного навчання / В. Яцишин, Ю. Журихін // Матеріали Ⅴ науково-технічної конференції „Інформаційні моделі, системи та технології“, 1-2 лютого 2018 року. — Т. : ТНТУ, 2018. — С. 68. — (Секція 3. Комп’ютерні системи та мережі). 31. Чорновус, Р. М. Визначення якості тестування програмного забезпечення та аналіз отриманих даних. Матеріали конференції. Тернопіль: ТНТУ, 2017. URL: http://elartu.tntu.edu.ua/handle/123456789/18917. 32. Яцишин В. В. Оцінювання якості даних для систем машинного навчання / В. В. Яцишин, Ю. О. Журихін // Збірник тез доповідей Ⅵ Міжнародної науково-технічної конференції молодих учених та студентів „Актуальні задачі сучасних технологій“, 16-17 листопада 2017 року. — Т. : ТНТУ, 2017. — Том 2. — С. 196. — (Комп’ютерно-інформаційні технології та системи зв’язку). 33. Гандзюк М.П. Основи охорони праці: Підручник. 4-е вид./Гандзюк М.П., Желібо Є.П., Халімовський М.О. - Київ: Каревела, 2008. – 384с. 34. Техноекологія та цивільна безпека. Частина «Цивільна безпека»: Навчальний посібник; укл.: Стручок В. С. Тернопіль: ФОП Паляниця В.А., 2022. 150 с. 35. Безпека в надзвичайних ситуаціях. Методичний посібник для здобувачів освітнього ступеня «магістр» всіх спеціальностей денної та заочної (дистанційної) форм навчання / укл.: Стручок В. С. Тернопіль: ФОП Паляниця В. А., 2022. 156 с. 36. Умови праці працівників, які використовують у роботі персональні комп'ютери. Zolochiv.Net. URL: https://zolochiv.net/umovy-pratsi-pratsivnykiv-iaki-vykorystovuiut-u-roboti-personal-ni-komp-iutery/ (дата звернення: 25.10.2024). |
| Тип вмісту: | Master Thesis |
| Розташовується у зібраннях: | 122 — комп’ютерні науки, F3 Комп’ютерні науки |
Файли цього матеріалу:
| Файл | Опис | Розмір | Формат | |
|---|---|---|---|---|
| 2026_KRM_SNnm-61_Lototskyi_D.pdf | Дипломна робота | 2,95 MB | Adobe PDF | Переглянути/відкрити |
Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.
Інструменти адміністратора