Захист персональної інформації в задачах аналізу та обробки великих даних

Сачик, Тетяна Владиславівна; Sachyk, Tetiana

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://elartu.tntu.edu.ua/handle/lib/30587

Повний запис метаданих

Поле DC	Значення	Мова
dc.contributor.advisor	Загородна, Наталія Володимирівна	-
dc.contributor.author	Сачик, Тетяна Владиславівна	-
dc.contributor.author	Sachyk, Tetiana	-
dc.date.accessioned	2020-01-20T11:55:18Z	-
dc.date.available	2020-01-20T11:55:18Z	-
dc.date.issued	2019-12	-
dc.identifier.citation	Сачик Т.В. Захист персональної інформації в задачах аналізу та обробки великих даних : дипломна робота магістра за спеціальністю „125 — кібербезпека“/ Т.В. Сачик. — Тернопіль: ТНТУ, 2019. — 107 с.	uk_UA
dc.identifier.uri	http://elartu.tntu.edu.ua/handle/lib/30587	-
dc.description	Роботу виконано на кафедрі кібербезпеки Тернопільського національного технічного університету імені Івана Пулюя Міністерства освіти і науки України Керівник роботи: кандидат технічних наук, доцент кафедри кібербезпеки Загородна Наталія Володимирівна, Тернопільський національний технічний університет імені Івана Пулюя Рецензент: кандидат технічних наук, професор кафедри комп’ютерних наук Пасічник Володимир Володимирович, Тернопільський національний технічний університет імені Івана Пулюя Захист відбудеться 24 грудня 2019 р. о 9.00 годині на засіданні екзаменаційної комісії №32 у Тернопільському національному технічному університеті імені Івана Пулюя за адресою: 46001, м. Тернопіль, вул. Руська, 56, навчальний корпус №1, ауд. 806	uk_UA
dc.description.abstract	Метою роботи – систематичне порівняння трьох відомих алгоритмів k-анонімізації для вимірювання їх продуктивності (з точки зору використання ресурсів) та їх ефективності (з точки зору корисності даних). Основні результати роботи: в роботі досліджено поняття анонімізації, описано її моделі, обрано для дослідження алгоритми k-анонімізації, як однієї з базових моделей, запропоновано критерії якості алгоритмів k-анонімізації для подальшого прийняття рішення щодо вибору алгоритму, проведено порівняння трьох основних алгоритмів Datafly, Incognito, Modrian для двох наборів даних (реального та синтетичного) та для різних початкових налаштувань параметрів алгоритмів, сформовано рекомендації щодо застосування алггоритмів. У першому розділі описується, що таке анонімізація, моделі конфідеційності та на прикладах розглядаються деякі атаки конфідеційності. У другому розділі розглядаються методи анонімізації, три найбільш поширені алгоритми анонімізації та описується методологія порівняння цих алгоритмів. Третій розділ експерементальний. У ньому порівнюются три алгоритими анонімізації за такими критеріями як – час анонімізації, узагальнена втрата інформації, метрика чутливості та середній розмір класу еквівалентності. У четвертому розділі описується генератор реальних синтетичних даних та принцип його роботи. У розділі “Обґрунтування економічної ефективності” підраховується вартість роботи та термін її окупності. У розділі “Охорона праці та безпека в надзвичайних ситуаціях” зазначено, що дослідження відбувалося зі збереженням правил пожежної безпеки та всіх норм охорони праці. У розділі “Екологія” описуються методи узагальнення екологічної інформації та зазначаються вимоги до мікроклімату приміщень. У результаті підготовки дипломної роботи проведено серію експериментів та всебічний аналіз для виявлення факторів, що впливають на ефективність загальнодоступних реалізації алгоритмів анонімізації. Представлено за допомогою експериментальної оцінки умови, в яких один алгоритм перевершує інші за певним показником, залежно від вхідних даних та вимог конфіденційності.	uk_UA
dc.description.abstract	Project purpose: systematic comparison of three well-known k-anonymization algorithms to measure their efficiency (in terms of resources usage) and their effectiveness (in terms of data utility). Main results: The concept of anonymization is investigated, its models are described, k-anonymization algorithms are selected as one of the basic models, k-anonymization quality criteria are proposed for further decision making, algorithm selection is performed for three basic algorithms, Datafly Incognito, Modrian two sets of data (real and synthetic) and different initial adjustments of algorithm parameters, recommendations for the application of algorithms were formed. The first section describes anonymization, privacy models, and some examples of privacy attacks. The second section discusses anonymization methods, the three most common anonymization algorithms, and describes a methodology for comparing these algorithms. The third section is experimental. It compares three anonymization algorithms against such criteria as anonymization time, generalized information loss, sensitivity metric, and average equivalence class size. The fourth section describes the real synthetic data generator and how it works. In the economic section the cost of the work and its payback period are calculated. The section "Occupational Health and Safety" states that the study was conducted in compliance with fire safety rules and all occupational safety standards. The section "Ecology" describes the methods of generalizing environmental information and specifies the requirements for the microclimate of the premises. As a result of the preparation of the thesis, a series of experiments and a comprehensive analysis were conducted to identify the factors that influence the effectiveness of publicly available anonymization algorithms. Provided by an experimental evaluation of the conditions in which one algorithm outperforms the others by a certain measure, depending on the input and privacy requirements.	uk_UA
dc.description.tableofcontents	ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І ТЕРМІНІВ 10 ВСТУП 11 РОЗДІЛ 1 АНОНІМІЗАЦІЯ. МОДЕЛІ, ЗАГРОЗИ, АТАКИ 13 1.1 Регламент захисту даних GDPR 13 1.2 Анонімізація 14 1.3 Атаки конфідеційності 16 1.3.1 Узгодження записів 16 1.3.2 Узгодження атрибутів 17 1.3.3 Атака мінімальності 18 1.4 Моделі конфідеційності 21 1.4.1 k-Анонімізація 21 1.4.2 ℓ -Різноманітність 22 1.4.3 Диференційна конфідеційність 23 РОЗДІЛ 2 МЕТОДИКА ПОРІВНЯННЯ АЛГОРИТМІВ K-АНОНІМІЗАЦІЇ 24 2.1 Методи анонімізації 24 2.1.1 Приховування 24 2.1.2 Узагальнення 24 2.2 Алгоритми k-анонімізації 27 2.2.1 Datafly алгоритм 28 2.2.2 Incognito алгоритм 30 2.2.3 Mondrian алгоритм 33 2.3 Набір даних 37 2.3.1 Реальний набір даних 37 2.3.2 Синтетичний набір даних 38 2.4 Методологія порівняння 40 2.4.1 Ефективність алгоритму 40 2.4.2 Корисність даних 41 2.4.2.1 Узагальнена втрата інформація GenILoss 42 2.4.2.2 Метрика чутливості DM 43 2.4.2.3 Показник розміру середнього класу еквівалентності CAV G 44 РОЗДІЛ 3 ЕКСПЕРИМЕНТАЛЬНА ЧАСТИНА 45 3.1 Навколишнє середовище 45 3.2 Налаштування експерименту 46 3.3 Експеримент 1: різна кількість QID 47 3.3.1 Час анонімізації 47 3.3.2 Споживання пам'яті. 49 3.3.3 Узагальнена втрата інформації (GenILoss). 51 3.3.4 Метрика чутливості (DM). 54 3.3.5 Середній розмір класу еквівалентності CAV G 56 3.3.6 Результати порівняння алгоритмів для експерименту 1 57 3.4 Експеримент 2: різні значення k в k -анонімізації 58 3.4.1 Час анонімізації 58 3.4.2 Споживання пам'яті. 60 3.4.3 Узагальнена втрата інформації (GenILoss). 62 3.4.4 Метрика чутливості (DM). 64 3.4.5 Середній розмір класу еквівалентності (CAV G). 66 3.4.6 Результати порівняння алгоритмів для експерименту 2 68 3.5 Експеримент 3: Різноманітний розмір набору даних 68 3.5.1 Час анонімізації 68 3.5.2. Споживання пам'яті 69 3.5.3 Результати порівняння алгоритмів для експерименту 3 70 3.6 Порівняльний аналіз алгоритмів k-анонімізації 71 РОЗДІЛ 4 СПЕЦІАЛЬНА ЧАСТИНА 74 4.1 Вибір набору даних 74 4.2 COCOA: Генератор синтетичний даних 75 4.3 Генератори атрибутів 77 РОЗДІЛ 5 ОБҐРУНТУВАННЯ ЕКОНОМІЧНОЇ ЕФЕКТИВНОСТІ 79 5.1 Розрахунок норм часу на виконання науково-дослідної роботи 79 5.2 Визначення витрат на оплату праці та відрахувань на соціальні заходи 80 5.3 Розрахунок матеріальних витрат 82 5.4 Розрахунок витрат на електроенергію 83 5.5 Розрахунок суми амортизаційних відрахувань 84 5.6 Обчислення накладних витрат 85 5.7 Складання кошторису витрат та визначення собівартості науково-дослідницької роботи 85 5.8 Розрахунок ціни науково-дослідної роботи 86 5.9 Визначення економічної ефективності і терміну окупності капітальних вкладень 86 РОЗДІЛ 6 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 88 6.1 Охорона праці 88 6.2 Фактори, що впливають на функціональний стан користувачів комп’ютерів 92 РОЗДІЛ 7 ЕКОЛОГІЯ 96 7.1 Методи узагальнення екологічної інформації. 96 7.2 Вимоги до мікроклімату, вмісту аероіонів і шкідливих хімічних речовин у повітрі приміщень експлуатації моніторів і ПЕОМ. 99 ВИСНОВКИ 101 БІБЛІОГРАФІЯ 102 ДОДАТКИ 107	uk_UA
dc.format.extent	107	-
dc.language.iso	uk	uk_UA
dc.subject	к-анонімізація	uk_UA
dc.subject	конфіденційність	uk_UA
dc.subject	квазі-ідентифікатор	uk_UA
dc.subject	ефективність	uk_UA
dc.subject	синтетичний генератор	uk_UA
dc.subject	k-anonymity	uk_UA
dc.subject	privacy	uk_UA
dc.subject	quasi-identifiers	uk_UA
dc.subject	efficiency	uk_UA
dc.subject	synthetic data generator	uk_UA
dc.title	Захист персональної інформації в задачах аналізу та обробки великих даних	uk_UA
dc.title.alternative	Personal information protection in big data analysis and processing problems	uk_UA
dc.type	Master Thesis	uk_UA
dc.rights.holder	"© Сачик Тетяна Владиславівна"	uk_UA
dc.subject.udc	004.056.53	uk_UA
dc.contributor.affiliation	Тернопільський національний технічний університет імені Івана Пулюя	uk_UA
dc.coverage.country	UA	uk_UA
Розташовується у зібраннях:	125 — кібербезпека

Файли цього матеріалу:

Файл	Опис	Розмір	Формат
avtorska_Sachyk.pdf	Авторська довідка	317,86 kB	Adobe PDF	Переглянути/відкрити
Avtoreferat Sachyk.pdf	Автореферат	193,74 kB	Adobe PDF	Переглянути/відкрити
Dyp_ Sachyk_2019.pdf	Магістерська робота	2,26 MB	Adobe PDF	Переглянути/відкрити

Показати базовий опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

Інструменти адміністратора