Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://elartu.tntu.edu.ua/handle/lib/30602
Назва: Визначення авторства документу з допомогою методів інтелектуального аналізу тексту
Інші назви: A document authorship identification using the text mining methods
Автори: Вівчарик, Володимир Михайлович
Vivcharyk, Volodymyr
Приналежність: Тернопільський національний технічний університет імені Івана Пулюя
Бібліографічний опис: Вівчарик В.М.. Визначення авторства документу з допомогою методів інтелектуального аналізу тексту: Дипломна робота магістра за спеціальністю „125 — кібербезпека“/ В.М.Вівчарик. — Тернопіль: ТНТУ, 2019. — 111 с.
Дата публікації: гру-2019
Дата внесення: 20-січ-2020
Країна (код): UA
Науковий керівник: Карпінський, Микола Петрович
УДК: 004.056
Теми: ідентифікація
визначення автора
машинне навчання
класифікація
наївний класифікатор Байєса
стоп-слова
стемінг
лематизація
identification
author determining problem
machine learning
classification
naive bayes classifier
stop-words
stemming
lemmatizationi
Діапазон сторінок: 111
Короткий огляд (реферат): В роботі досліджено основні завдання та можливі сфери застосування задачі визначення авторства деякого документу, обґрунтовано вибір моделі класифікації та програмного середовища Python для практичної реалізації методу визначення автора документу. Проведено тестування імплементованої класифікаційної моделі наївного Байєса для реальних даних, здійснено порівняння основних показників точності моделі для різного розміру простору ознак, проведено аналіз впливу на точність різних методів нормування текстових документів для задач класифікації.
Опис: Тhe main tasks and possible application areas of author of a document determining problem are investigated; the choice of the classification model and the Python software environment for practical implementation of the method of the document authorship identification is substantiated. Tests of the implemented naive Bayes classification model of for real data were carried out. The basic criteria of model accuracy for different size of feature vector space were compared, the influence of different methods of text documents normalization on accuracy for classification problems was analyzed.
Зміст: ПЕРЕЛІК УМОВНИХ ПОЗНАЧЕНЬ, СИМВОЛІВ, ОДИНИЦЬ, СКОРОЧЕНЬ І ТЕРМІНІВ 11 ВСТУП 12 1 ФОРМАЛЬНІ МЕТОДИ АНАЛІЗУ ДАНИХ, НА ЯКИХ БАЗУЄТЬСЯ ВИЗНАЧЕННЯ АВТОРСТВА 14 1.1 Основні завдання та застосування науки про визначення авторства 14 1.2 Історія виникнення науки стилеметрії 15 1.3 Класифікація методів дослідження стилю написання текстів 17 1.4 Штучний інтелект 18 1.4.1 Нейронна мережа 20 1.4.2 Пошук та оптимізація 20 1.4.3 Логіка 21 1.4.4 Теорія управління 22 1.5 Машинне навчання 23 1.6 Класифікація 25 1.6.1 Метод k найближчих сусідів 25 1.6.2 Класифікатор наївного Байєса 27 1.6.3 Дерева рішень 30 1.6.4 Метод опорних векторів (SVM) 32 1.7 Висновки до першого розділу 34 2 ОСОБЛИВОСТІ ПОБУДОВИ ТА ОЦІНКИ ЯКОСТІ КЛАСИФІКАЦІЙНИХ МОДЕЛЕЙ ТЕКСТОВИХ ДОКУМЕНТІВ 35 2.1 Мульти-класифікація 35 2.2 Представлення текстових документів для аналізу 36 2.3 Зупинка слів (stopwords) 38 2.4 Стемінг (stemming) 39 2.5 Лематизація (Lemmatization) 42 2.6 Використання корисної інформації для зменшення розмірності ознак 43 2.7 Представлення текстових документів: побудова моделі векторного простору 44 2.8 Лексичні методи вилучення ключових слів 46 2.9 Нормалізація ваг 47 2.10 Вимірювання відстані між двома векторами 49 2.11 Оцінка текстового класифікатора 50 2.12 Висновки до розділу 2 52 3 ПРАКТИЧНА РЕАЛІЗАЦІЯ МЕТОДУ ІДЕНТИФІКАЦІЇ АВТОРА 53 3.1 Набір даних 53 3.2 Вибір програмного середовища 54 3.2.1 Бібліотека Scikit-learn 57 3.2.2 Бібліотека Pandas 59 3.2.3 Бібліотека NLTK 61 3.3 Підготовка середовища 61 3.4 Завантаження даних 63 3.5 Очищення та нормалізація даних 67 3.5.1 Скорочення простору атрибутів 69 3.5.2 Лематизація 70 3.5.3 Стеммінг 71 3.6 Побудова моделі класифікації 72 3.7 Оцінка точності методу класифікації 73 3.8 Висновки до розділу 3 74 4 СПЕЦІАЛЬНА ЧАСТИНА 75 4.1 Основні типи даних в Python 75 4.1.1 Булевий тип (bool) 75 4.1.2 Числа 76 4.1.3 Екрановані послідовності 77 4.1.4 Список (list) 77 4.1.5 Кортеж (tuple) 78 4.1.6 Словник (dict) 78 4.2 Структури даних Pandas 79 4.2.1 Структура даних Series 79 4.2.2 Структура даних DataFrame 80 4.3 Висновки до розділу 4 81 5 ОБҐРУНТУВАННЯ ЕКОНОМІЧНОЇ ЕФЕКТИВНОСТІ 82 5.1 Розрахунок норм часу на виконання науково-дослідної роботи 82 5.2 Визначення витрат на оплату праці та відрахувань на соціальні заходи 83 5.3 Розрахунок матеріальних витрат 86 5.4 Розрахунок витрат на електроенергію 87 5.5 Розрахунок суми амортизаційних відрахувань 88 5.6 Обчислення накладних витрат 89 5.7 Складання кошторису витрат та визначення собівартості науково-дослідницької роботи 89 5.8 Розрахунок ціни науково-дослідної роботи 90 5.9 Визначення економічної ефективності і терміну окупності капітальних вкладень 91 5.10 Висновки до розділу 5 92 6 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 93 6.1 Охорона праці 93 6.2 Безпека в надзвичайних ситуаціях 96 6.2.1 Фактори виробничого середовища і їх вплив на життєдіяльність людини 96 6.2.2 Підвищення стійкості роботи промислового підприємства в умовах впливу ЕМІ ядерних вибухів 99 6.3 Висновки до розділу 6 101 7 ЕКОЛОГІЯ 102 7.1 Зниження енергоємності та енергозбереження 102 7.2 Індексний метод в екології 104 7.3 Висновки до розділу 7 108 ВИСНОВКИ 109 БІБЛІОГРАФІЯ 110 ДОДАТКИ
URI (Уніфікований ідентифікатор ресурсу): http://elartu.tntu.edu.ua/handle/lib/30602
Власник авторського права: @Вівчарик В.М.
Перелік літератури: 1. Argamon, S., Koppel, M., Pennebaker, J.W., Schler, J.: Automatically profiling the author of an anonymous text. Communications of the ACM 52(2), 2009. – Р.119–123 2. Choi, F.Y.: Advances in Domain Independent Linear Text Segmentation// Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference. 2000.- pp. 26–33. 3. Gungor, Abdulmecit, Benchmarking Authorship Attribution Techniques Using Over A Thousand Books by Fifty Victorian Era Novelists, Purdue Master of Thesis, 2018-04 4. M. Khonji, Y. Iraqi and A. Jones, "An evaluation of authorship attribution using random forests," 2015 International Conference on Information and Communication Technology Research (ICTRC), Abu Dhabi, 2015, pp. 68-71. doi: 10.1109/ICTRC.2015.7156423 5. Luyckx, K., Daelemans, W.: Authorship attribution and verification with many authors and limited data. In: Proceedings of the 22nd International Conference on ComputationalLinguistics-Volume 1, 2008- pp. 513–520. 6. Natural Language Toolkit [Електронний ресурс]. – Режим доступу: https://www.nltk.org/ 7. Ramyaa, Congzhou He, Khaled Rasheed. Using Machine Learning Techniques for Stylometry [Електронний ресурс]. – Режим доступу: https://www.cs.nmt.edu/~ramyaa/publications/ml_techniques_Stylometry.pdf 8. Reddy, T. Raghunadha, B. Vishnu Vardhan, and P. Vijaypal Reddy. “A survey on authorship profiling techniques.” International Journal of Applied Engineering Research 11.5 (2016): 3092–3102. 9. Stamatatos, E.: A Survey of Modern Authorship Attribution Methods. Journal of theAmerican Society for Information Science and Technology 60, 2009.- 538–556 10. Stamatatos, E.: Authorship attribution using text distortion. In: Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics:Volume 1, Long Papers. 2017- pp. 1138–1149. 11. Steven Bird Natural Language Processing with Python Analyzing Text with the Natural Language Toolkit / Steven B., Ewan K., Edward L // Sebastopol: O`REILLY. – 2010. – P. 504 – 512. 12. Vysotska V., Kanishcheva O., Hlavcheva Y. Authorship Identification of the Scientific Text in Ukrainian with Using the Lingvometry Methods //2018 IEEE 13th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT). – IEEE, 2018. – Т. 2. – С. 34-38. 13. Каніщева О. В. Визначення стилю автора для виявлення плагіату в академічному середовищі / О. В. Каніщева, Ю. Н. Главчева, В. А. Висоцька // Системний аналіз та інформаційні технлогії : матеріали 19-ї Міжнар. наук.-технічн. конф. SAIT 2017, 22-25 травня 2017. — Київ : ННК "ІПСА" НТУУ "КПІ" ім. Ігоря Сікорського, 2017. — С. 78-79. 14. Луис Педро Коэльо, Вилли Ричарт. Построение систем машинного обучения на языке Python /М., ДМК Пресс. – 2016. – 302 с. 15. Марченко О.О. Система визначення авторства тексту / О.О. Марченко, А.О. Никоненко, Т.В. Россада, Є.А. Мельников // Штучний інтелект. — 2016. — № 2. — С. 77-85. 16. Грибан В. Г., Негодченко О. В. Охорона праці : навчальний посібник . -2-е видання. Київ: Центр учбової літератури, 2018.- 280 с, ISBN 978-966-364-832-3 17. Запорожець О. І., Протоєрейський О. С., Франчук Г. М., Боровик І. М. Основи охорони праці підручник Київ: Центр учбової літератури, 2017. - с.264, ISBN 978-617-673-423-9 18. М. С. Одарченко, А. М. Одарченко, В. І. Степанов, Я. М. Черненко. Основи охорони праці: підручник/ – Х. : Стиль-Издат, 2017. – 334 с. ISBN 966-7885-84-4 19. Величко С.П., Царенко І.Л., Царенко О.М. Методика викладання безпеки життєдіяльності : навчальний посібник, Київ: КНТ, 2008. - 318 с, ISBN 978-966-373-425-5 20. Енергетична стратегія України на період до 2035 року “Безпека, енергоефективність, конкурентоспроможність”, затверджена розпорядженням Кабінету міністрів України від 18 серпня 2017 р. № 605-р. 21. Тарасова В.В. Екологічна статистика // Київ: «Центр учбово\ї літератури», 2008 ро.-391с. 22. Бедрій Я. І.; Джигирей В. С.; Кидисюк, А. І. та ін. Основи екології та охорона навколишнього природного середовища: навч. посіб. для студ. вищих навч. закладів // за ред. В. С. Джигирей ; Український держ. лісотехнічний ун-т, Львівський електротехнікум зв'язку. - Л. : [б.в.], 1999. - 239 с. Альтернативна назва : Екологія та охорона природи. - ISBN 5-7763-2641-9. 23. В. М. Єнколо. Основи екології та соціоекології навч.посібник. / Львiвський електротехнiкум зв'язку; за ред. В. М. Єнколо. Львiв: Афiша, 1998. - 210с. ISBN 966-95023-5-7.
Тип вмісту: Master Thesis
Розташовується у зібраннях:125 — кібербезпека

Файли цього матеріалу:
Файл Опис РозмірФормат 
avtorska Vivcharyk.pdfАвторська довідка249,92 kBAdobe PDFПереглянути/відкрити
Avtoreferat Vivcharyk.pdfАвтореферат150,23 kBAdobe PDFПереглянути/відкрити
Dyp_Vivcharyk_2019.pdfМагістерська робота1,07 MBAdobe PDFПереглянути/відкрити


Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

Інструменти адміністратора