Методи та інструменти побудови комп'ютерних систем аналізу і перетворнення текстових повідомлень в аудіопотік

Макогон, Сергій Віталійович; Makohon, Serhii

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://elartu.tntu.edu.ua/handle/lib/43330

Повний запис метаданих

Поле DC	Значення	Мова
dc.contributor.advisor	Луцків, Андрій Мирославович	-
dc.contributor.advisor	Lutskiv, Andriy	-
dc.contributor.author	Макогон, Сергій Віталійович	-
dc.contributor.author	Makohon, Serhii	-
dc.date.accessioned	2024-01-03T10:17:18Z	-
dc.date.available	2024-01-03T10:17:18Z	-
dc.date.issued	2023-12-19	-
dc.date.submitted	2023-06-27	-
dc.identifier.citation	Макогон С. В. Методи та інструменти побудови комп'ютерних систем аналізу і перетворнення текстових повідомлень в аудіопотік : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „123 — комп’ютерна інженерія“ / С. В. Макогон. — Тернопіль: ТНТУ, 2023. — 86 с.	uk_UA
dc.identifier.uri	http://elartu.tntu.edu.ua/handle/lib/43330	-
dc.description.abstract	У кваліфікаційній роботі магістра на основі аналізу таксономії процесів перетворення текстових повідомлень в аудіопотік визначено потенційні способи розвитку існуючих нейромережевих моделей, зокрема, в контексті застосування методів машинного навчання для підвищення якості попереднього опрацювання тексту, перетворення графем у фонеми, а також забезпечення можливості їх прогнозування на основі попередньо навчених нейронних моделей. Запропоновано архітектуру нейронної мережі до складу якої входить енкодер на базі трансформерів, які забезпечують зменшення розмірності вхідної матриці фонем у 4 рази та добувають фонетичні властивості, а також декодер, який сформований з блоків визначення акустичних властивостей, зокрема енергії, тривалості і висоти звуку, та блоків декодування властивостей аудіосигналу. Розроблено системний програмний додаток для забезпечення трансляції текстових повідомлень в аудіосигнал з використанням мови програмування Python та проведено експерименти на Raspberry PI 4.	uk_UA
dc.description.abstract	In the master's qualification work, based on the analysis of the taxonomy of the processes of converting text messages into an audio stream, potential ways of developing existing neural network models are identified, in particular, in the context of the application of machine learning methods to improve the quality of pre-processing of text, converting graphemes into phonemes, as well as ensuring the possibility of their prediction based on pre-trained neural models. The architecture of a neural network is proposed, which includes an encoder based on transformers that provide a 4-fold reduction in the dimensionality of the input phoneme matrix and extract phonetic properties, as well as a decoder that is formed from blocks for determining acoustic properties, in particular energy, duration and pitch of sound, and blocks decoding of audio signal properties. A system software application was developed to ensure the translation of text messages into an audio signal using the Python programming language, and experiments were conducted on Raspberry PI 4.	uk_UA
dc.description.tableofcontents	ВСТУП 8 РОЗДІЛ 1 АНАЛІЗ ПІДХОДІВ ДО СИНТЕЗУ ГОЛОСОВИХ ПОВІДОМЛЕНЬ 13 1.1. Аналіз підходів синтезу голосових повідомлень 13 1.2. Аналіз основної таксономії процесу перетворення тексту у голосові повідомлення з використанням нейронних мереж 19 1.3. Аналіз текстових повідомлень при перетворені їх в аудіопотік 22 1.4. Висновки до розділу 25 РОЗДІЛ 2 МОДЕЛІ ТА АЛГОРИТМИ ПОБУДОВИ АКУСТИЧНИХ МОДЕЛЕЙ 27 2.1. Аналіз та обґрунтування базових характеристик аудіосигналів 27 2.2. Акустичні алгоритми при перетворенні тексту в аудіо 32 2.3. Алгоритми організації та функціонування вокодерів 34 2.4. Архітектура нейронної мережі для перетворення тексту в аудіопотік 40 2.5. Висновки до розділу 44 РОЗДІЛ 3 ІМПЛЕМЕНТАЦІЯ КОМП’ЮТЕРНОЇ СИСТЕМИ ПЕРЕТВОРЕННЯ ТЕКСТУ В АУДІОПОТІК НА ОСНОВІ RASPBERRY PI 46 3.1. Організація схеми підключення пристроїв комп’ютерної системи перетворення тексту в аудіопотік 46 3.2. Налаштування аудіопристроїв на Raspberry PI 47 3.3. Програмне забезпечення для перетворення тексту в аудіопотік 54 3.3.1. Транслятор аудіопотоку 55 3.3.2. Програмний модуль відправки текстових повідомлень 56 3.4. Реалізація та оцінювання ефективності моделі перетворення тексту в аудіопотік 58 3.5. Висновки до розділу 64 РОЗДІЛ 4 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 65 4.1. Охорона праці 65 4.2. Засоби захисту персоналу від уражень радіації 68 ВИСНОВКИ 76 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 78 Додаток А Текст наукових публікацій кваліфікаційної роботи магістра 81	uk_UA
dc.language.iso	uk	uk_UA
dc.publisher	Тернопільський національний технічний університет імені Івана Пулюя	uk_UA
dc.subject	123 комп’ютерна інженерія	uk_UA
dc.subject	комп’ютерна система	uk_UA
dc.subject	метод	uk_UA
dc.subject	текст	uk_UA
dc.subject	аудіопотік	uk_UA
dc.subject	method	uk_UA
dc.subject	tool	uk_UA
dc.subject	computer system	uk_UA
dc.subject	transforming	uk_UA
dc.subject	text	uk_UA
dc.subject	audio stream	uk_UA
dc.subject	перетворення	-
dc.title	Методи та інструменти побудови комп'ютерних систем аналізу і перетворнення текстових повідомлень в аудіопотік	uk_UA
dc.title.alternative	Methods and instruments for building computer systems for analyzing and transforming text messages into audio streams	uk_UA
dc.type	Master Thesis	-
dc.rights.holder	© Макогон Сергій Віталійович, 2023	uk_UA
dc.rights.holder	© Makohon Serhii, 2023	uk_UA
dc.contributor.committeeMember	Стадник, Марія Андріївна	-
dc.contributor.committeeMember	Stadnyk, Maria	-
dc.coverage.placename	Тернопільський національний технічний університет імені Івана Пулюя	uk_UA
dc.format.pages	86	-
dc.subject.udc	004.048	uk_UA
dc.relation.references	1. Microsoft Azure: Text to speech. URL: https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/ (дата звернення: 05.09.2023).	uk_UA
dc.relation.references	2. Kovtun V., Kovtun O. System of methods of automated cognitive linguistic analysis of speech signals with noise, Multimedia Tools and Applications. Springer Science and Business Media LLC. 2022. URL: https://doi.org/10.1007/s11042-022-13249-5 (дата звернення: 08.09.2023).	uk_UA
dc.relation.references	3. Kovtun V., Kovtun O., Semenov A. Entropy-Argumentative Concept of Computational Phonetic Analysis of Speech Taking into Account Dialect and Individuality of Phonation, Entropy. Vol. 24, no. 7. 2022. URL: https://doi.org/10.3390/e24071006 (дата звернення: 06.09.2023).	uk_UA
dc.relation.references	4. Krak Y., Barmak O., Mazurets O. The practice implementation of the information technology for automated definition of semantic terms sets in the content of educational materials. In: CEUR Workshop Proceedings 2139. 2018. pp. 245-254.	uk_UA
dc.relation.references	5. Kryvonos I.G., Krak Iu.V., Barmak O.V., Bagrii R.O. New Tools of Alternative Communication for Persons with Verbal Communication Disorders. Cybern. Syst. Anal. 52(5). 2016. PP. 655–673.	uk_UA
dc.relation.references	6. Rashkevych Y., Peleshko D., Pelekh I., Izonin I. Speech signal marking on the base of local magnitude and invariant segmentation. Mathematical Modeling and Computing. 2014. 1(2), pp. 234–244.	uk_UA
dc.relation.references	7. Google Cloud: Text to speech. URL: https://cloud.google.com/text-to- speech (дата звернення: 06.09.2023).	uk_UA
dc.relation.references	8. Cerence/Nuance TTS Ukrainian. URL: https://nextup.com/cerence/ (дата звернення: 08.09.2023).	uk_UA
dc.relation.references	9. Mel-spectrogram. URL: https://en.wikipedia.org/wiki/Mel_scale (дата звернення: 08.09.2023).	uk_UA
dc.relation.references	10. Griffin-Lim Algorithm. URL: https://paperswithcode.com/method/ griffin-lim-algorithm (дата звернення: 10.09.2023).	uk_UA
dc.relation.references	11. Луцків А.М., Макогон С.В. Нейромережеві підходи до перетворення текстових повідомлень в аудіопотік. Матеріали ХІІ міжнародної науково-практичної конференції молодих учених та студентів «Актуальні задачі сучасних технологій» (6-7 грудня 2023 року). Тернопіль: ТНТУ. 2022. C. 438.	uk_UA
dc.relation.references	12. Луцків А.М., Макогон С.В. Типи архітектур нейронних мереж для перетворення текстових повідомлень у звуковий потік. Матеріали ХІ науково-технічної конференції Тернопільського національного технічного університету імені Івана Пулюя «Інформаційні моделі, системи та технології» (13-14 грудня 2023 року). Тернопіль: ТНТУ. 2022. C. 164.	uk_UA
dc.relation.references	13. J. Shen, et al. TTS Synthesis by Conditioning Wavelet on Mel Spectrogram Predictions. URL: https://arxiv.org/pdf/1712.05884.pdf (дата звернення: 26.09.2023).	uk_UA
dc.relation.references	14. Y. Ren, C. Hu, X. Tan, T. Qin. FastSpeech2: Fast and High-quality End-to-end Text to Speech. URL: https://arxiv.org/pdf/2006.04558.pdf (дата звернення: 05.09.2023).	uk_UA
dc.relation.references	15. Y. Ren, et al., Fastspeech: Fast robust and controllable text to speech, Advances in Neural	uk_UA
dc.relation.references	16. Information Processing Systems. URL: https:// proceedings.neurips.cc/paper/2019/file/f63f65b503e22cb970527f23c9ad7db1- Paper.pdf (дата звернення: 11.09.2023).	uk_UA
dc.relation.references	17. Паламар М.І., Стрембіцький М.О., Паламар А.М. Проектування комп’ютеризованих вимірювальних систем і комплексів. Навчальний посібник. Тернопіль: ТНТУ. 2019. 150 с.	uk_UA
dc.relation.references	18. Погребенник В. Д., Клим Г. І., Бордун І. М., Пташник В. В., Паламар А. М. Системи оперативного контролю інтегральних параметрів водного середовища. Т. 2. Елементи комп’ютерних систем оперативного контролю: колективна монографія. Житомир: Видавничий дім «Бук-Друк», 2021. 180 c.	uk_UA
dc.relation.references	19. K. Cho, at al. Learning Phrase Representations using RNN Encoder- Decoder for Statistical Machine Translation. URL: https://arxiv.org/abs/1406.1078 (дата звернення: 09.09.2023).	uk_UA
dc.relation.references	20. Bahdanau, K. Cho, Y. Bengio. Neural Machine Translation by Jointly Learning to Align and Translate. URL: https://arxiv.org/abs/1409.0473 (дата звернення: 12.09.2023).	uk_UA
dc.relation.references	21. Жидецький В.Ц. Охорона праці користувачів комп´ютерів. Львів: Афіша, 2011. 176 с.	uk_UA
dc.relation.references	22. Желібо Е.Н. Безпека життєдіяльності: Навчальний посібник/ За редакцією Е.П. Желібо, В.М. Львів: «Новий світ - 2000», 2011. 320с.	uk_UA
dc.relation.references	23. Стадник І.Я., Зварич Н.М. Оцінка хімічної обстановки при аваріях на хімічно небезпечних об’єктах викидом (виливом) небезпечних хімічних речовин та застосуванні хімічної зброї. ТНТУ. 2020. 36 С.	uk_UA
dc.identifier.citationen	Makohon S. Methods and instruments for building computer systems for analyzing and transforming text messages into audio streams : Master Thesis „123 — Computer Engineering“ / Serhii Makohon - Ternopil, TNTU, 2023 – 86 p.	uk_UA
dc.contributor.affiliation	Тернопільський національний технічний університет імені Івана Пулюя	uk_UA
dc.contributor.affiliation	Ternopil Ivan Puluj National Technical University	uk_UA
dc.coverage.country	UA	uk_UA
Розташовується у зібраннях:	123 — комп’ютерна інженерія, F7 Комп’ютерна інженерія

Файли цього матеріалу:

Файл	Опис	Розмір	Формат
Author_Notes_Serhii_Makohon.docx		10,46 kB	Microsoft Word XML	Переглянути/відкрити
Serhii_Makohon.pdf		3,02 MB	Adobe PDF	Переглянути/відкрити

Показати базовий опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

Інструменти адміністратора