Denne identifikatoren kan du bruke til å sitere eller lenke til denne innførselen: http://elartu.tntu.edu.ua/handle/lib/43330
Tittel: Методи та інструменти побудови комп'ютерних систем аналізу і перетворнення текстових повідомлень в аудіопотік
Alternative titler: Methods and instruments for building computer systems for analyzing and transforming text messages into audio streams
Authors: Макогон, Сергій Віталійович
Makohon, Serhii
Affiliation: Тернопільський національний технічний університет імені Івана Пулюя
Ternopil Ivan Puluj National Technical University
Bibliographic description (Ukraine): Макогон С. В. Методи та інструменти побудови комп'ютерних систем аналізу і перетворнення текстових повідомлень в аудіопотік : кваліфікаційна робота на здобуття освітнього ступеня магістр за спеціальністю „123 — комп’ютерна інженерія“ / С. В. Макогон. — Тернопіль: ТНТУ, 2023. — 86 с.
Bibliographic description (International): Makohon S. Methods and instruments for building computer systems for analyzing and transforming text messages into audio streams : Master Thesis „123 — Computer Engineering“ / Serhii Makohon - Ternopil, TNTU, 2023 – 86 p.
Utgivelsesdato: 19-des-2023
Submitted date: 27-jun-2023
Date of entry: 3-jan-2024
Forlag: Тернопільський національний технічний університет імені Івана Пулюя
Country (code): UA
Place of the edition/event: Тернопільський національний технічний університет імені Івана Пулюя
Supervisor: Луцків, Андрій Мирославович
Lutskiv, Andriy
Committee members: Стадник, Марія Андріївна
Stadnyk, Maria
UDC: 004.048
Emneord: 123 комп’ютерна інженерія
комп’ютерна система
метод
текст
аудіопотік
method
tool
computer system
transforming
text
audio stream
перетворення
Number of pages: 86
Abstrakt: У кваліфікаційній роботі магістра на основі аналізу таксономії процесів перетворення текстових повідомлень в аудіопотік визначено потенційні способи розвитку існуючих нейромережевих моделей, зокрема, в контексті застосування методів машинного навчання для підвищення якості попереднього опрацювання тексту, перетворення графем у фонеми, а також забезпечення можливості їх прогнозування на основі попередньо навчених нейронних моделей. Запропоновано архітектуру нейронної мережі до складу якої входить енкодер на базі трансформерів, які забезпечують зменшення розмірності вхідної матриці фонем у 4 рази та добувають фонетичні властивості, а також декодер, який сформований з блоків визначення акустичних властивостей, зокрема енергії, тривалості і висоти звуку, та блоків декодування властивостей аудіосигналу. Розроблено системний програмний додаток для забезпечення трансляції текстових повідомлень в аудіосигнал з використанням мови програмування Python та проведено експерименти на Raspberry PI 4.
In the master's qualification work, based on the analysis of the taxonomy of the processes of converting text messages into an audio stream, potential ways of developing existing neural network models are identified, in particular, in the context of the application of machine learning methods to improve the quality of pre-processing of text, converting graphemes into phonemes, as well as ensuring the possibility of their prediction based on pre-trained neural models. The architecture of a neural network is proposed, which includes an encoder based on transformers that provide a 4-fold reduction in the dimensionality of the input phoneme matrix and extract phonetic properties, as well as a decoder that is formed from blocks for determining acoustic properties, in particular energy, duration and pitch of sound, and blocks decoding of audio signal properties. A system software application was developed to ensure the translation of text messages into an audio signal using the Python programming language, and experiments were conducted on Raspberry PI 4.
Content: ВСТУП 8 РОЗДІЛ 1 АНАЛІЗ ПІДХОДІВ ДО СИНТЕЗУ ГОЛОСОВИХ ПОВІДОМЛЕНЬ 13 1.1. Аналіз підходів синтезу голосових повідомлень 13 1.2. Аналіз основної таксономії процесу перетворення тексту у голосові повідомлення з використанням нейронних мереж 19 1.3. Аналіз текстових повідомлень при перетворені їх в аудіопотік 22 1.4. Висновки до розділу 25 РОЗДІЛ 2 МОДЕЛІ ТА АЛГОРИТМИ ПОБУДОВИ АКУСТИЧНИХ МОДЕЛЕЙ 27 2.1. Аналіз та обґрунтування базових характеристик аудіосигналів 27 2.2. Акустичні алгоритми при перетворенні тексту в аудіо 32 2.3. Алгоритми організації та функціонування вокодерів 34 2.4. Архітектура нейронної мережі для перетворення тексту в аудіопотік 40 2.5. Висновки до розділу 44 РОЗДІЛ 3 ІМПЛЕМЕНТАЦІЯ КОМП’ЮТЕРНОЇ СИСТЕМИ ПЕРЕТВОРЕННЯ ТЕКСТУ В АУДІОПОТІК НА ОСНОВІ RASPBERRY PI 46 3.1. Організація схеми підключення пристроїв комп’ютерної системи перетворення тексту в аудіопотік 46 3.2. Налаштування аудіопристроїв на Raspberry PI 47 3.3. Програмне забезпечення для перетворення тексту в аудіопотік 54 3.3.1. Транслятор аудіопотоку 55 3.3.2. Програмний модуль відправки текстових повідомлень 56 3.4. Реалізація та оцінювання ефективності моделі перетворення тексту в аудіопотік 58 3.5. Висновки до розділу 64 РОЗДІЛ 4 ОХОРОНА ПРАЦІ ТА БЕЗПЕКА В НАДЗВИЧАЙНИХ СИТУАЦІЯХ 65 4.1. Охорона праці 65 4.2. Засоби захисту персоналу від уражень радіації 68 ВИСНОВКИ 76 СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ 78 Додаток А Текст наукових публікацій кваліфікаційної роботи магістра 81
URI: http://elartu.tntu.edu.ua/handle/lib/43330
Copyright owner: © Макогон Сергій Віталійович, 2023
© Makohon Serhii, 2023
References (Ukraine): 1. Microsoft Azure: Text to speech. URL: https://azure.microsoft.com/en-us/services/cognitive-services/text-to-speech/ (дата звернення: 05.09.2023).
2. Kovtun V., Kovtun O. System of methods of automated cognitive linguistic analysis of speech signals with noise, Multimedia Tools and Applications. Springer Science and Business Media LLC. 2022. URL: https://doi.org/10.1007/s11042-022-13249-5 (дата звернення: 08.09.2023).
3. Kovtun V., Kovtun O., Semenov A. Entropy-Argumentative Concept of Computational Phonetic Analysis of Speech Taking into Account Dialect and Individuality of Phonation, Entropy. Vol. 24, no. 7. 2022. URL: https://doi.org/10.3390/e24071006 (дата звернення: 06.09.2023).
4. Krak Y., Barmak O., Mazurets O. The practice implementation of the information technology for automated definition of semantic terms sets in the content of educational materials. In: CEUR Workshop Proceedings 2139. 2018. pp. 245-254.
5. Kryvonos I.G., Krak Iu.V., Barmak O.V., Bagrii R.O. New Tools of Alternative Communication for Persons with Verbal Communication Disorders. Cybern. Syst. Anal. 52(5). 2016. PP. 655–673.
6. Rashkevych Y., Peleshko D., Pelekh I., Izonin I. Speech signal marking on the base of local magnitude and invariant segmentation. Mathematical Modeling and Computing. 2014. 1(2), pp. 234–244.
7. Google Cloud: Text to speech. URL: https://cloud.google.com/text-to- speech (дата звернення: 06.09.2023).
8. Cerence/Nuance TTS Ukrainian. URL: https://nextup.com/cerence/ (дата звернення: 08.09.2023).
9. Mel-spectrogram. URL: https://en.wikipedia.org/wiki/Mel_scale (дата звернення: 08.09.2023).
10. Griffin-Lim Algorithm. URL: https://paperswithcode.com/method/ griffin-lim-algorithm (дата звернення: 10.09.2023).
11. Луцків А.М., Макогон С.В. Нейромережеві підходи до перетворення текстових повідомлень в аудіопотік. Матеріали ХІІ міжнародної науково-практичної конференції молодих учених та студентів «Актуальні задачі сучасних технологій» (6-7 грудня 2023 року). Тернопіль: ТНТУ. 2022. C. 438.
12. Луцків А.М., Макогон С.В. Типи архітектур нейронних мереж для перетворення текстових повідомлень у звуковий потік. Матеріали ХІ науково-технічної конференції Тернопільського національного технічного університету імені Івана Пулюя «Інформаційні моделі, системи та технології» (13-14 грудня 2023 року). Тернопіль: ТНТУ. 2022. C. 164.
13. J. Shen, et al. TTS Synthesis by Conditioning Wavelet on Mel Spectrogram Predictions. URL: https://arxiv.org/pdf/1712.05884.pdf (дата звернення: 26.09.2023).
14. Y. Ren, C. Hu, X. Tan, T. Qin. FastSpeech2: Fast and High-quality End-to-end Text to Speech. URL: https://arxiv.org/pdf/2006.04558.pdf (дата звернення: 05.09.2023).
15. Y. Ren, et al., Fastspeech: Fast robust and controllable text to speech, Advances in Neural
16. Information Processing Systems. URL: https:// proceedings.neurips.cc/paper/2019/file/f63f65b503e22cb970527f23c9ad7db1- Paper.pdf (дата звернення: 11.09.2023).
17. Паламар М.І., Стрембіцький М.О., Паламар А.М. Проектування комп’ютеризованих вимірювальних систем і комплексів. Навчальний посібник. Тернопіль: ТНТУ. 2019. 150 с.
18. Погребенник В. Д., Клим Г. І., Бордун І. М., Пташник В. В., Паламар А. М. Системи оперативного контролю інтегральних параметрів водного середовища. Т. 2. Елементи комп’ютерних систем оперативного контролю: колективна монографія. Житомир: Видавничий дім «Бук-Друк», 2021. 180 c.
19. K. Cho, at al. Learning Phrase Representations using RNN Encoder- Decoder for Statistical Machine Translation. URL: https://arxiv.org/abs/1406.1078 (дата звернення: 09.09.2023).
20. Bahdanau, K. Cho, Y. Bengio. Neural Machine Translation by Jointly Learning to Align and Translate. URL: https://arxiv.org/abs/1409.0473 (дата звернення: 12.09.2023).
21. Жидецький В.Ц. Охорона праці користувачів комп´ютерів. Львів: Афіша, 2011. 176 с.
22. Желібо Е.Н. Безпека життєдіяльності: Навчальний посібник/ За редакцією Е.П. Желібо, В.М. Львів: «Новий світ - 2000», 2011. 320с.
23. Стадник І.Я., Зварич Н.М. Оцінка хімічної обстановки при аваріях на хімічно небезпечних об’єктах викидом (виливом) небезпечних хімічних речовин та застосуванні хімічної зброї. ТНТУ. 2020. 36 С.
Content type: Master Thesis
Vises i samlingene:123 — комп’ютерна інженерія

Tilhørende filer:
Fil Beskrivelse StørrelseFormat 
Author_Notes_Serhii_Makohon.docx10,46 kBMicrosoft Word XMLVis/Åpne
Serhii_Makohon.pdf3,02 MBAdobe PDFVis/Åpne


Alle innførsler i DSpace er beskyttet av copyright

Administrasjonsverktøy