Empreu aquest identificador per citar o enllaçar aquest ítem: http://elartu.tntu.edu.ua/handle/lib/51442
Registre complet de metadades
Camp DCValorLengua/Idioma
dc.contributor.advisorЯцишин, Василь Володимирович-
dc.contributor.authorКліщ, Максим Володимирович-
dc.contributor.authorKlishch, Maksym Volodymyrovych-
dc.date.accessioned2026-01-28T11:03:55Z-
dc.date.available2026-01-28T11:03:55Z-
dc.date.issued2025-
dc.date.submitted2025-
dc.identifier.citationКліщ М. В. Метод і засіб узгодження потоку латентного простору DDSP-WORLD вокодера : робота на здобуття кваліфікаційного ступеня магістра : спец. 124 – cистемний аналіз / наук. кер. Яцишин Василь Володимирович. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2025. 74 с.uk_UA
dc.identifier.urihttp://elartu.tntu.edu.ua/handle/lib/51442-
dc.description.abstractКваліфікаційна робота присвячена розробці методу синтезу співочого голосу на основі глибинного навчання. Основну увагу зосереджено на поєднанні генеративного моделювання в латентному просторі з диференційовною цифровою обробкою аудіосигналів з метою досягнення високої якості синтезу за обмежених обчислювальних ресурсів. У першому розділі кваліфікаційної роботи виконано аналітичний огляд задач синтезу мовлення та синтезу співочого мовлення. Розглянуто сучасні моделі синтезу співочого голосу, зокрема підходи на основі варіаційних, дифузійних та потокових моделей. Проаналізовано сучасні TTS-моделі, що використовують узгодження потоку, а також існуючі вокодери. Окрему увагу приділено методам теселяції латентного простору та залишковому векторному квантуванню. Обґрунтовано актуальність досліджуваної задачі. У другому розділі кваліфікаційної роботи викладено теоретичні основи запропонованого підходу. Описано метод узгодження потоку векторного поля, його модифіковані функції втрат та умовні варіанти, а також механізми узгодження умовних ознак. Наведено архітектуру генеративної моделі та аудіо-автокодера, що включає енкодер, залишкове векторне квантування та декодер із DDSP-WORLD вокодером. Також розглянуто архітектуру змагально-генеративної моделі та модель ознак музичної партитури, зокрема енкодери фонемних і нотних ознак, модель часового зсуву та модель тривалості. У третьому розділі кваліфікаційної роботи описано практичну реалізацію запропонованого методу. Наведено характеристики використаного набору даних та процес оптимізації параметрів моделі. Проведено аналіз експериментальних результатів, абляційне оцінювання окремих компонентів архітектури та узагальнений аналіз отриманих результатів. Окремий підрозділ присвячено візуалізації роботи моделі та аналізу роботи енкодера частоти основного тону. У четвертому розділі кваліфікаційної роботи розглянуто питання охорони праці та безпеки в надзвичайних ситуаціях. Проаналізовано вплив шуму, ультразвуку та інфразвуку на організм людини та наведено засоби захисту від шкідливої дії акустичних факторів. Також досліджено вплив електромагнітного імпульсу на елементи DDSP-WORLD вокодера, розглянуто нормативно-правове забезпечення та методи підвищення стійкості системи до імпульсних збуреньuk_UA
dc.description.abstractThe master’s qualification thesis is devoted to the development of a singing voice synthesis method based on deep learning. The main focus is placed on combining latent-space generative modeling with differentiable digital signal processing of audio signals in order to achieve high synthesis quality under limited computational resources. The first chapter of the thesis provides an analytical review of speech synthesis and singing voice synthesis tasks. Modern singing voice synthesis models are examined, including approaches based on variational, diffusion, and flow-based models. Contemporary TTS models employing flow matching, as well as existing vocoders, are analyzed. Special attention is given to methods of latent space tessellation and residual vector quantization. The relevance of the research problem is substantiated. The second chapter presents the theoretical foundations of the proposed approach. The method of vector field flow matching, its modified loss functions, and conditional variants are described, along with mechanisms for conditioning feature alignment. The architecture of the generative model and the audio autoencoder is presented, including the encoder, residual vector quantization, and a decoder with a DDSP-WORLD vocoder. In addition, the architecture of the adversarial generativenote encoders, the time-lag model, and the duration model. The third chapter describes the practical implementation of the proposed method. The characteristics of the dataset used and the model parameter optimization process are presented. An analysis of experimental results is conducted, including ablation studies of individual architectural components and a comprehensive evaluation of the obtained results. A separate subsection is devoted to the visualization of the model’s operation and the analysis of the fundamental frequency encoder. The fourth chapter addresses occupational safety and emergency safety issues. The effects of noise, ultrasound, and infrasound on the human body are analyzed, and protective measures against harmful acoustic factors are presented. In addition, the impact of electromagnetic pulses on the components of the DDSP-WORLD vocoder is investigated, along with the regulatory framework and methods for improving system robustness against impulsive disturbances model and the musical score feature model are discussed, including phoneme anduk_UA
dc.description.tableofcontentsВступ 10 1 Огляд сучасних методів синтезу співочого мовлення 14 1.1 Задачі синтезу мовлення та синтезу співочого мовлення . . . 14 1.1.1 Моделі синтезу співочого голосу . . . 15 1.1.2 Сучасні TTS-моделі на основі узгодження потоку . . . 17 1.2 Огляд існуючих рішень та літератури щодо вокодерів . . . 18 1.3 Методи теселяції простору та залишкове векторне квантування 22 1.3.1 Векторна квантизація . . . 22 1.3.2 VQ-VAE . . . .23 1.3.3 Залишкова векторна квантизація . . . 24 1.4 Актуальність завдання . . . 24 1.5 Висновки . . . 25 2 Методи та архітектура моделі синтезу співочого голосу на основі узгодження потоку 26 2.1 Узгодження потоку векторного поля . . . 27 2.1.1 Модифікована функція втрат . . . 27 2.1.2 Умовне узгодження потоку . . . 28 2.1.3 Узгодження умовних ознак . . . 29 2.1.4 Архітектура моделі . . . 30 2.2 Аудіо-автокодер . . . 32 2.2.1 Енкодер . . . 32 2.2.2 Залишкове векторне квантування . . . 33 2.2.3 Декодер та вокодер . . . 33 2.2.4 Архітектура змагально-генеративної моделі . . . 35 2.3 Модель ознак музичної партитури . . . 37 2.3.1 Енкодер фонемних та нотних ознаки . . .37 2.3.2 Модель часового зсуву . . . 38 8 2.3.3 Модель тривалості . . . 39 2.4 Висновки . . . 39 3 Експериментальне дослідження та аналіз результатів 41 3.1 Набір даних . . . 41 3.2 Оптимізація параметрів моделі . . .41 3.3 Методика оцінювання результатів . . . 42 3.3.1 Суб’єктивне оцінювання . . . 42 3.3.2 Об’єктивне оцінювання . . . 43 3.3.3 Оцінювання обчислювальної ефективності . . . 43 3.4 Аналіз експериментальних результатів . . . 43 3.5 Абляційне оцінювання . . . 44 3.6 Аналіз результатів дослідження . . . 45 3.7 Демонстрація роботи моделі . . . 48 3.7.1 Аналіз роботи F0-енкодера . . .48 3.7.2 Аналіз латентного простору та предиктора . . . 53 3.8 Висновки . . . 56 4 Охорона праці та безпека в надзвичайних ситуаціях 58 4.1 Вплив шуму ультразвуку та інфразвуку на організм людини. Засоби захисту від шкідливої дії шуму. . . 58 4.1.1 Вплив шуму, ультразвуку та інфразвуку на організм людини . . . 58 4.1.2 Засоби захисту від шкідливої дії акустичних факторів . . .60 4.2 Оцінка дії електромагнітного імпульсу (ЕМІ) на елементи DDSP-WORLD вокодера і методи захисту . . . 61 4.2.1 Теоретичні засади впливу електромагнітного імпульсу та нормативно-правове забезпечення . . . 62 4.2.2 Формалізація завдання . . . 63 4.2.3 Дослідження впливу імпульсних збурень на стабільність роботи DDSP-WORLD вокодера . . . 64 4.3 Висновки . . .65 Висновки 66 Список посилань 68 ДОДАТКИ 74uk_UA
dc.language.isoukuk_UA
dc.publisherТернопільський національний технічний університет імені Івана Пулюяuk_UA
dc.subjectмашинне навчанняuk_UA
dc.subjectmachine learninguk_UA
dc.subjectглибинне навчанняuk_UA
dc.subjectdeep learninguk_UA
dc.subjectсинтез співочого мовленняuk_UA
dc.subjectsinging voice synthesisuk_UA
dc.subjectузгодження потокуuk_UA
dc.subjectflow matchinguk_UA
dc.subjectдиференційовна цифрова обробка сигналівuk_UA
dc.subjectdifferentiable digital signal processinguk_UA
dc.subjectзалишкове векторне квантуванняuk_UA
dc.subjectresidual vector quantizationuk_UA
dc.titleМетод і засіб узгодження потоку латентного простору DDSP-WORLD вокодераuk_UA
dc.title.alternativeMethod and Tool for Latent Space Flow Matching of a DDSP-WORLD Vocoderuk_UA
dc.typeMaster Thesisuk_UA
dc.rights.holder© Кліщ Максим Володимирович, 2025uk_UA
dc.coverage.placenameТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Українаuk_UA
dc.format.pages74-
dc.relation.references1. H. Kenmochi and H. Ohshita, “Vocaloid-commercial singing synthesizer based on sample concatenation.,” in Interspeech, vol. 2007, pp. 4009–4010, 2007.uk_UA
dc.relation.references2. K. Oura, A. Mase, T. Yamada, S. Muto, Y. Nankaku, and K. Tokuda, “Recent development of the hmm-based singing voice synthesis system-sinsy.,” in SSW, pp. 211–216, 2010.uk_UA
dc.relation.references3. P. Lu, J. Wu, J. Luan, X. Tan, and L. Zhou, “Xiaoicesing: A high-quality and integrated singing voice synthesis system,” 2020.uk_UA
dc.relation.references4. Y. Ren, X. Tan, T. Qin, J. Luan, Z. Zhao, and T.-Y. Liu, “Deepsinger: Singing voice synthesis with data mined from the web,” 2020.uk_UA
dc.relation.references5. Y. Zhang, J. Cong, H. Xue, L. Xie, P. Zhu, and M. Bi, “Visinger: Variational inference with adversarial learning for end-to-end singing voice synthesis,” 2022.uk_UA
dc.relation.references6. J.-S. Hwang, S.-H. Lee, and S.-W. Lee, “Hiddensinger: High-quality singing voice synthesis via neural audio codec and latent diffusion models,” Neural Networks, vol. 181, p. 106762, 2025.uk_UA
dc.relation.references7. J. Liu, C. Li, Y. Ren, F. Chen, and Z. Zhao, “Diffsinger: Singing voice synthesis via shallow diffusion mechanism,” 2022.uk_UA
dc.relation.references8. Y. Zhang, H. Xue, H. Li, L. Xie, T. Guo, R. Zhang, and C. Gong, “Visinger 2: High-fidelity end-to-end singing voice synthesis enhanced by digital signal processing synthesizer,” 2022.uk_UA
dc.relation.references9. Y. Zhang, W. Guo, C. Pan, D. Yao, Z. Zhu, Z. Jiang, Y. Wang, T. Jin, and Z. Zhao, “Tcsinger 2: Customizable multilingual zero-shot singing voice synthesis,” in Findings of the Association for Computational Linguistics: ACL 2025, p. 13280–13294, Association for Computational Linguistics, 2025.uk_UA
dc.relation.references10. W. Guo, Y. Zhang, C. Pan, R. Huang, L. Tang, R. Li, Z. Hong, Y. Wang, and Z. Zhao, “Techsinger: Technique controllable multilingual singing voice synthesis via flow matching,” 2025.uk_UA
dc.relation.references11. A. H. Liu, M. Le, A. Vyas, B. Shi, A. Tjandra, and W.-N. Hsu, “Generative pre-training for speech with flow matching,” 2024.uk_UA
dc.relation.references12. Y. Chen, Z. Niu, Z. Ma, K. Deng, C. Wang, J. Zhao, K. Yu, and X. Chen, “F5-tts: A fairytaler that fakes fluent and faithful speech with flow matching,” 2025.uk_UA
dc.relation.references13. S. Mehta, R. Tu, J. Beskow, Éva Székely, and G. E. Henter, “Matcha-tts: A fast tts architecture with conditional flow matching,” 2024.uk_UA
dc.relation.references14. H. Lou, H. Paik, P. D. Haghighi, W. Hu, and L. Yao, “Latentspeech: Latent diffusion for text-to-speech generation,” 2024.uk_UA
dc.relation.references15. Y. Guo, C. Du, Z. Ma, X. Chen, and K. Yu, “Voiceflow: Efficient text-to-speech with rectified flow matching,” 2024.uk_UA
dc.relation.references16. H. Wang, S. Shan, Y. Guo, and Y. Wang, “Prosodyflow: High-fidelity text-to-speech through conditional flow matching and prosody modeling with large speech language models,” in Proceedings of the 31st International Conference on Computational Linguistics, pp. 7748–7753, 2025.uk_UA
dc.relation.references17. D. Griffin and J. Lim, “Signal estimation from modified short-time fourier transform,” IEEE Transactions on acoustics, speech, and signal processing, vol. 32, no. 2, pp. 236–243, 1984.uk_UA
dc.relation.references18. M. Morise, F. Yokomori, and K. Ozawa, “World: a vocoder-based high-quality speech synthesis system for real-time applications,” IEICE TRANSACTIONS on Information and Systems, vol. 99, no. 7, pp. 1877–1884, 2016.uk_UA
dc.relation.references19. H. Kawahara, I. Masuda-Katsuse, and A. De Cheveigne, “Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous-frequency-based f0 extraction: Possible role of a repetitive structure in sounds,” Speech communication, vol. 27, no. 3-4, pp. 187–207, 1999.uk_UA
dc.relation.references20. J. Kong, J. Kim, and J. Bae, “Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis,” 2020.uk_UA
dc.relation.references21. R. Yoneyama, Y.-C. Wu, and T. Toda, “Unified source-filter gan: Unified source-filter network based on factorization of quasi-periodic parallel wavegan,” arXiv preprint arXiv:2104.04668, 2021.uk_UA
dc.relation.references22. R. Yoneyama, Y.-C. Wu, and T. Toda, “Source-filter hifi-gan: Fast and pitch controllable high-fidelity neural vocoder,” 2023.uk_UA
dc.relation.references23. N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. Oord, S. Dieleman, and K. Kavukcuoglu, “Efficient neural audio synthesis,” in International Conference on Machine Learning, pp. 2410–2419, PMLR, 2018.uk_UA
dc.relation.references24. A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “Wavenet: A generative model for raw audio,” arXiv preprint arXiv:1609.03499, 2016.uk_UA
dc.relation.references25. A. Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. Driessche, E. Lockhart, L. Cobo, F. Stimberg, et al., “Parallel wavenet: Fast high-fidelity speech synthesis,” in International conference on machine learning, pp. 3918–3926, PMLR, 2018.uk_UA
dc.relation.references26. R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A flow-based generative network for speech synthesis,” in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 3617–3621, IEEE, 2019.uk_UA
dc.relation.references27. W. Ping, K. Peng, and J. Chen, “Clarinet: Parallel wave generation in end-to-end text-to-speech,” arXiv preprint arXiv:1807.07281, 2018.uk_UA
dc.relation.references28. J.-M. Valin and J. Skoglund, “Lpcnet: Improving neural speech synthesis through linear prediction,” in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5891–5895, IEEE, 2019.uk_UA
dc.relation.references29. J. Engel, L. Hantrakul, C. Gu, and A. Roberts, “Ddsp: Differentiable digital signal processing,” 2020.uk_UA
dc.relation.references30. S. Nercessian, “Differentiable world synthesizer-based neural vocoder with application to end-to-end audio style transfer,” 2023.uk_UA
dc.relation.references31. C.-Y. Yu and G. Fazekas, “Singing voice synthesis using differentiable lpc and glottal-flow-inspired wavetables,” arXiv preprint arXiv:2306.17252, 2023.uk_UA
dc.relation.references32. D.-Y. Wu, W.-Y. Hsiao, F.-R. Yang, O. Friedman, W. Jackson, S. Bruzenak, Y.-W. Liu, and Y.-H. Yang, “Ddsp-basynthesizer and a comprehensive evaluation,” arXiv preprint arXiv:2208.04756, 2022.sed singing vocoders: A new subtractive-baseduk_UA
dc.relation.references33. P. Agrawal, T. Koehler, Z. Xiu, P. Serai, and Q. He, “Ultra-lightweight neural differential dsp vocoder for high quality speech synthesis,” 2024.uk_UA
dc.relation.references34. B. Hayes, J. Shier, G. Fazekas, A. McPherson, and C. Saitis, “A review of differentiable digital signal processing for music and speech synthesis,” Frontiers in Signal Processing, vol. 3, p. 1284100, 2024.uk_UA
dc.relation.references35. T. Bäckström, O. Räsänen, A. Zewoudie, P. P. Zarazaga, L. Koivusalo, S. Das, E. G. Mellado, M. Bouafif, and D. Ramos, “Introduction to speech processing,” 2022.uk_UA
dc.relation.references36. A. Van Den Oord, O. Vinyals, et al., “Neural discrete representation learning,” Advances in neural information processing systems, vol. 30, 2017.uk_UA
dc.relation.references37. A. Razavi, A. Van den Oord, and O. Vinyals, “Generating diverse high-fidelity images with vq-vae-2,” Advances in neural information processing systems, vol. 32, 2019.uk_UA
dc.relation.references38. P. Dhariwal, H. Jun, C. Payne, J. W. Kim, A. Radford, and I. Sutskever, “Jukebox: A generative model for music,” arXiv preprint arXiv:2005.00341, 2020.uk_UA
dc.relation.references39. N. Zeghidour, A. Luebs, A. Omran, J. Skoglund, and M. Tagliasacchi, “Soundstream: An end-to-end neural audio codec,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 495–507, 2021.uk_UA
dc.relation.references40. Y. Lipman, R. T. Q. Chen, H. Ben-Hamu, M. Nickel, and M. Le, “Flow matching for generative modeling,” 2023.uk_UA
dc.relation.references41. S. Lee, Z. Lin, and G. Fanti, “Improving the training of rectified flows,” Advances in neural information processing systems, vol. 37, pp. 63082–63109, 2024.uk_UA
dc.relation.references42. T. Luo, X. Miao, and W. Duan, “Wavefm: A high-fidelity and efficient vocoder based on flow matching,” 2025.uk_UA
dc.relation.references43. B. Kim, Y.-G. Hsieh, M. Klein, M. Cuturi, J. C. Ye, B. Kawar, and J. Thornton, “Simple reflow: Improved techniques for fast flow models,” arXiv preprint arXiv:2410.07815, 2024.uk_UA
dc.relation.references44. Y. Shi, Y. Wang, C. Wu, C.-F. Yeh, J. Chan, F. Zhang, D. Le, and M. Seltzer, “Emformer: Efficient memory transformer based acoustic model for low latency streaming speech recognition,” 2020.uk_UA
dc.relation.references45. S. gil Lee, W. Ping, B. Ginsburg, B. Catanzaro, and S. Yoon, “Bigvgan: A universal neural vocoder with large-scale training,” 2023.uk_UA
dc.relation.references46. J. W. Kim, J. Salamon, P. Li, and J. P. Bello, “Crepe: A convolutional representation for pitch estimation,” 2018.uk_UA
dc.relation.references47. D.-Y. Wu, W.-Y. Hsiao, F.-R. Yang, O. Friedman, W. Jackson, S. Bruzenak, Y.-W. Liu, and Y.-H. Yang, “Ddsp-based singing vocoders: A new subtractive-based synthesizer and a comprehensive evaluation,” 2022.uk_UA
dc.relation.references48. X. Mao, Q. Li, H. Xie, R. Y. K. Lau, Z. Wang, and S. P. Smolley, “Least squares generative adversarial networks,” 2017.uk_UA
dc.relation.references49. Y. Hono, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Sinsy: A deep neural network-based singing voice synthesis system,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, p. 2803–2815, 2021.uk_UA
dc.relation.references50. I. Ogawa and M. Morise, “Tohoku kiritan singing database: A singing database for statistical parametric singing synthesis using japanese pop songs,” Acoustical Science and Technology, vol. 42, no. 3, pp. 140–145, 2021.uk_UA
dc.relation.references51. D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” 2017.uk_UA
dc.relation.references52. Верховна Рада України, “Закон України «Про охорону праці».” Відомості Верховної Ради України, 1992. Дата звернення: 07.12.2025.uk_UA
dc.relation.references53. Верховна Рада України, “Закон України «Про забезпечення санітарного та епідемічного благополуччя населення».” Відомості Верховної Ради України, 1994. Дата звернення: 07.12.2025.uk_UA
dc.relation.references54. Міністерство охорони здоров’я України, “ДСН 3.3.6.037-99. Санітарні норми виробничого шуму, ультразвуку та інфразвуку,” 1999. Дата звернення: 07.12.2025.uk_UA
dc.relation.references55. Міністерство охорони здоров’я України, “Наказ No 540 від 23 березня 2023 р. Про затвердження граничних та робочих значень шумового впливу на робочому місці,” 2023. Дата звернення: 07.12.2025.uk_UA
dc.relation.references56. Грибан Г. В. and Негодченко О. В., Охорона праці. Центр учбової літератури, 2009.uk_UA
dc.relation.references57. World Health Organization, “Make listening safe,” 2021. Accessed: 07.12.2025.uk_UA
dc.relation.references58. Міністерство розвитку громад та територій України, “ДБН В.1.1-31:2013. Захист територій, будинків і споруд від шуму,” 2013. Дата звернення: 07.12.2025.uk_UA
dc.relation.references59. ДП «УкрНДНЦ», “ДСТУ en 458:2019. Засоби захисту органів слуху,” 2019. Дата звернення: 07.12.2025.uk_UA
dc.relation.references60. Стручок, В. С., Безпека в надзвичайних ситуаціях: методичний посібник. Тернопіль: ФОП Паляниця В. А., 2020. 156 с.uk_UA
dc.relation.references61. Стручок, В. С., Техноекологія та цивільна безпека. Частина «Цивільна безпека». Тернопіль: ФОП Паляниця В. А., 2020. 156 с.uk_UA
dc.relation.references62. International Electrotechnical Commission, “Iec 61000 series: Electromagnetic compatibility (emc).”uk_UA
dc.relation.references63. Кабінет Міністрів України, “Технічний регламент з електромагнітної сумісності обладнання,” 2015. Постанова No 1077.uk_UA
dc.relation.references64. ДП «УкрНДНЦ», “ДСТУ en iec 61000-1-2:2022. Електромагнітна сумісність,” 2022.uk_UA
dc.contributor.affiliationТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра систем штучного інтелекту та аналізу даних, м. Тернопіль, Українаuk_UA
dc.coverage.countryUAuk_UA
Apareix a les col·leccions:124 — системний аналіз

Arxius per aquest ítem:
Arxiu Descripció MidaFormat 
Mag_Кліщ_М_В_2025.pdf1,67 MBAdobe PDFVeure/Obrir


Els ítems de DSpace es troben protegits per copyright, amb tots els drets reservats, sempre i quan no s’indiqui el contrari.

Eines d'Administrador