Utilize este identificador para referenciar este registo:
http://elartu.tntu.edu.ua/handle/lib/51442| Título: | Метод і засіб узгодження потоку латентного простору DDSP-WORLD вокодера |
| Outros títulos: | Method and Tool for Latent Space Flow Matching of a DDSP-WORLD Vocoder |
| Autor: | Кліщ, Максим Володимирович Klishch, Maksym Volodymyrovych |
| Affiliation: | ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра систем штучного інтелекту та аналізу даних, м. Тернопіль, Україна |
| Bibliographic description (Ukraine): | Кліщ М. В. Метод і засіб узгодження потоку латентного простору DDSP-WORLD вокодера : робота на здобуття кваліфікаційного ступеня магістра : спец. 124 – cистемний аналіз / наук. кер. Яцишин Василь Володимирович. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2025. 74 с. |
| Data: | 2025 |
| Submitted date: | 2025 |
| Date of entry: | 28-Jan-2026 |
| Editora: | Тернопільський національний технічний університет імені Івана Пулюя |
| Country (code): | UA |
| Place of the edition/event: | ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна |
| Supervisor: | Яцишин, Василь Володимирович |
| Palavras-chave: | машинне навчання machine learning глибинне навчання deep learning синтез співочого мовлення singing voice synthesis узгодження потоку flow matching диференційовна цифрова обробка сигналів differentiable digital signal processing залишкове векторне квантування residual vector quantization |
| Number of pages: | 74 |
| Resumo: | Кваліфікаційна робота присвячена розробці методу синтезу співочого
голосу на основі глибинного навчання. Основну увагу зосереджено
на поєднанні генеративного моделювання в латентному просторі з
диференційовною цифровою обробкою аудіосигналів з метою досягнення
високої якості синтезу за обмежених обчислювальних ресурсів.
У першому розділі кваліфікаційної роботи виконано аналітичний огляд
задач синтезу мовлення та синтезу співочого мовлення. Розглянуто сучасні
моделі синтезу співочого голосу, зокрема підходи на основі варіаційних,
дифузійних та потокових моделей. Проаналізовано сучасні TTS-моделі, що
використовують узгодження потоку, а також існуючі вокодери. Окрему увагу
приділено методам теселяції латентного простору та залишковому векторному
квантуванню. Обґрунтовано актуальність досліджуваної задачі.
У другому розділі кваліфікаційної роботи викладено теоретичні основи
запропонованого підходу. Описано метод узгодження потоку векторного поля,
його модифіковані функції втрат та умовні варіанти, а також механізми
узгодження умовних ознак. Наведено архітектуру генеративної моделі та
аудіо-автокодера, що включає енкодер, залишкове векторне квантування та декодер із DDSP-WORLD вокодером. Також розглянуто архітектуру
змагально-генеративної моделі та модель ознак музичної партитури, зокрема
енкодери фонемних і нотних ознак, модель часового зсуву та модель
тривалості.
У третьому розділі кваліфікаційної роботи описано практичну
реалізацію запропонованого методу. Наведено характеристики використаного
набору даних та процес оптимізації параметрів моделі. Проведено аналіз
експериментальних результатів, абляційне оцінювання окремих компонентів
архітектури та узагальнений аналіз отриманих результатів. Окремий підрозділ
присвячено візуалізації роботи моделі та аналізу роботи енкодера частоти
основного тону.
У четвертому розділі кваліфікаційної роботи розглянуто питання
охорони праці та безпеки в надзвичайних ситуаціях. Проаналізовано вплив
шуму, ультразвуку та інфразвуку на організм людини та наведено засоби
захисту від шкідливої дії акустичних факторів. Також досліджено вплив
електромагнітного імпульсу на елементи DDSP-WORLD вокодера, розглянуто
нормативно-правове забезпечення та методи підвищення стійкості системи до
імпульсних збурень The master’s qualification thesis is devoted to the development of a singing voice synthesis method based on deep learning. The main focus is placed on combining latent-space generative modeling with differentiable digital signal processing of audio signals in order to achieve high synthesis quality under limited computational resources. The first chapter of the thesis provides an analytical review of speech synthesis and singing voice synthesis tasks. Modern singing voice synthesis models are examined, including approaches based on variational, diffusion, and flow-based models. Contemporary TTS models employing flow matching, as well as existing vocoders, are analyzed. Special attention is given to methods of latent space tessellation and residual vector quantization. The relevance of the research problem is substantiated. The second chapter presents the theoretical foundations of the proposed approach. The method of vector field flow matching, its modified loss functions, and conditional variants are described, along with mechanisms for conditioning feature alignment. The architecture of the generative model and the audio autoencoder is presented, including the encoder, residual vector quantization, and a decoder with a DDSP-WORLD vocoder. In addition, the architecture of the adversarial generativenote encoders, the time-lag model, and the duration model. The third chapter describes the practical implementation of the proposed method. The characteristics of the dataset used and the model parameter optimization process are presented. An analysis of experimental results is conducted, including ablation studies of individual architectural components and a comprehensive evaluation of the obtained results. A separate subsection is devoted to the visualization of the model’s operation and the analysis of the fundamental frequency encoder. The fourth chapter addresses occupational safety and emergency safety issues. The effects of noise, ultrasound, and infrasound on the human body are analyzed, and protective measures against harmful acoustic factors are presented. In addition, the impact of electromagnetic pulses on the components of the DDSP-WORLD vocoder is investigated, along with the regulatory framework and methods for improving system robustness against impulsive disturbances model and the musical score feature model are discussed, including phoneme and |
| Content: | Вступ 10 1 Огляд сучасних методів синтезу співочого мовлення 14 1.1 Задачі синтезу мовлення та синтезу співочого мовлення . . . 14 1.1.1 Моделі синтезу співочого голосу . . . 15 1.1.2 Сучасні TTS-моделі на основі узгодження потоку . . . 17 1.2 Огляд існуючих рішень та літератури щодо вокодерів . . . 18 1.3 Методи теселяції простору та залишкове векторне квантування 22 1.3.1 Векторна квантизація . . . 22 1.3.2 VQ-VAE . . . .23 1.3.3 Залишкова векторна квантизація . . . 24 1.4 Актуальність завдання . . . 24 1.5 Висновки . . . 25 2 Методи та архітектура моделі синтезу співочого голосу на основі узгодження потоку 26 2.1 Узгодження потоку векторного поля . . . 27 2.1.1 Модифікована функція втрат . . . 27 2.1.2 Умовне узгодження потоку . . . 28 2.1.3 Узгодження умовних ознак . . . 29 2.1.4 Архітектура моделі . . . 30 2.2 Аудіо-автокодер . . . 32 2.2.1 Енкодер . . . 32 2.2.2 Залишкове векторне квантування . . . 33 2.2.3 Декодер та вокодер . . . 33 2.2.4 Архітектура змагально-генеративної моделі . . . 35 2.3 Модель ознак музичної партитури . . . 37 2.3.1 Енкодер фонемних та нотних ознаки . . .37 2.3.2 Модель часового зсуву . . . 38 8 2.3.3 Модель тривалості . . . 39 2.4 Висновки . . . 39 3 Експериментальне дослідження та аналіз результатів 41 3.1 Набір даних . . . 41 3.2 Оптимізація параметрів моделі . . .41 3.3 Методика оцінювання результатів . . . 42 3.3.1 Суб’єктивне оцінювання . . . 42 3.3.2 Об’єктивне оцінювання . . . 43 3.3.3 Оцінювання обчислювальної ефективності . . . 43 3.4 Аналіз експериментальних результатів . . . 43 3.5 Абляційне оцінювання . . . 44 3.6 Аналіз результатів дослідження . . . 45 3.7 Демонстрація роботи моделі . . . 48 3.7.1 Аналіз роботи F0-енкодера . . .48 3.7.2 Аналіз латентного простору та предиктора . . . 53 3.8 Висновки . . . 56 4 Охорона праці та безпека в надзвичайних ситуаціях 58 4.1 Вплив шуму ультразвуку та інфразвуку на організм людини. Засоби захисту від шкідливої дії шуму. . . 58 4.1.1 Вплив шуму, ультразвуку та інфразвуку на організм людини . . . 58 4.1.2 Засоби захисту від шкідливої дії акустичних факторів . . .60 4.2 Оцінка дії електромагнітного імпульсу (ЕМІ) на елементи DDSP-WORLD вокодера і методи захисту . . . 61 4.2.1 Теоретичні засади впливу електромагнітного імпульсу та нормативно-правове забезпечення . . . 62 4.2.2 Формалізація завдання . . . 63 4.2.3 Дослідження впливу імпульсних збурень на стабільність роботи DDSP-WORLD вокодера . . . 64 4.3 Висновки . . .65 Висновки 66 Список посилань 68 ДОДАТКИ 74 |
| URI: | http://elartu.tntu.edu.ua/handle/lib/51442 |
| Copyright owner: | © Кліщ Максим Володимирович, 2025 |
| References (Ukraine): | 1. H. Kenmochi and H. Ohshita, “Vocaloid-commercial singing synthesizer based on sample concatenation.,” in Interspeech, vol. 2007, pp. 4009–4010, 2007. 2. K. Oura, A. Mase, T. Yamada, S. Muto, Y. Nankaku, and K. Tokuda, “Recent development of the hmm-based singing voice synthesis system-sinsy.,” in SSW, pp. 211–216, 2010. 3. P. Lu, J. Wu, J. Luan, X. Tan, and L. Zhou, “Xiaoicesing: A high-quality and integrated singing voice synthesis system,” 2020. 4. Y. Ren, X. Tan, T. Qin, J. Luan, Z. Zhao, and T.-Y. Liu, “Deepsinger: Singing voice synthesis with data mined from the web,” 2020. 5. Y. Zhang, J. Cong, H. Xue, L. Xie, P. Zhu, and M. Bi, “Visinger: Variational inference with adversarial learning for end-to-end singing voice synthesis,” 2022. 6. J.-S. Hwang, S.-H. Lee, and S.-W. Lee, “Hiddensinger: High-quality singing voice synthesis via neural audio codec and latent diffusion models,” Neural Networks, vol. 181, p. 106762, 2025. 7. J. Liu, C. Li, Y. Ren, F. Chen, and Z. Zhao, “Diffsinger: Singing voice synthesis via shallow diffusion mechanism,” 2022. 8. Y. Zhang, H. Xue, H. Li, L. Xie, T. Guo, R. Zhang, and C. Gong, “Visinger 2: High-fidelity end-to-end singing voice synthesis enhanced by digital signal processing synthesizer,” 2022. 9. Y. Zhang, W. Guo, C. Pan, D. Yao, Z. Zhu, Z. Jiang, Y. Wang, T. Jin, and Z. Zhao, “Tcsinger 2: Customizable multilingual zero-shot singing voice synthesis,” in Findings of the Association for Computational Linguistics: ACL 2025, p. 13280–13294, Association for Computational Linguistics, 2025. 10. W. Guo, Y. Zhang, C. Pan, R. Huang, L. Tang, R. Li, Z. Hong, Y. Wang, and Z. Zhao, “Techsinger: Technique controllable multilingual singing voice synthesis via flow matching,” 2025. 11. A. H. Liu, M. Le, A. Vyas, B. Shi, A. Tjandra, and W.-N. Hsu, “Generative pre-training for speech with flow matching,” 2024. 12. Y. Chen, Z. Niu, Z. Ma, K. Deng, C. Wang, J. Zhao, K. Yu, and X. Chen, “F5-tts: A fairytaler that fakes fluent and faithful speech with flow matching,” 2025. 13. S. Mehta, R. Tu, J. Beskow, Éva Székely, and G. E. Henter, “Matcha-tts: A fast tts architecture with conditional flow matching,” 2024. 14. H. Lou, H. Paik, P. D. Haghighi, W. Hu, and L. Yao, “Latentspeech: Latent diffusion for text-to-speech generation,” 2024. 15. Y. Guo, C. Du, Z. Ma, X. Chen, and K. Yu, “Voiceflow: Efficient text-to-speech with rectified flow matching,” 2024. 16. H. Wang, S. Shan, Y. Guo, and Y. Wang, “Prosodyflow: High-fidelity text-to-speech through conditional flow matching and prosody modeling with large speech language models,” in Proceedings of the 31st International Conference on Computational Linguistics, pp. 7748–7753, 2025. 17. D. Griffin and J. Lim, “Signal estimation from modified short-time fourier transform,” IEEE Transactions on acoustics, speech, and signal processing, vol. 32, no. 2, pp. 236–243, 1984. 18. M. Morise, F. Yokomori, and K. Ozawa, “World: a vocoder-based high-quality speech synthesis system for real-time applications,” IEICE TRANSACTIONS on Information and Systems, vol. 99, no. 7, pp. 1877–1884, 2016. 19. H. Kawahara, I. Masuda-Katsuse, and A. De Cheveigne, “Restructuring speech representations using a pitch-adaptive time–frequency smoothing and an instantaneous-frequency-based f0 extraction: Possible role of a repetitive structure in sounds,” Speech communication, vol. 27, no. 3-4, pp. 187–207, 1999. 20. J. Kong, J. Kim, and J. Bae, “Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis,” 2020. 21. R. Yoneyama, Y.-C. Wu, and T. Toda, “Unified source-filter gan: Unified source-filter network based on factorization of quasi-periodic parallel wavegan,” arXiv preprint arXiv:2104.04668, 2021. 22. R. Yoneyama, Y.-C. Wu, and T. Toda, “Source-filter hifi-gan: Fast and pitch controllable high-fidelity neural vocoder,” 2023. 23. N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. Oord, S. Dieleman, and K. Kavukcuoglu, “Efficient neural audio synthesis,” in International Conference on Machine Learning, pp. 2410–2419, PMLR, 2018. 24. A. v. d. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “Wavenet: A generative model for raw audio,” arXiv preprint arXiv:1609.03499, 2016. 25. A. Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. Driessche, E. Lockhart, L. Cobo, F. Stimberg, et al., “Parallel wavenet: Fast high-fidelity speech synthesis,” in International conference on machine learning, pp. 3918–3926, PMLR, 2018. 26. R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A flow-based generative network for speech synthesis,” in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 3617–3621, IEEE, 2019. 27. W. Ping, K. Peng, and J. Chen, “Clarinet: Parallel wave generation in end-to-end text-to-speech,” arXiv preprint arXiv:1807.07281, 2018. 28. J.-M. Valin and J. Skoglund, “Lpcnet: Improving neural speech synthesis through linear prediction,” in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5891–5895, IEEE, 2019. 29. J. Engel, L. Hantrakul, C. Gu, and A. Roberts, “Ddsp: Differentiable digital signal processing,” 2020. 30. S. Nercessian, “Differentiable world synthesizer-based neural vocoder with application to end-to-end audio style transfer,” 2023. 31. C.-Y. Yu and G. Fazekas, “Singing voice synthesis using differentiable lpc and glottal-flow-inspired wavetables,” arXiv preprint arXiv:2306.17252, 2023. 32. D.-Y. Wu, W.-Y. Hsiao, F.-R. Yang, O. Friedman, W. Jackson, S. Bruzenak, Y.-W. Liu, and Y.-H. Yang, “Ddsp-basynthesizer and a comprehensive evaluation,” arXiv preprint arXiv:2208.04756, 2022.sed singing vocoders: A new subtractive-based 33. P. Agrawal, T. Koehler, Z. Xiu, P. Serai, and Q. He, “Ultra-lightweight neural differential dsp vocoder for high quality speech synthesis,” 2024. 34. B. Hayes, J. Shier, G. Fazekas, A. McPherson, and C. Saitis, “A review of differentiable digital signal processing for music and speech synthesis,” Frontiers in Signal Processing, vol. 3, p. 1284100, 2024. 35. T. Bäckström, O. Räsänen, A. Zewoudie, P. P. Zarazaga, L. Koivusalo, S. Das, E. G. Mellado, M. Bouafif, and D. Ramos, “Introduction to speech processing,” 2022. 36. A. Van Den Oord, O. Vinyals, et al., “Neural discrete representation learning,” Advances in neural information processing systems, vol. 30, 2017. 37. A. Razavi, A. Van den Oord, and O. Vinyals, “Generating diverse high-fidelity images with vq-vae-2,” Advances in neural information processing systems, vol. 32, 2019. 38. P. Dhariwal, H. Jun, C. Payne, J. W. Kim, A. Radford, and I. Sutskever, “Jukebox: A generative model for music,” arXiv preprint arXiv:2005.00341, 2020. 39. N. Zeghidour, A. Luebs, A. Omran, J. Skoglund, and M. Tagliasacchi, “Soundstream: An end-to-end neural audio codec,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 495–507, 2021. 40. Y. Lipman, R. T. Q. Chen, H. Ben-Hamu, M. Nickel, and M. Le, “Flow matching for generative modeling,” 2023. 41. S. Lee, Z. Lin, and G. Fanti, “Improving the training of rectified flows,” Advances in neural information processing systems, vol. 37, pp. 63082–63109, 2024. 42. T. Luo, X. Miao, and W. Duan, “Wavefm: A high-fidelity and efficient vocoder based on flow matching,” 2025. 43. B. Kim, Y.-G. Hsieh, M. Klein, M. Cuturi, J. C. Ye, B. Kawar, and J. Thornton, “Simple reflow: Improved techniques for fast flow models,” arXiv preprint arXiv:2410.07815, 2024. 44. Y. Shi, Y. Wang, C. Wu, C.-F. Yeh, J. Chan, F. Zhang, D. Le, and M. Seltzer, “Emformer: Efficient memory transformer based acoustic model for low latency streaming speech recognition,” 2020. 45. S. gil Lee, W. Ping, B. Ginsburg, B. Catanzaro, and S. Yoon, “Bigvgan: A universal neural vocoder with large-scale training,” 2023. 46. J. W. Kim, J. Salamon, P. Li, and J. P. Bello, “Crepe: A convolutional representation for pitch estimation,” 2018. 47. D.-Y. Wu, W.-Y. Hsiao, F.-R. Yang, O. Friedman, W. Jackson, S. Bruzenak, Y.-W. Liu, and Y.-H. Yang, “Ddsp-based singing vocoders: A new subtractive-based synthesizer and a comprehensive evaluation,” 2022. 48. X. Mao, Q. Li, H. Xie, R. Y. K. Lau, Z. Wang, and S. P. Smolley, “Least squares generative adversarial networks,” 2017. 49. Y. Hono, K. Hashimoto, K. Oura, Y. Nankaku, and K. Tokuda, “Sinsy: A deep neural network-based singing voice synthesis system,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, p. 2803–2815, 2021. 50. I. Ogawa and M. Morise, “Tohoku kiritan singing database: A singing database for statistical parametric singing synthesis using japanese pop songs,” Acoustical Science and Technology, vol. 42, no. 3, pp. 140–145, 2021. 51. D. P. Kingma and J. Ba, “Adam: A method for stochastic optimization,” 2017. 52. Верховна Рада України, “Закон України «Про охорону праці».” Відомості Верховної Ради України, 1992. Дата звернення: 07.12.2025. 53. Верховна Рада України, “Закон України «Про забезпечення санітарного та епідемічного благополуччя населення».” Відомості Верховної Ради України, 1994. Дата звернення: 07.12.2025. 54. Міністерство охорони здоров’я України, “ДСН 3.3.6.037-99. Санітарні норми виробничого шуму, ультразвуку та інфразвуку,” 1999. Дата звернення: 07.12.2025. 55. Міністерство охорони здоров’я України, “Наказ No 540 від 23 березня 2023 р. Про затвердження граничних та робочих значень шумового впливу на робочому місці,” 2023. Дата звернення: 07.12.2025. 56. Грибан Г. В. and Негодченко О. В., Охорона праці. Центр учбової літератури, 2009. 57. World Health Organization, “Make listening safe,” 2021. Accessed: 07.12.2025. 58. Міністерство розвитку громад та територій України, “ДБН В.1.1-31:2013. Захист територій, будинків і споруд від шуму,” 2013. Дата звернення: 07.12.2025. 59. ДП «УкрНДНЦ», “ДСТУ en 458:2019. Засоби захисту органів слуху,” 2019. Дата звернення: 07.12.2025. 60. Стручок, В. С., Безпека в надзвичайних ситуаціях: методичний посібник. Тернопіль: ФОП Паляниця В. А., 2020. 156 с. 61. Стручок, В. С., Техноекологія та цивільна безпека. Частина «Цивільна безпека». Тернопіль: ФОП Паляниця В. А., 2020. 156 с. 62. International Electrotechnical Commission, “Iec 61000 series: Electromagnetic compatibility (emc).” 63. Кабінет Міністрів України, “Технічний регламент з електромагнітної сумісності обладнання,” 2015. Постанова No 1077. 64. ДП «УкрНДНЦ», “ДСТУ en iec 61000-1-2:2022. Електромагнітна сумісність,” 2022. |
| Content type: | Master Thesis |
| Aparece nas colecções: | 124 — системний аналіз |
Ficheiros deste registo:
| Ficheiro | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Mag_Кліщ_М_В_2025.pdf | 1,67 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.
Ferramentas administrativas