Palun kasuta seda identifikaatorit viitamiseks ja linkimiseks: http://elartu.tntu.edu.ua/handle/lib/49582
Pealkiri: Розробка моделі акустичного придушення ехо в активній аудіосистемі
Teised pealkirjad: Development of an acoustic echo suppression model in an active audio system
Autor: Світлик, Павло Андрійович
Svitlyk, Pavlo
Affiliation: ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра комп’ютерних наук, м. Тернопіль, Україна
Bibliographic description (Ukraine): Світлик П. А. Розробка моделі акустичного придушення ехо в активній аудіосистемі : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 122 - комп’ютерні науки / наук. кер. Г. І. Липак. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2025. 55 с.
Ilmumisaasta: 27-juu-2025
Submitted date: 13-juu-2025
Date of entry: 5-juu-2025
Kirjastaja: ТНТУ ім. І.Пулюя, ФІС, м. Тернопіль, Україна
Country (code): UA
Place of the edition/event: Тернопіль
Supervisor: Липак, Галина Ігорівна
Lypak, Halyna
UDC: 004.9
Märksõnad: 122
алгоритми кластеризації
ехо-сигнал
ехопридушення
нейронна мережа
blstm
clustering algorithms
echo signal
echo suppression
fourier transform
neural network
Page range: 55
Kokkuvõte: Кваліфікаційна робота присвячена розробці алгоритму та моделі на його базі, котра здатна придушувати ехосигнали. У першому розділі було поставлено та описано завдання на виконання дослідження, також були проведені оглядові роботи, пов'язані із тематикою дослідженням. Другий розділ містить теоретичну частину, в якій вивчалися і аналізувалися алгоритми та методи, використані в роботі. Розроблено алгоритм на основі BLSTM, виходом якої є ідеальна бінарна маска. Ключовою особливістю запропонованого алгоритму є використання методів кластеризації (ЕМ, Mean-Shift, k-Means) на виході нейронної мережі. У третьому розділі було описано та реалізовано запропоновану модель BLSTM+clustering. Проведено порівняння алгоритмів на сигналах бази даних TIMIT на основі загальноприйнятих метрик у обробці мовлення: ERLE, STOI, PESQ. Наведено результати експериментів та порівняння ефективності моделей. Показано, що використання кластеризації k-Means покращує роботу моделі BLSTM. У четвертому розділі висвітлено важливі питання охорони праці та безпеки життєдіяльності
The thesis deals with the development of an algorithm and a system based on it, which is capable of suppressing echo signals. In the first chapter, the tasks for the research were set and described, and review works related to the research topic were also carried out. The second chapter contains the theoretical part, in which the algorithms and methods used in the work were studied and analyzed. An algorithm based on BLSTM was developed, the output of which is an ideal binary mask. The key feature of the proposed algorithm is the use of clustering methods (EM, Mean-Shift, k-Means) at the output of the neural network. In the third chapter, the proposed BLSTM+clustering model was described and implemented. A comparison of algorithms on signals from the TIMIT database was carried out based on generally accepted metrics in speech processing: ERLE, STOI, PESQ. The results of experiments and a comparison of the effectiveness of the models are presented. It is shown that the use of k-Means clustering improves the performance of the BLSTM model. The fourth chapter highlights important issues of occupational health and safety
Kirjeldus: Роботу виконано на кафедрі комп'ютерних наук Тернопільського національного технічного університету імені Івана Пулюя. Захист відбудеться 27.06.2025р. на засіданні екзаменаційної комісії №30 у Тернопільському національному технічному університеті імені Івана Пулюя
Content: ВСТУП 8 РОЗДІЛ 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ 10 1.1 Постановка завдання на проектування 10 1.2 Огляд аналогів 11 1.2.1 Огляд пов'язаних робіт 11 1.2.2 Відомі підходи 12 РОЗДІЛ 2. ТЕОРЕТИЧНА ЧАСТИНА 16 2.1 Аналіз акустичного еха 16 2.2 Рекурентна LSTM нейромережа 17 2.3 Алгоритм кластеризації К-Меаns 19 2.4 Короткочасне перетворення Фур'є 22 2.5 Метрики якості моделі 23 2.6 Вхідні дані для моделі 24 2.7 Вихід моделі 25 РОЗДІЛ 3. ПРАКТИЧНА ЧАСТИНА 26 3.1 Опис моделі BLSTM+clustering 26 3.2 Моделювання ехо-сигналу в приміщенні 27 3.2.1 Моделювання приміщення shoebox за допомогою методу ISM 28 3.2.2 Додавання джерел та мікрофонів 28 3.2.3 Створення імпульсної характеристики приміщення 29 3.2.4 Формування ехо-сигналу 30 3.3 Технології для реалізації моделі 31 3.4 Оцінка ефективності моделі BLSTM 32 3.4.1 Оцінка ефективності моделі BLSTM 32 3.4.2 Оцінка ефективності моделі BLSTM+k-Means 35 3.4.3 Оцінка ефективності моделі BLSTM+EM 37 3.4.4 Оцінка ефективності моделі BLSTM+Mean-Shift 38 3.4.5 Порівняння ефективності моделей 39 3.5 Оцінка ефективності моделей з однією розмовою 40 3.5.1 Оцінка ефективності моделі BLSTM 40 3.5.2 Оцінка ефективності моделі BLSTM +К-Means 42 3.5.3 Порівняння ефективності моделей 44 РОЗДІЛ 4. БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ 45 4.1 Класифікація шкідливих та небезпечних виробничих факторів 45 4.2 Вплив вібрації на людину 49 ВИСНОВКИ 53 ПЕРЕЛІК ДЖЕРЕЛ 54 ДОДАТКИ
URI: http://elartu.tntu.edu.ua/handle/lib/49582
Copyright owner: © Світлик Павло Андрійович, 2025
References (Ukraine): 1. Benesty J., Jensen J., Christensen M., Chen J. Speech Enhancement: A Signal Subspace Perspective. Elsevier Academic Press, 2014. 129 p.
2. Lee C.M., Shin J.W., Kim N.S. DNN-based residual echo suppression // Interspeech 2015, Dresden, Germany, September6–10, 2015. ISCA, 2015. P. 1775 –1779.
3. Zhang H., Wang D. Deep learning for acoustic echo cancellation in noisy and double-talk scenarios // Interspeech 2018, Hyderabad, India, September 2-6, 2018. ISCA, 2018. P. 3239-3243.
4. Zhang H., Tan K., Wang D. Deep learning for joint accoustic echo and noise cancellation with nonlinear distortions // Interspeech 2019, Graz, Austria, September 15-19, 2019. ISCA, 2019. P. 4255-425.
5. Wang D. On Ideal Binary Mask є Computational Goal of Auditory Scene Analysis // Speech Separation by Humans and Machines / ed. by P. Divenyi. Springer, Boston, MA, 2005. P. 181-197.
6. Li N., Loizou PC Factors influencing intelligibility of ideal binary- masked speech: Implications for noise reduction // J. Acoust. Soc. Am. 2008. Vol. 123, no. 3. P. 1673-1682.
7. Brungart D.S., Chang P.S., Simpson B.D., Wang D. Isolating the energetic component of speech-on-speech masking with ideal time-frequency segregation // J. Acoust. Soc. Am. 2006. Vol. 120, no. 6. P. 4007–4018.
8. Benesty J., G'ansler T., Morgan DR, et al. Advances in network and acoustic echo cancellation.
9. Enzner G., Buchner H., Favrot A., Kuech F. Chapter 30 - Acoustic Echo Control // Academic Press Library in Signal Processing: Volume 4 / ed. by J. Trussell, A. Srivastava, AK Roy-Chowdhury, et al. ELSEVIER, 2014. P. 807-877.
10. Hamidia M., Amrouche A. A new robust double-talk detector based on the Stockwell transform for acoustic echo cancellation // Digital Signal Processing. 2017. Vol. 60. P. 99–112,
11. Ykhlef F., Ykhlef H. Post-filter for acoustic echo cancellation in frequency domain // 2014 Second World Conference on Complex Systems (WCCS), Agadir, Maroko, Nov 10-12, 2014. IEEE, 2014. P. 446-4
12. Kuech F., Kellermann W. Nonlinear residual echo suppression using a power filter model of acoustic echo path //2007 International Conference on Acoustics, Speech and Signal Processing - ICASSP '07, Honolulu, HI, USA, і April 15-20, 70.202.
13. Malek J., Koldovsk'y Z. Hammerstein model-based nonlinear echo cancelation using a cascade of neural network and adaptive linear filter // 2016 IEEE International Workshop on Acoustic Signal Enhancement (IWAENC), Xi'an, China, Sept 13–16, 2016. IEEE, 2016. P. 1–5.
14. Yang F., Wu M., Yang J. Stereophonic acoustic echo suppression based on wiener filter in the short-time fourier transform domain // IEEE Signal Processing Letters. 2012. Vol. 19, no. 4. P. 227–230.
15. Wang D., Chen J. Supervised speech separation based on deep learning: overview // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2018. Vol. 26, no. 10. P. 1702-1726.
16. Wang Y., Narayanan A., Wang D. On training targets for supervised speech separation // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014. Vol. 22, no. 12. P. 1849–1858.
17. Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. 1997. Vol. 9, no. 8. P. 1735-1780.
18. Erdogan H., Hershey JR, Watanabe S., Roux JL Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks //2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), South Brisbane 2 2015. P. 708-712.
19. Weninger F., Erdogan H., Watanabe S., et al. Speech Enhancement with LSTM Recurrent Neural Networks and its Application to Noise-Robust ASR // Latent Variable Analysis and Signal Separation. Vol. 9237 / ed. by E. Vincent, A. Yeredor, Z. Koldovsk'y, P. Tichavsk'y. Cham: Springer International Publishing, 2015. P. 91–99. Lecture Notes in Computer Science.
20. Chen J., Wang D. Long short-term memory for speaker generalization in supervised speech separation // The Journal of Acoustical Society of America. 2017. Vol. 141, no. 6. P. 4705-4714.
21. Жуковський, В. В., Шатний, С. В., & Жуковська, Н. А. (2020). Нейронна мережа для розпізнавання та класифікації картографічних зображень ґрунтових масивів. Scientific Bulletin of UNFU, 30(5), 100-104. https://doi.org/10.36930/40300517.
22. Shumaila MN A Comparison of K-Means and Mean Shift Algorithms // International Journal of Theoretical and Applied Mathematics. 2021. Vol. 7, no. 5. P. 76-84.
23. Palmqvist M. Methods and algorithms for quality and performance evaluation of audio conferencing systems: PhD thesis / Palmqvist Maria. Umer a University, Faculty of Science, Technology, Department of Physics, Sweden, 2013..
24. ITU-T. Recommendation P.862, Perceptual Evaluation of Speech Quality (PESQ). 2001.
25. Fu S.-W., Liao C.-F., Tsao Y. Learning with Learned Loss Function: Speech Enhancement with Quality-Net для Improve Perceptual Evaluation of Speech Quality // EEE Signal Processing Letters. 2020. Vol. 27. P. 26-30.
26. Zermini A. Deep Learning для Speech Separation: PhD thesis / Zermini Alfredo. University of Surrey, Faculty of Engineering, Physical Sciences, Centre for Vision, Speech, Signal Processing (CVSSP), South East of England, UK, 2020.
27. Xia S., Li H., Zhang X. Using Optimal Ratio Mask as Training Target for Supervised Speech Separation // 2017 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Kuala Lumpur, Malaysia, Dec 12–15, 2017. IEEE, 2017. P. 163–166.
28. Allen J.B., Berkley D.A. Image method for efficiently simulating small-room acoustics // The Journal of the Acoustical Society of America. 1998. Vol. 65, no. 4. P. 943–950.
29. Vorlaender M. Auralization: fundamentals acoustics, modelling, simulation, algorithms and acoustic virtual reality. Berlin: Springer-Verlag, 2008. 340 P.
30. Schroeder D. Physically based real-time auralization of interactive virtual environments: PhD thesis / Schroeder Dirk. RWTH Aachen University, 2011.
31. Reverberation. [Електронний ресурс] – Режим доступа: https://www.sciencedirect.com/topics/physics-and-astronomy/reverberation (датa звернення: 05.05.2025).
32. Tensorflow. [Електронний ресурс] – Режим доступа: http://www.tensorflow.org/. (дaтa звернення: 05.05.2025).
33. Заікіна Д., Глива В. Основи охорони праці та безпека життєдіяльності. 2019. URL: https://doi.org/10.31435/rsglobal/001 (дата звернення: 14.04.2025).
34. Безпека в надзвичайних ситуаціях. Методичний посібник для здобувачів освітнього ступеня «магістр» всіх спеціальностей денної та заочної (дистанційної) форм навчання / укл.: Стручок В. С. Тернопіль: ФОП Паляниця В. А., 2022. 156 с.
Content type: Bachelor Thesis
Asub kollektsiooni(de)s:122 — Компʼютерні науки (бакалаври)

Failid selles objektis:
Fail Kirjeldus SuurusFormaat 
2025_KRB_SN-42_Svitlyk_PA.pdfДипломна робота1,93 MBAdobe PDFVaata/Ava


Kõik teosed on Dspaces autoriõiguste kaitse all.

Admin vahendid