Bu öğeden alıntı yapmak, öğeye bağlanmak için bu tanımlayıcıyı kullanınız: http://elartu.tntu.edu.ua/handle/lib/46136

Başlık: Accelerating dynamic time warping for speech recognition with SSE
Diğer Başlıklar: Прискорення алгоритму динамічної трансформації часової шкали для розпізнавання мовлення з SSE
Yazarlar: Ваш, Юрій Васильович
Роль, Мар’яна
Чижмар, Микола Миколайович
Vash, Yurii
Rol, Mariana
Chyzhmar, Mykola
Affiliation: Ужгородський національний університет, Ужгород, Україна
Uzhhorod National University, Uzhhorod, Ukraine
Bibliographic description (Ukraine): Vash Y. Accelerating dynamic time warping for speech recognition with SSE / Yurii Vash, Mariana Rol, Mykola Chyzhmar // Scientific Journal of TNTU. — Tern : TNTU, 2024. — Vol 114. — No 2. — P. 30–38.
Bibliographic description (International): Vash Y., Rol M., Chyzhmar M. (2024) Accelerating dynamic time warping for speech recognition with SSE. Scientific Journal of TNTU (Tern), vol. 114, no 2, pp. 30-38.
Is part of: Вісник Тернопільського національного технічного університету, 2 (114), 2024
Scientific Journal of the Ternopil National Technical University, 2 (114), 2024
Journal/Collection: Вісник Тернопільського національного технічного університету
Issue: 2
Volume: 114
Yayın Tarihi: 19-Haz-2024
Submitted date: 31-Oca-2024
Date of entry: 23-Tem-2024
Yayıncı: ТНТУ
TNTU
Place of the edition/event: Тернопіль
Ternopil
DOI: https://doi.org/10.33108/visnyk_tntu2024.02.030
UDC: 004.421
004.934.1’1
Anahtar kelimeler: алгоритм динамічної трансформації часової шкали
розпізнавання мовлення
Евклідова дистанція
Манхеттенська дистанція
Dynamic Time Warping
Speech Recognition
Euclidean Distance
Manhattan Distance
Number of pages: 9
Page range: 30-38
Start page: 30
End page: 38
Özet: Представлено значне вдосконалення алгоритму динамічної трансформації часової шкали (DTW) для програм реального часу, таких, як розпізнавання мови. Завдяки інтеграції інструкцій SIMD (Single Instruction Multiple Data) у функцію дистанції, дослідження демонструє, як SSE прискорює DTW, помітно скорочуючи час обчислення. Досліджено не лише теоретичні аспекти DTW та цієї оптимізації, але й надано емпіричні докази її ефективності. Зібрано різноманітний набір даних із 18 класів голосових команд, записаних у контрольованих умовах для забезпечення якості звуку. Аудіосигнал кожного зразка мовлення був сегментований на кадри для детального аналізу часової динаміки. Пошук DTW проводився на наборі функцій на основі мелчастотно кепстральних коефіцієнтів (MFCC) і лінійного прогнозованого кодування (LPC) у поєднанні з дельта-функціями. З кожного кадру було виділено повний набір із 27 ознак, щоб зафіксувати важливі характеристики мови. Основою дослідження було застосування традиційного DTW як бази для порівняння продуктивності з оптимізованим для SSE DTW. Оцінювання, зосереджено на обчислювальному часі, включало такі вимірювання, як мінімальний, максимальний, середній і загальний час обчислень як для стандартних реалізацій, так і для оптимізованих для SSE. Експериментальні результати, проведені на наборах даних від 5 до 60 файлів WAV на клас, показали, що оптимізований для SSE DTW значно перевершує стандартну реалізацію для всіх розмірів наборів даних. Особливо варто відзначити постійну швидкість оптимізованих для SSE функцій Манхеттена та Евклідової відстані, що має вирішальне значення для програм реального часу. Оптимізований для SSE DTW показує низький середній час, демонструючи чудову стабільність і ефективність, особливо з великими наборами даних. Дослідження ілюструє потенціал оптимізації SSE у розпізнаванні мовлення, підкреслюючи здатність оптимізованого для SSE DTW ефективно опрацьовувати великі набори даних
This study presents a significant enhancement to the Dynamic Time Warping (DTW) algorithm for real-time applications like speech recognition. Through integration of SIMD (Single Instruction Multiple Data) instructions to distance function, the research demonstrates how SSE accelerates DTW, markedly reducing computation time. The paper not only explores the theoretical aspects of DTW and this optimization but also provides empirical evidence of its effectiveness. Diverse dataset of 18 voice command classes was assembled, recorded in controlled settings to ensure audio quality. The audio signal of each speech sample was segmented into frames for detailed analysis of temporal dynamics. DTW search was performed on features set based on Mel Frequency Cepstral Coefficients (MFCC) and Linear Predictive Coding (LPC), combined with delta features. A comprehensive set of 27 features was extracted from each frame to capture critical speech characteristics. The core of the study involved applying traditional DTW as a baseline for performance comparison with the SSE-optimized DTW. The evaluation, focusing on computational time, included measurements like minimum, maximum, average, and total computation times for both standard and SSE-optimized implementations. Experimental results, conducted on datasets ranging from 5 to 60 WAV files per class, revealed that the SSE-optimized DTW significantly outperformed the standard implementation across all dataset sizes. Particularly noteworthy was the consistent speed of the SSE-optimized Manhattan and Euclidean distance functions, which is crucial for real-time applications. The SSE-optimized DTW maintained a low average time, demonstrating remarkable stability and efficiency, especially with larger datasets. The study illustrates the potential of SSE optimizations in speech recognition, emphasizing the SSE-optimized DTWʼs capability to efficiently process large datasets
URI: http://elartu.tntu.edu.ua/handle/lib/46136
ISSN: 2522-4433
Copyright owner: © Тернопільський національний технічний університет імені Івана Пулюя, 2024
URL for reference material: https://doi.org/10.1016/j.heliyon.2023.e21625
https://doi.org/10.1007/s10479-019-03284-1
https://doi.org/10.1109/JBHI.2022.3214343
https://doi.org/10.33108/visnyk_tntu2022.01.128
https://doi.org/10.5772/49941
https://doi.org/10.17485/ijst/2015/v8i1/101746
https://doi.org/10.3390/electronics12132922
https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html
References (Ukraine): 1. Джианг С. та Чен З. (2023). Застосування алгоритму оптимізації динамічного часового вирівнювання у розпізнаванні мови машинного перекладу. Heliyon. 9 (11). С. е21625. https://doi.org/10.1016/j.heliyon.2023.e21625
2. D’Urso, Pierpaolo & De Giovanni, Livia & Massari, Riccardo. (2021). Trimmed fuzzy clustering of financial time series based on dynamic time warping. Annals of Operations Research. 299. https://doi.org/10.1007/s10479-019-03284-1
3. Пурі Ч., Коойман Г., Ванрумсте Б., Лука С. (2022). Прогнозування часових рядів у медицині з використанням гауссових процесів та відбору підмножин на основі динамічного часового варпінгу. Журнал IEEE з біомедичної та здоровʼя інформатики. Том PP. https://doi.org/10.1109/JBHI.2022.3214343
4. Батурінець А. (2022). Інформаційна технологія визначення схожих рядів даних із використанням мір відстаней. Вісник ТНТУ. Том. 105. № 1. С. 128–140. https://doi.org/10.33108/visnyk_tntu2022.01.128
5. Кассісі К., Монтальто П., Аліотта М., Канната А., Пулвіренті А. (2012). Методи вимірювання подібності та техніки зменшення розмірності для майнінгу часових рядів. https://doi.org/10.5772/49941
6. Гарг Н., Бішт А. (2016). Порівняльний аналіз алгоритмів виявлення аномалій на основі DTW для аналізу пульсу на зап’ясті. Індійський журнал науки та технологій. Том 9. https://doi.org/10.17485/ijst/2015/v8i1/101746
7. Сі, Ч., Ву, Х., Чжоу, Ж. (2023). Векторизаційне програмування на базі HR DSP з використанням SIMD. Електроніка. Том 12. C. 2922. https://doi.org/10.3390/electronics12132922
8. Інтел Корпорація. Посібник «Інтел Інтрінсікс». URL: https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html.
References (International): 1. Jiang, S. and Chen, Z., (2023). Application of dynamic time warping optimization algorithm in speech recognition of machine translation. Heliyon, 9 (11), p. e21625. https://doi.org/10.1016/j.heliyon.2023.e21625
2. D’Urso, Pierpaolo & De Giovanni, Livia & Massari, Riccardo. (2021). Trimmed fuzzy clustering of financial time series based on dynamic time warping. Annals of Operations Research. 299. https://doi.org/10.1007/s10479-019-03284-1
3. Puri, Chetanya & Kooijman, Gerben & Vanrumste, Bart & Luca, Stijn. (2022). Forecasting Time Series in Healthcare With Gaussian Processes and Dynamic Time Warping Based Subset Selection. IEEE journal of biomedical and health informatics. PP. https://doi.org/10.1109/JBHI.2022.3214343
4. Baturinets A. (2022). Distance measures-based information technology for identifying similar data series. Scientific Journal of TNTU (Tern.), vol. 105, no. 1, pp. 128–140. https://doi.org/10.33108/visnyk_tntu2022.01.128
5. Cassisi, Carmelo & Montalto, Placido & Aliotta, Marco & Cannata, Andrea & Pulvirenti, Alfredo. (2012). Similarity Measures and Dimensionality Reduction Techniques for Time Series Data Mining. https://doi.org/10.5772/49941
6. Garg, Nidhi & Bisht, Amandeep. (2016). Comparative Analysis of DTW based Outlier Segregation Algorithms for Wrist Pulse Analysis. Indian Journal of Science and Technology. 9. https://doi.org/10.17485/ijst/2015/v8i1/101746
7. Xie, Chunhu & Wu, Huachun & Zhou, Jian. (2023). Vectorization Programming Based on HR DSP Using SIMD. Electronics. 12. 2922. https://doi.org/10.3390/electronics12132922
8. Intel Corporation, “Intel Intrinsics Guide”. Available at: https://www.intel.com/content/www/us/en/docs/intrinsics-guide/index.html.
Content type: Article
Koleksiyonlarda Görünür:Вісник ТНТУ, 2024, № 2 (114)



DSpace'deki bütün öğeler, aksi belirtilmedikçe, tüm hakları saklı tutulmak şartıyla telif hakkı ile korunmaktadır.