Použijte tento identifikátor k citaci nebo jako odkaz na tento záznam:
http://elartu.tntu.edu.ua/handle/lib/51959
| Název: | The semantic power of text content as a flow of a vector field of embeddings |
| Další názvy: | Семантична сила текстового контенту як потік поля векторів-ембедингів |
| Autoři: | Сташків, Віктор Хамарчук, Андрій Чорнописький, Кирило Шумейко, Владислав Чорняк, Максим Ярош, Каріна Церковнюк, Валентина Пастух, Олег Stashkiv, Viktor Khamarchuk, Andrii Chornopyskyi, Kyrylo Shumeiko, Vladyslav Chorniak, Maksym Yarosh, Karina Tserkovniuk, Valentyna Pastukh, Oleh |
| Affiliation: | Тернопільський національний технічний університет імені Івана Пулюя, Тернопіль, Україна Ternopil Ivan Puluj National Technical University, Ternopil, Ukraine |
| Bibliographic description (Ukraine): | The semantic power of text content as a flow of a vector field of embeddings / Viktor Stashkiv, Andrii Khamarchuk, Kyrylo Chornopyskyi, Vladyslav Shumeiko, Maksym Chorniak, Karina Yarosh, Valentyna Tserkovniuk, Oleh Pastukh // Scientific Journal of TNTU. — Tern. : TNTU, 2025. — Vol 120. — No 4. — P. 110–119. |
| Bibliographic reference (2015): | The semantic power of text content as a flow of a vector field of embeddings / Stashkiv V. та ін. // Scientific Journal of TNTU, Ternopil. 2025. Vol 120. No 4. P. 110–119. |
| Bibliographic citation (APA): | Stashkiv, V., Khamarchuk, A., Chornopyskyi, K., Shumeiko, V., Chorniak, M., & Yarosh, K. (2025). The semantic power of text content as a flow of a vector field of embeddings. Scientific Journal of the Ternopil National Technical University, 120(4), 110-119. TNTU.. |
| Bibliographic citation (CHICAGO): | Stashkiv V., Khamarchuk A., Chornopyskyi K., Shumeiko V., Chorniak M., Yarosh K., Tserkovniuk V., Pastukh O. (2025) The semantic power of text content as a flow of a vector field of embeddings. Scientific Journal of the Ternopil National Technical University (Tern.), vol. 120, no 4, pp. 110-119. |
| Is part of: | Вісник Тернопільського національного технічного університету, 4 (120), 2025 Scientific Journal of the Ternopil National Technical University, 4 (120), 2025 |
| Journal/Collection: | Вісник Тернопільського національного технічного університету |
| Issue: | 4 |
| Volume: | 120 |
| Datum vydání: | 23-pro-2025 |
| Submitted date: | 19-srp-2025 |
| Date of entry: | 23-bře-2026 |
| Nakladatel: | ТНТУ TNTU |
| Place of the edition/event: | Тернопіль Ternopil |
| DOI: | https://doi.org/10.33108/visnyk_tntu2025.04. 110 |
| UDC: | 004.82 |
| Klíčová slova: | текстовий аналіз опрацювання природної мови семантична сила вектори- ембединги семантичний простір дивергенція кластеризація теорія поля великі мовні моделі трансформери text analysis natural language processing semantic power vector embeddings semantic space divergence clustering field theory large language models transformers |
| Number of pages: | 10 |
| Page range: | 110-119 |
| Start page: | 110 |
| End page: | 119 |
| Abstrakt: | Зростаючий обсяг текстової інформації вимагає передових методів оцінювання
ефективності контенту та його семантичної структури. Існуючі техніки опрацювання природної мови
(NLP) часто не надають метрик для вимірювання внутрішньої «семантичної інтенсивності» або
концептуальної узгодженості. Ця стаття представляє «семантичну силу» – нову кількісну
характеристику, розроблену для аналізу концептуальної структури та смислової насиченості текстів на
основі принципів теорії поля. Методологія базується на теоремі Остроградського-Гауса та операторі
дивергенції, встановлюючи звʼязок між локальними семантичними властивостями тексту (на основі
векторних ембедингів LaBSE) та їхнім глобальним впливом. Підхід включає обчислення семантичного
центроїда як точки найбільшої концентрації смислу та кількісну оцінку семантичної сили за допомогою
моделі, що враховує обернено-квадратичний спад впливу векторів. Для подальшого аналізу
застосовуються кластеризація методом Gaussian Mixture Models та візуалізація за допомогою методу
головних компонент (PCA). Експерименти, проведені на філософських текстах видатних мислителів
Нового часу, таких як Готфрід Вільгельм Лейбніц, Рене Декарт та Іммануїл Кант, продемонстрували
чіткі та значущі відмінності у значеннях семантичної сили (0.6010, 0.5633 та 0.5787 відповідно) та у
сформованих патернах кластеризації (2, 7 та 2 кластери). Результати показують, що ці показники не
лише є числовими характеристиками, а й корелюють з відомими особливостями інтелектуального стилю
та методології кожного з авторів. Таким чином, «семантична сила» виступає як потужний і
об’єктивний інструмент для оцінювання глибинних когнітивних та семантичних характеристик тексту,
відкриваючи потенційні можливості для широкого спектру застосувань у філології, когнітивістиці,
комп’ютерній лінгвістиці та інших суміжних галузях. The growing volume of textual data demands advanced methods for evaluating both content effectiveness and semantic structure. While current Natural Language Processing (NLP) techniques offer powerful tools, they often lack metrics for quantifying intrinsic semantic intensity or conceptual coherence. This paper introduces «semantic power» – a novel quantitative measure designed to analyze the conceptual structure and semantic richness of texts, grounded in principles of field theory. The proposed methodology draws on the Ostrogradsky–Gauss theorem and the divergence operator, establishing a theoretical link between local semantic properties of a text (derived from LaBSE vector embeddings) and their global influence. The approach involves computing a semantic centroid, representing the point of highest meaning concentration, and measuring semantic power using a model that assumes an inverse-square decay of vector influence. For further analysis, Gaussian Mixture Model (GMM) clustering id applied, and Principal Component Analysis (PCA) is used for dimensionality reduction and visualization. Experiments on philosophical texts by key Early Modern thinkers – G. W. Leibniz, R. Descartes, and I. Kant – reveal distinct and meaningful variations in semantic power (0.6010, 0.5633, and 0.5787, respectively) and in the resulting clustering patterns (2, 7, and 2 clusters). These findings suggest that semantic power is not merely a numerical descriptor but one that correlates with established intellectual styles and methodological orientations of the authors. As such, semantic power emerges as a powerful and objective metric for assessing the deep cognitive and semantic dimensions of textual content, with potential applications in philology, cognitive science, and computational linguistics and related disciplines. |
| URI: | http://elartu.tntu.edu.ua/handle/lib/51959 |
| ISSN: | 2522-4433 |
| Copyright owner: | © Тернопільський національний технічний університет імені Івана Пулюя, 2025 |
| URL for reference material: | https://doi.org/10.1609/aaai.v33i01.33017370 https://doi.org/10.1007/s11192-021-03984-1 https://doi.org/10.1007/s44196-023-00337-z https://doi.org/10.1145/3308558.3313516 https://doi.org/10.18653/v1/N18-1136 https://doi.org/10.1016/j.knosys.2023.111303 https://doi.org/10.54569/aair.1142568 https://doi.org/10.3390/app122110792 https://doi.org/10.48175/IJARSCT-3029 https://doi.org/10.18653/v1/2024.semeval-1.124 https://doi.org/10.18653/v1/2022.acl-long.62 https://doi.org/10.1109/TASLP.2020.3012062 https://doi.org/10.1016/j.ipm.2023.103529 https://elartu.tntu.edu.ua/handle/lib/22368 https://doi.org/10.1007/978-3-030-27947-9_18 |
| References (International): | 1. Yao L., Mao C., & Luo Y. (2019) Graph convolutional networks for text classification. Proceedings of the AAAI Conference on Artificial Intelligence, 33, 7370–7377. https://doi.org/10.1609/aaai.v33i01.33017370 2. Kozlowski D., Dusdal J., Pang J., & Zilian A. (2021). Semantic and relational spaces in science of science: Deep learning models for article vectorisation. Scientometrics. https://doi.org/10.1007/s11192-021-03984-1 3. Liu B., Guan W., Yang C., Fang Z., & Lu Z. (2023) Transformer and graph convolutional network for text classification. International Journal of Computational Intelligence Systems, 16 (1). https://doi.org/10.1007/s44196-023-00337-z 4. Wang B., Li Q., Melucci M., & Song D. (2019). Semantic hilbert space for text representation learning. U The world wide web conference. ACM Press. https://doi.org/10.1145/3308558.3313516 5. Vyas Y., Niu X., & Carpuat M. (2018). Identifying semantic divergences in parallel text without annotations. U Proceedings of the 2018 conference of the north american chapter of the association for computational linguistics: Human language technologies, volume 1 (long papers). Association for Computational Linguistics. https://doi.org/10.18653/v1/N18-1136 6. Zeng D., Zha E., Kuang J., & Shen Y. (2024) Multi-label text classification based on semantic-sensitive graph convolutional network. Knowledge-Based Systems, 284, 111303. https://doi.org/10.1016/j.knosys.2023.111303 7. Tekgöz H., İlhan Omurca S., Koç K. Y., Topçu U., & Çeli̇k O. (2022). Semantic similarity comparison between production line failures for predictive maintenance. Advances in Artificial Intelligence Research. https://doi.org/10.54569/aair.1142568 8. Premalatha M., Viswanathan V., & Čepová L. (2022) Application of semantic analysis and LSTM- GRU in developing a personalized course recommendation system. Applied Sciences, 12 (21), 10792. https://doi.org/10.3390/app122110792 9. Narendra G. O. & Hashwanth S. (2022) Named entity recognition based resume parser and summarizer. International Journal of Advanced Research in Science, Communication and Technology, 728–735. https://doi.org/10.48175/IJARSCT-3029 10. Venkatesh D., & Raman S. (2024). BITS pilani at semeval-2024 task 1: Using text-embedding-3-large and labse embeddings for semantic textual relatedness. U Proceedings of the 18th international workshop on semantic evaluation (semeval-2024). Association for Computational Linguistics. https://doi.org/10.18653/v1/2024.semeval-1.124 11. Feng F., Yang Y., Cer D., Arivazhagan N., & Wang W. (2022) Language-agnostic BERT sentence embedding. U Proceedings of the 60th annual meeting of the association for computational linguistics (volume 1: Long papers). Association for Computational Linguistics. https://doi.org/10.18653/v1/2022.acl-long.62 12. Kesiraju S., Plchot O., Burget L., & Gangashetty S. V. (2020) Learning document embeddings along with their uncertainties. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 28, 2319–2332. https://doi.org/10.1109/TASLP.2020.3012062 13. Hu C., Wu T., Liu S., Liu C., Ma T., & Yang F. (2024) Joint unsupervised contrastive learning and robust GMM for text clustering. Information Processing & Management, 61 (1), 103529. https://doi.org/10.1016/j.ipm.2023.103529 14. Chesanovsky I., & Levhunets D. (2017). Representation of narrow-band radio signals with angular modulation in trunked radio systems using the principal component analysis. Scientific Journal of the Ternopil National Technical University, 86 (2), 117–121. https://elartu.tntu.edu.ua/handle/lib/22368 15. Musil T. (2019). Examining structure of word embeddings with PCA. У Text, speech, and dialogue. Springer International Publishing. https://doi.org/10.1007/978-3-030-27947-9_18 |
| Content type: | Article |
| Vyskytuje se v kolekcích: | Вісник ТНТУ, 2025, № 4 (120) |
Soubory připojené k záznamu:
| Soubor | Popis | Velikost | Formát | |
|---|---|---|---|---|
| TNTUSJ_2025v120n4_Stashkiv_V-The_semantic_power_of_110-119.pdf | 3,16 MB | Adobe PDF | Zobrazit/otevřít | |
| TNTUSJ_2025v120n4_Stashkiv_V-The_semantic_power_of_110-119__COVER.png | 1,3 MB | image/png | Zobrazit/otevřít |
Všechny záznamy v DSpace jsou chráněny autorskými právy, všechna práva vyhrazena.