Utilizza questo identificativo per citare o creare un link a questo documento: http://elartu.tntu.edu.ua/handle/lib/52540
Titolo: Проєктування програмного забезпечення AI агента для телефонного консультування абітурієнтів з використанням технологій Asterisk та Google Live API
Titoli alternativi: Designing AI Agent Software for Telephone Counseling of College Applicants Using Asterisk and Google Live API Technologies
Autori: Андрухов, Ігор Андрійович
Andrukhov, Ihor
Affiliation: ТНТУ ім. І. Пулюя, Факультет комп’ютерно-інформаційних систем і програмної інженерії, Кафедра програмної інженерії, м. Тернопіль, Україна
Bibliographic reference (2015): Андрухов І.А. Проєктування програмного забезпечення AI агента для телефонного консультування абітурієнтів з використанням технологій Asterisk та Google Live API : робота на здобуття кваліфікаційного ступеня бакалавра : спец. 121 - інженерія програмного забезпечення / наук. кер. О.А. Багрій-Заяць. Тернопіль : Тернопільський національний технічний університет імені Івана Пулюя, 2026, 66с.
Data: giu-2026
Date of entry: 22-giu-2026
Editore: Тернопільський національний технічний університет імені Івана Пулюя
Country (code): UA
Place of the edition/event: Тернопільський національний технічний університет імені Івана Пулюя, факультет ФІС
Supervisor: Багрій-Заяць, Оксана Андріївна
Committee members: Стадник, Марія Андріївна
UDC: 004.9
Parole chiave: голосовий асистент
штучний інтелект
IP-телефонія
Asterisk
Google Gemini
AudioSocket
Python
приймальна комісія
розпізнавання мовлення
обробка природної мови
Number of pages: 66
Abstract: Пояснювальна записка містить: 66 сторінок, 19 рисунків, 25 джерел та 3 додатки. Об'єкт дослідження: процес розробки та інтеграції інтелектуального голосового асистента для обробки телефонних запитів користувачів у режимі реального часу. Мета: розробити повнофункціональну програмно-апаратну систему, яка дозволяє автоматизувати процес телефонного консультування абітурієнтів, зменшити навантаження на працівників приймальної комісії та забезпечити високу якість обслуговування завдяки природній взаємодії. Сучасні заклади вищої освіти стикаються з великим обсягом однотипних запитів під час вступних кампаній. Використання традиційних систем голосового меню (IVR) часто є недостатньо гнучким інструментом. Особливої актуальності набуває впровадження інтелектуальних голосових агентів на базі сучасних мультимодальних моделей штучного інтелекту, які здатні вести живий діалог, розпізнавати наміри користувача та адаптуватися до контексту розмови. У межах цієї роботи розглянуто процес створення голосового асистента з інтеграцією моделі Google Gemini (Native Audio) та відкритої IP-АТС Asterisk. Реалізовано функціонал двосторонньої потокової передачі та ресемплінгу аудіоданих через інтерфейс AudioSocket і WebSockets, налаштовано системну логіку консультування для приймальної комісії ТНТУ, а також розроблено модуль логування та транскрибації діалогів.
The explanatory note contains: 66 pages, 19 figures, 25 references, and 3 appendices. Research object: the process of developing and integrating an intelligent voice assistant for processing user telephone inquiries in real time. Objective: to develop a fully functional software-hardware system that automates the process of telephone counseling for applicants, reduces the workload on admissions committee staff, and ensures high-quality service through natural interaction. Modern higher education institutions face a large volume of repetitive inquiries during admissions campaigns. The use of traditional interactive voice response (IVR) systems is often not a flexible enough tool. The implementation of intelligent voice agents based on modern multimodal artificial intelligence models, which are capable of conducting a live dialogue, recognizing user intent, and adapting to the context of the conversation, is becoming particularly relevant. This work examines the process of creating a voice assistant by integrating the Google Gemini (Native Audio) model with the open-source Asterisk IP-PBX. Functionality for two-way streaming and resampling of audio data via the AudioSocket and WebSockets interfaces has been implemented, and the system logic for advising the TNTU Admissions Committee has been configured.
Content: ВСТУП............................................................................................................... 9 1. АНАЛІЗ ПРЕДМЕТНОЇ ОБЛАСТІ .......................................................... 11 1.1 Аналіз процесу інформаційної підтримки абітурієнтів під час вступної кампанії................................................................................................... 11 1.2 Огляд існуючих систем телефонного самообслуговування та їхні обмеження.............................................................................................................. 13 1.3 Дослідження методів побудови розмовних асистентів на базі штучного інтелекту ............................................................................................... 15 1.4 Огляд технологій інтеграції IP-телефонії з програмними агентами 17 1.5 Постановка задачі на розробку програмно-апаратного комплексу . 20 2 ПРОЕКТУВАННЯ ТА РОЗРОБКА ПРОГАМНОЇ СИСТЕМИ.............. 22 2.1 Проектування загальної архітектури програмного та апаратного комплексу............................................................................................................... 22 2.2 Розробка модуля взаємодії з платформою телефонії ........................ 25 2.3 Реалізація серверної частини та алгоритмів цифрової обробки звуку ................................................................................................................................. 29 2.4 Інтеграція хмарного сервісу штучного інтелекту для потокової обробки аудіо......................................................................................................... 31 2.5 Налаштування логіки віртуального асистента та розробка системного промпту .................................................................................................................. 34 2.6 Створення підсистеми моніторингу та збереження результатів телефонних консультацій..................................................................................... 36 3 ВПРОВАДЖЕННЯ ІНТЕЛЕКТУАЛЬНОГО ГОЛОСОВОГО АГЕНТА ТА ТЕСТУВАННЯ ЕФЕКТИВНОСТІ СИСТЕМИ............................................... 393.1 Розгортання серверної інфраструктури та налаштування мережевої взаємодії компонентів........................................................................................... 39 3.2 Інтеграція хмарного сервісу штучного інтелекту Gemini Live......... 42 3.3 Програмна реалізація логіки асистента та алгоритмів обробки звуку ................................................................................................................................. 45 3.4 Тестування продуктивності системи та аналіз затримок обробки даних....................................................................................................................... 48 4 БЕЗПЕКА ЖИТТЄДІЯЛЬНОСТІ, ОСНОВИ ОХОРОНИ ПРАЦІ.......... 52 4.1 Соціальні та психологічні фактори ризику ........................................ 52 4.2 Організація безпечної роботи електроустановок............................... 55 ВИСНОВКИ.................................................................................................... 58 ПЕРЕЛІК ВИКОРИСТАНИХ ДЖЕРЕЛ ...................................................... 60 ДОДАТКИ....................................................................................................... 63 ДОДАТОК А ................................................................................................... 64 ДОДАТОК Б.................................................................................................... 65 ДОДАТОК В ................................................................................................... 66
URI: http://elartu.tntu.edu.ua/handle/lib/52540
Copyright owner: © Андрухов Ігор Андрійович, 2026
References (Ukraine): Bapna A., Sainath T. Advanced audio dialog and generation with Gemini 2.5. Blog google. 03.06.2025. URL: https://blog.google/innovation-andai/models-and-research/google-deepmind/gemini-2-5-native-audio/ (дата звернення: 29.03.2026)
Bapna A., Sainath T. Advanced audio dialog and generation with Gemini 2.5. Blog google. 03.06.2025. URL: https://blog.google/innovation-andai/models-and-research/google-deepmind/gemini-2-5-native-audio/ (дата звернення: 29.03.2026
The Python Language Reference. Python Docs. URL: https://docs.python.org/3.13/reference/ (дата звернення: 05.02.2026).
AudioSocket. Asterisk Docs. URL: https://docs.asterisk.org/Configuration/Channel-Drivers/AudioSocket/ (дата звернення: 31.01.2026).
Що таке велика мовна модель?. SAP. 02.07.2024. URL: https://www.sap.com/ukraine/resources/what-is-large-language-model (дата звернення: 04.02.2026).
ВЕЛИКІ МОВНІ МОДЕЛІ (LLM): ЩО ЦЕ ТАКЕ І ЯК ВОНИ ВЛАШТОВАНІ?. Brander. 30.01.2026. URL: https://brander.ua/blog/velykimovni-modeli-llm-shcho-tse-take-i-yak-vony-vlashtovani (дата звернення: 01.02.2026)
Python-dotenv 1.2.2. Pypi. 01.03.2026. URL: https://pypi.org/project/pythondotenv/ (дата звернення: 01.03.2026).
Zadarma: Api reference. Zadarma. URL: https://zadarma.com/en/support/api/#intro (дата звернення: 02.02.2026).
NumPy user guide. Numpy. URL: https://numpy.org/doc/stable/user/index.html#user (дата звернення: 03.02.2026).
Signal processing. Scipy. URL: https://docs.scipy.org/doc/scipy/reference/signal.html (дата звернення: 04.02.2026).
Fastapi. Fastapi tiangolo. URL: https://fastapi.tiangolo.com/#opinions (дата звернення: 10.02.2026)
Web sockets. Websockets. URL: https://websockets.readthedocs.io/en/stable/ (дата звернення: 29.01.2026).
Meggelen J. V., Russell B., Leif M. Asterisk: The Definitive Guide, 5th Edition. 5-те вид. O’Reilly Media, Incorporated, 2019. 450 с. ISBN 1492031593 9781492031598.
Нікітюк Л. Архітектура інформаційних мереж. Одеса : УДАЗ ім. О.С.Попова, 2000. 60 с
.Шелюг К., Ялова К. МЕТОДИ РОЗПІЗНАВАННЯ МОВЛЕННЯ. IV International Scientific and Theoretical Conference «Current issues of science, prospects and challenges», Sydney, Australia, 5 трав. 2023.
Content type: Bachelor Thesis
È visualizzato nelle collezioni:121 — Інженерія програмного забезпечення, F2 Інженерія програмного забезпечення (бакалаври)

File in questo documento:
File Descrizione DimensioniFormato 
dyplom_Andrukhov_I_2026.pdfДипломна робота11,93 MBAdobe PDFVisualizza/apri


Tutti i documenti archiviati in DSpace sono protetti da copyright. Tutti i diritti riservati.

Strumenti di amministrazione