Анотація. У роботі досліджено та реалізовано систему автоматизованої клієнтської підтримки інтернет-магазину на основі архітектури Retrieval-Augmented Generation (RAG). Запропонований підхід поєднує семантичний пошук у текстовій базі знань і структурованому каталозі товарів із генерацією відповідей великою мовною моделлю. Розроблений програмний прототип охоплює API-сервер, конвеєр індексації даних, модулі retrieval і prompt-формування та веб-інтерфейс користувача. Проведено порівняльний експеримент трьох режимів роботи: без бази знань (B0), з промпт-інструкцією (B1) та з використанням RAG. Результати підтвердили суттєве підвищення достовірності та повноти відповідей у режимі RAG.
Ключові слова: RAG, LLM, семантичний пошук, клієнтська підтримка, векторна база даних, FastAPI, електронна комерція.
I. ВСТУП
Зростання обсягу звернень у сфері електронної комерції створює потребу в масштабованих системах клієнтської підтримки, здатних обробляти запити цілодобово без залучення оператора для кожного звернення. Сучасні великі мовні моделі (LLM) дозволяють автоматизувати генерацію відповідей природною мовою, однак без доступу до актуальних даних схильні до галюцинацій - генерації правдоподібних, але фактологічно некоректних тверджень.
Архітектура Retrieval-Augmented Generation (RAG) [1] долає це обмеження, поєднуючи генерацію відповіді з пошуком релевантних фрагментів у зовнішній базі знань. Це забезпечує прив'язку відповідей до верифікованих джерел і зменшує ризик передачі хибної інформації клієнту.
Метою роботи є розроблення та дослідження системи клієнтської підтримки інтернет-магазину, що реалізує RAG-конвеєр на основі семантичного пошуку, та порівняльна оцінка ефективності запропонованого підходу відносно базових методів генерації відповідей.
II. ДАНІ ТА МЕТОДИ
Архітектура системи. Реалізована система складається з API-серверу на базі FastAPI, конвеєру індексації даних, модуля семантичного пошуку та веб-інтерфейсу. Інформаційне забезпечення охоплює текстову базу знань у форматі Markdown (правила магазину, умови доставки та повернення, FAQ) і структурований каталог товарів у форматі JSON.
Конвеєр обробки даних. Документи бази знань розбиваються на фрагменти з урахуванням розміру контекстного вікна. Кожен фрагмент перетворюється у векторне представлення (embedding) за допомогою моделі all-MiniLM-L6-v2 (розмірність 384). Отримані вектори зберігаються у векторному індексі FAISS для ефективного пошуку найближчих сусідів [5].
Формування відповіді. Під час обробки запиту система виконує семантичний пошук top-k найрелевантніших фрагментів, формує структурований промпт із знайденим контекстом і передає його мовній моделі GPT-4o-mini для генерації відповіді. Реалізовано три режими: B0 (пряма генерація без бази знань), B1 (промпт-інструкція без retrieval) та RAG (пошук + контекст).
Методика оцінювання. Сформовано набір із 45 тестових запитів, що охоплюють типові категорії звернень клієнтів. Якість відповідей оцінювалась за чотирма метриками: правильність відповіді (0–2), підтвердження фактів відносно бази знань (%), релевантність (0–5) та повнота відповіді (0–5). Оцінювання проводилося автоматично за допомогою LLM-суддів із верифікацією результатів.
III. РЕЗУЛЬТАТИ ТА АНАЛІЗ
Таблиця 1 містить зведені результати порівняльного експерименту.
Таблиця 1 – Порівняння якості відповідей системи
Режим RAG демонструє значне переважання над базовими режимами за всіма показниками якості. Ключовим результатом є показник підтвердження фактів: 93,3% відповідей у режимі RAG спираються на верифіковані дані бази знань, порівняно з 11,1% у режимі B0 та 20,0% у режимі B1, що свідчить про суттєве зниження ризику галюцинацій.
Середня правильність відповіді у режимі RAG (1,71) майже вдвічі перевищує аналогічний показник режиму B0 (0,71). Підвищення повноти відповіді (4,07 проти 2,91) пояснюється здатністю системи залучати конкретні факти із структурованого каталогу товарів. Режим B1 незначно покращує правильність, але не вирішує проблему підтвердження фактів.
IV. ОБГОВОРЕННЯ ТА ВИСНОВКИ
Отримані результати підтверджують ефективність архітектури RAG для побудови систем клієнтської підтримки в електронній комерції. Реалізований прототип забезпечує значне підвищення достовірності та повноти відповідей порівняно з підходами, що не використовують зовнішніх джерел даних.
Ключові переваги запропонованого підходу: прив'язка відповідей до верифікованих даних, підтримка актуальності інформаційного забезпечення без повторного навчання моделі та можливість поєднання документальної бази знань зі структурованими даними каталогу товарів в єдиному retrieval-контурі.
Подальші дослідження спрямовані на вдосконалення механізму retrieval шляхом впровадження гібридного пошуку та ранжування фрагментів, а також на розширення системи метрик оцінювання для більш детального аналізу якості відповідей у різних категоріях звернень.
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
1. Lewis P., Perez E., Piktus A. et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. Advances in Neural Information Processing Systems (NeurIPS 2020). 2020. Vol. 33. P. 9459–9474.
2. Brown T., Mann B., Ryder N. et al. Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems (NeurIPS 2020). 2020. Vol. 33. P. 1877–1901.
3. Ouyang L., Wu J., Jiang X. et al. Training Language Models to Follow Instructions with Human Feedback. Advances in Neural Information Processing Systems (NeurIPS 2022). 2022. Vol. 35. P. 27730–27744.
4. Gao Y., Xiong Y., Gao X. et al. Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv preprint arXiv:2312.10997. 2023. URL: https://arxiv.org/abs/2312.10997.
5. Johnson J., Douze M., Jégou H. Billion-scale Similarity Search with GPUs. IEEE Transactions on Big Data. 2021. Vol. 7, no. 3. P. 535–547.
|