Качество ответов ИИ измеряют четырьмя метриками: точность (правильность фактов), полнота (нет ли пропусков), галлюцинации (выдумки), CSAT (оценка клиента). Цель для авторежима — от 90% точности и менее 2–3% галлюцинаций. Без регулярных замеров ИИ деградирует за 2–3 месяца.
Почему качество надо измерять
ИИ не «внедрили и забыли». Без мониторинга ответы деградируют: меняется продукт, база устаревает, появляются новые сценарии, в которых модель не обучена. Через 2–3 месяца без контроля точность падает с 92% до 75%, а клиент видит уже не «умного ассистента», а «глупого бота».
Регулярные измерения решают три задачи:
- Поймать деградацию до того, как её заметят клиенты.
- Сравнивать версии промптов и моделей (что лучше — объективно).
- Аргументировать запуск авторежима (вместо «мне кажется, нормально»).
Четыре основные метрики
1. Точность (accuracy)
Доля ответов, в которых факты и логика верны. Замеряется на размеченной выборке человеком-экспертом.
- Цель для авторежима: от 90%.
- Как считать: выборка 100–200 диалогов, эксперт ставит «верно» / «неверно» / «частично верно».
- Сложность: субъективность на граничных кейсах. Решение — double-review на спорных.
2. Полнота (completeness)
Доля ответов, где ИИ дал всю нужную информацию, а не половину.
- Цель: от 85%.
- Пример: клиент спросил про условия возврата. ИИ ответил про срок, но забыл про состояние товара — неполный ответ.
3. Галлюцинации (hallucination rate)
Доля ответов с выдуманными фактами: несуществующие тарифы, фейковые акции, неверные цены. Самая опасная метрика.
- Цель: менее 2–3% на типовых сценариях, 0% — на критичных (цены, юридические факты).
- Защита: жёсткий промпт «только по базе», ссылка на источник, фильтр уверенности. Подробно — в разборе галлюцинаций.
4. CSAT и явные оценки
Оценка диалога самим клиентом (1–5 звёзд после ответа, лайк/дизлайк).
- Цель: от 80% положительных.
- Минус: оценивают немногие (5–15% пользователей), выборка смещена к крайностям. Не единственная метрика.
Вспомогательные метрики
| Метрика | Что показывает | Норма |
|---|---|---|
| Доля эскалаций на оператора | когда ИИ не справился | 20–40% |
| Доля «не знаю» ответов | насколько осторожна модель | 5–15% |
| Средняя длина диалога | эффективность | зависит от сценария |
| Время до решения | UX | чем меньше, тем лучше |
| Уверенность модели | прокси для качества | 70%+ для автоответа |
| Повторные обращения | когда не решили с первого раза | менее 20% |
Тестовая выборка (golden set)
Основа офлайн-оценки — размеченная выборка из 100–300 реальных запросов с эталонными ответами. Её используют:
- При смене модели или промпта — прогон, сравнение с прошлой версией.
- На регрессионном тестировании — раз в неделю или после пополнения базы.
- Для нового сценария — добавляем 20–50 кейсов, размечаем, замеряем.
Как собрать golden set:
- Возьмите 100 случайных диалогов за последний месяц.
- Для каждого напишите эталонный ответ экспертом.
- Разметьте: правильный / неправильный / частично.
- Прогоняйте новую версию модели/промпта — считайте точность против эталона.
A/B-тесты
Когда нужно выбрать между двумя вариантами (старый промпт vs новый, YandexGPT vs GigaChat) — проводите A/B.
Минимальный рецепт:
- Случайно делите трафик 50/50.
- Каждое плечо — минимум 200–500 диалогов для значимой статистики.
- Замеряете: конверсию в цель, CSAT, долю эскалаций, повторные обращения.
- Проверяете значимость (хи-квадрат или t-критерий), а не «на глаз».
Типичные ловушки:
- Слишком короткий тест — случайности доминируют.
- Сегментная несбалансированность (в одном плече больше сложных кейсов).
- Сравнение по одной метрике — новая версия поднимает конверсию, но роняет CSAT.
Онлайн-мониторинг в авторежиме
В авторежиме ИИ работает без оператора. Здесь нужен постоянный мониторинг:
| Сигнал | Что значит | Действие |
|---|---|---|
| Всплеск низких оценок | что-то сломалось | немедленный разбор |
| Рост эскалаций | ИИ чаще не справляется | проверить новую базу |
| Рост «не знаю» | база неполная | пополнить раздел |
| Активные жалобы | системная ошибка | откатить версию |
| Резкий рост длины диалогов | ИИ не может решить | возвращаете оператора |
Минимальный мониторинг — еженедельная выборка 5–10% диалогов с ручной разметкой, плюс все жалобы и оценки «1 звезда».
Пороги для запуска авторежима
Прежде чем пускать ИИ в «свободное плавание», убедитесь, что выполняются все условия:
- Точность на golden set — от 90%.
- Галлюцинации — менее 2–3%, на критичных темах — 0%.
- CSAT за 2–4 недели модерации — от 80%.
- Настроена эскалация на оператора.
- Есть мониторинг и человек, который раз в неделю смотрит выборку.
Если хотя бы одно условие не выполнено — оставайтесь в режиме «ИИ + оператор». Это безопаснее и дешевле исправлений.
Кто и как часто проверяет
| Роль | Что делает | Частота |
|---|---|---|
| Контент-менеджер | пополняет базу знаний, ведёт golden set | еженедельно |
| ML/промпт-инженер | итерирует промпт, меняет модель | раз в 2–4 недели |
| Аналитик | смотрит метрики, готовит A/B | еженедельно |
| Эксперт предметной области | размечает спорные ответы | по запросу |
| Продакт-менеджер | решает, что катить в прод | по итогам теста |
Контроль качества — это не разовая задача перед запуском, а постоянный процесс. Без него ИИ-ассистент превращается в финансовую и репутационную угрозу. С ним — предсказуемо растущая точность и снижение нагрузки на операторов.
Комментарии · 0