💬 ИИ-ассистенты

Как измерять качество ответов ИИ: метрики, тесты, A/B

Качество ответов ИИ измеряют точностью по фактам, полнотой, отсутствием галлюцинаций и CSAT. Разбираем офлайн-метрики, A/B-тесты, мониторинг и пороги, при которых ИИ можно пускать в авторежим.

Денис Закаев, ИИ-архитектор, IDEA
Денис Закаев
ИИ-архитектор, IDEA
📅 8 июня 202610 мин👁
📏
Короткий ответ

Качество ответов ИИ измеряют четырьмя метриками: точность (правильность фактов), полнота (нет ли пропусков), галлюцинации (выдумки), CSAT (оценка клиента). Цель для авторежима — от 90% точности и менее 2–3% галлюцинаций. Без регулярных замеров ИИ деградирует за 2–3 месяца.

Почему качество надо измерять

ИИ не «внедрили и забыли». Без мониторинга ответы деградируют: меняется продукт, база устаревает, появляются новые сценарии, в которых модель не обучена. Через 2–3 месяца без контроля точность падает с 92% до 75%, а клиент видит уже не «умного ассистента», а «глупого бота».

Регулярные измерения решают три задачи:

  • Поймать деградацию до того, как её заметят клиенты.
  • Сравнивать версии промптов и моделей (что лучше — объективно).
  • Аргументировать запуск авторежима (вместо «мне кажется, нормально»).

Четыре основные метрики

1. Точность (accuracy)

Доля ответов, в которых факты и логика верны. Замеряется на размеченной выборке человеком-экспертом.

  • Цель для авторежима: от 90%.
  • Как считать: выборка 100–200 диалогов, эксперт ставит «верно» / «неверно» / «частично верно».
  • Сложность: субъективность на граничных кейсах. Решение — double-review на спорных.

2. Полнота (completeness)

Доля ответов, где ИИ дал всю нужную информацию, а не половину.

  • Цель: от 85%.
  • Пример: клиент спросил про условия возврата. ИИ ответил про срок, но забыл про состояние товара — неполный ответ.

3. Галлюцинации (hallucination rate)

Доля ответов с выдуманными фактами: несуществующие тарифы, фейковые акции, неверные цены. Самая опасная метрика.

  • Цель: менее 2–3% на типовых сценариях, 0% — на критичных (цены, юридические факты).
  • Защита: жёсткий промпт «только по базе», ссылка на источник, фильтр уверенности. Подробно — в разборе галлюцинаций.

4. CSAT и явные оценки

Оценка диалога самим клиентом (1–5 звёзд после ответа, лайк/дизлайк).

  • Цель: от 80% положительных.
  • Минус: оценивают немногие (5–15% пользователей), выборка смещена к крайностям. Не единственная метрика.

Вспомогательные метрики

МетрикаЧто показываетНорма
Доля эскалаций на операторакогда ИИ не справился20–40%
Доля «не знаю» ответовнасколько осторожна модель5–15%
Средняя длина диалогаэффективностьзависит от сценария
Время до решенияUXчем меньше, тем лучше
Уверенность моделипрокси для качества70%+ для автоответа
Повторные обращениякогда не решили с первого разаменее 20%

Тестовая выборка (golden set)

Основа офлайн-оценки — размеченная выборка из 100–300 реальных запросов с эталонными ответами. Её используют:

  • При смене модели или промпта — прогон, сравнение с прошлой версией.
  • На регрессионном тестировании — раз в неделю или после пополнения базы.
  • Для нового сценария — добавляем 20–50 кейсов, размечаем, замеряем.

Как собрать golden set:

  1. Возьмите 100 случайных диалогов за последний месяц.
  2. Для каждого напишите эталонный ответ экспертом.
  3. Разметьте: правильный / неправильный / частично.
  4. Прогоняйте новую версию модели/промпта — считайте точность против эталона.

A/B-тесты

Когда нужно выбрать между двумя вариантами (старый промпт vs новый, YandexGPT vs GigaChat) — проводите A/B.

Минимальный рецепт:

  • Случайно делите трафик 50/50.
  • Каждое плечо — минимум 200–500 диалогов для значимой статистики.
  • Замеряете: конверсию в цель, CSAT, долю эскалаций, повторные обращения.
  • Проверяете значимость (хи-квадрат или t-критерий), а не «на глаз».

Типичные ловушки:

  • Слишком короткий тест — случайности доминируют.
  • Сегментная несбалансированность (в одном плече больше сложных кейсов).
  • Сравнение по одной метрике — новая версия поднимает конверсию, но роняет CSAT.

Онлайн-мониторинг в авторежиме

В авторежиме ИИ работает без оператора. Здесь нужен постоянный мониторинг:

СигналЧто значитДействие
Всплеск низких оценокчто-то сломалосьнемедленный разбор
Рост эскалацийИИ чаще не справляетсяпроверить новую базу
Рост «не знаю»база неполнаяпополнить раздел
Активные жалобысистемная ошибкаоткатить версию
Резкий рост длины диалоговИИ не может решитьвозвращаете оператора

Минимальный мониторинг — еженедельная выборка 5–10% диалогов с ручной разметкой, плюс все жалобы и оценки «1 звезда».

Пороги для запуска авторежима

Прежде чем пускать ИИ в «свободное плавание», убедитесь, что выполняются все условия:

  • Точность на golden set — от 90%.
  • Галлюцинации — менее 2–3%, на критичных темах — 0%.
  • CSAT за 2–4 недели модерации — от 80%.
  • Настроена эскалация на оператора.
  • Есть мониторинг и человек, который раз в неделю смотрит выборку.

Если хотя бы одно условие не выполнено — оставайтесь в режиме «ИИ + оператор». Это безопаснее и дешевле исправлений.

Кто и как часто проверяет

РольЧто делаетЧастота
Контент-менеджерпополняет базу знаний, ведёт golden setеженедельно
ML/промпт-инженеритерирует промпт, меняет модельраз в 2–4 недели
Аналитиксмотрит метрики, готовит A/Bеженедельно
Эксперт предметной областиразмечает спорные ответыпо запросу
Продакт-менеджеррешает, что катить в продпо итогам теста

Контроль качества — это не разовая задача перед запуском, а постоянный процесс. Без него ИИ-ассистент превращается в финансовую и репутационную угрозу. С ним — предсказуемо растущая точность и снижение нагрузки на операторов.

Частые вопросы

Какая точность ИИ считается нормальной?
Для пуска в авторежим — от 90–92% правильных ответов на тестовой выборке. На старте держите 80–85% и модерацию оператором, постепенно поднимаете за счёт базы знаний и промпта.
Как ловить галлюцинации?
Ведёте реестр ошибок, раз в неделю прогоняете новый сэт через тестовую выборку, считаете долю выдуманных ответов. Цель — менее 2–3% на типовых сценариях.
Нужен ли A/B-тест перед запуском?
Да, на значимом трафике. Сравниваете ИИ и оператора (или две версии промпта) по конверсии, CSAT и доле эскалаций. Минимум 200–500 диалогов на каждое плечо.
Сколько диалогов проверять вручную?
На старте — 100% ответов ИИ до публикации. В авторежиме — 5–10% случайной выборки еженедельно плюс все жалобы и низкие оценки.
Оцените материал:
0

Остались вопросы? Поможем

Эксперты IDEA ответят по теме материала или подскажут по вашему проекту. Свяжемся в течение дня, без навязывания.

Комментарии · 0