💬 ИИ-ассистенты

Как измерять качество ответов ИИ: метрики, тесты, A/B

Качество ответов ИИ измеряют точностью по фактам, полнотой, отсутствием галлюцинаций и CSAT. Разбираем офлайн-метрики, A/B-тесты, мониторинг и пороги, при которых ИИ можно пускать в авторежим.

Денис Закаев

ИИ-архитектор, IDEA

📅 8 июня 2026⏱ 10 мин👁 …

📏

Короткий ответ

Качество ответов ИИ измеряют четырьмя метриками: точность (правильность фактов), полнота (нет ли пропусков), галлюцинации (выдумки), CSAT (оценка клиента). Цель для авторежима — от 90% точности и менее 2–3% галлюцинаций. Без регулярных замеров ИИ деградирует за 2–3 месяца.

Почему качество надо измерять

ИИ не «внедрили и забыли». Без мониторинга ответы деградируют: меняется продукт, база устаревает, появляются новые сценарии, в которых модель не обучена. Через 2–3 месяца без контроля точность падает с 92% до 75%, а клиент видит уже не «умного ассистента», а «глупого бота».

Регулярные измерения решают три задачи:

Поймать деградацию до того, как её заметят клиенты.
Сравнивать версии промптов и моделей (что лучше — объективно).
Аргументировать запуск авторежима (вместо «мне кажется, нормально»).

Четыре основные метрики

1. Точность (accuracy)

Доля ответов, в которых факты и логика верны. Замеряется на размеченной выборке человеком-экспертом.

Цель для авторежима: от 90%.
Как считать: выборка 100–200 диалогов, эксперт ставит «верно» / «неверно» / «частично верно».
Сложность: субъективность на граничных кейсах. Решение — double-review на спорных.

2. Полнота (completeness)

Доля ответов, где ИИ дал всю нужную информацию, а не половину.

Цель: от 85%.
Пример: клиент спросил про условия возврата. ИИ ответил про срок, но забыл про состояние товара — неполный ответ.

3. Галлюцинации (hallucination rate)

Доля ответов с выдуманными фактами: несуществующие тарифы, фейковые акции, неверные цены. Самая опасная метрика.

Цель: менее 2–3% на типовых сценариях, 0% — на критичных (цены, юридические факты).
Защита: жёсткий промпт «только по базе», ссылка на источник, фильтр уверенности. Подробно — в разборе галлюцинаций.

4. CSAT и явные оценки

Оценка диалога самим клиентом (1–5 звёзд после ответа, лайк/дизлайк).

Цель: от 80% положительных.
Минус: оценивают немногие (5–15% пользователей), выборка смещена к крайностям. Не единственная метрика.

Вспомогательные метрики

Метрика	Что показывает	Норма
Доля эскалаций на оператора	когда ИИ не справился	20–40%
Доля «не знаю» ответов	насколько осторожна модель	5–15%
Средняя длина диалога	эффективность	зависит от сценария
Время до решения	UX	чем меньше, тем лучше
Уверенность модели	прокси для качества	70%+ для автоответа
Повторные обращения	когда не решили с первого раза	менее 20%

Тестовая выборка (golden set)

Основа офлайн-оценки — размеченная выборка из 100–300 реальных запросов с эталонными ответами. Её используют:

При смене модели или промпта — прогон, сравнение с прошлой версией.
На регрессионном тестировании — раз в неделю или после пополнения базы.
Для нового сценария — добавляем 20–50 кейсов, размечаем, замеряем.

Как собрать golden set:

Возьмите 100 случайных диалогов за последний месяц.
Для каждого напишите эталонный ответ экспертом.
Разметьте: правильный / неправильный / частично.
Прогоняйте новую версию модели/промпта — считайте точность против эталона.

A/B-тесты

Когда нужно выбрать между двумя вариантами (старый промпт vs новый, YandexGPT vs GigaChat) — проводите A/B.

Минимальный рецепт:

Случайно делите трафик 50/50.
Каждое плечо — минимум 200–500 диалогов для значимой статистики.
Замеряете: конверсию в цель, CSAT, долю эскалаций, повторные обращения.
Проверяете значимость (хи-квадрат или t-критерий), а не «на глаз».

Типичные ловушки:

Слишком короткий тест — случайности доминируют.
Сегментная несбалансированность (в одном плече больше сложных кейсов).
Сравнение по одной метрике — новая версия поднимает конверсию, но роняет CSAT.

Онлайн-мониторинг в авторежиме

В авторежиме ИИ работает без оператора. Здесь нужен постоянный мониторинг:

Сигнал	Что значит	Действие
Всплеск низких оценок	что-то сломалось	немедленный разбор
Рост эскалаций	ИИ чаще не справляется	проверить новую базу
Рост «не знаю»	база неполная	пополнить раздел
Активные жалобы	системная ошибка	откатить версию
Резкий рост длины диалогов	ИИ не может решить	возвращаете оператора

Минимальный мониторинг — еженедельная выборка 5–10% диалогов с ручной разметкой, плюс все жалобы и оценки «1 звезда».

Пороги для запуска авторежима

Прежде чем пускать ИИ в «свободное плавание», убедитесь, что выполняются все условия:

Точность на golden set — от 90%.
Галлюцинации — менее 2–3%, на критичных темах — 0%.
CSAT за 2–4 недели модерации — от 80%.
Настроена эскалация на оператора.
Есть мониторинг и человек, который раз в неделю смотрит выборку.

Если хотя бы одно условие не выполнено — оставайтесь в режиме «ИИ + оператор». Это безопаснее и дешевле исправлений.

Кто и как часто проверяет

Роль	Что делает	Частота
Контент-менеджер	пополняет базу знаний, ведёт golden set	еженедельно
ML/промпт-инженер	итерирует промпт, меняет модель	раз в 2–4 недели
Аналитик	смотрит метрики, готовит A/B	еженедельно
Эксперт предметной области	размечает спорные ответы	по запросу
Продакт-менеджер	решает, что катить в прод	по итогам теста

Контроль качества — это не разовая задача перед запуском, а постоянный процесс. Без него ИИ-ассистент превращается в финансовую и репутационную угрозу. С ним — предсказуемо растущая точность и снижение нагрузки на операторов.

Теги:#качество ИИ #метрики #A/B-тесты #галлюцинации #тестирование #контроль качества

Частые вопросы

Какая точность ИИ считается нормальной?

Для пуска в авторежим — от 90–92% правильных ответов на тестовой выборке. На старте держите 80–85% и модерацию оператором, постепенно поднимаете за счёт базы знаний и промпта.

Как ловить галлюцинации?

Ведёте реестр ошибок, раз в неделю прогоняете новый сэт через тестовую выборку, считаете долю выдуманных ответов. Цель — менее 2–3% на типовых сценариях.

Нужен ли A/B-тест перед запуском?

Да, на значимом трафике. Сравниваете ИИ и оператора (или две версии промпта) по конверсии, CSAT и доле эскалаций. Минимум 200–500 диалогов на каждое плечо.

Сколько диалогов проверять вручную?

На старте — 100% ответов ИИ до публикации. В авторежиме — 5–10% случайной выборки еженедельно плюс все жалобы и низкие оценки.

Оцените материал:

Остались вопросы? Поможем

Эксперты IDEA ответят по теме материала или подскажут по вашему проекту. Свяжемся в течение дня, без навязывания.

✈️ Telegram 💬 Max

Как измерять качество ответов ИИ: метрики, тесты, A/B

Почему качество надо измерять

Четыре основные метрики

1. Точность (accuracy)

2. Полнота (completeness)

3. Галлюцинации (hallucination rate)

4. CSAT и явные оценки

Вспомогательные метрики

Тестовая выборка (golden set)

A/B-тесты

Онлайн-мониторинг в авторежиме

Пороги для запуска авторежима

Кто и как часто проверяет

Частые вопросы

Остались вопросы? Поможем

Комментарии · 0

Похожие материалы

Галлюцинации ИИ: как снизить риски в бизнесе

ИИ-ассистент для техподдержки: где применять и как считать эффект

База знаний для ИИ-ассистента: RAG, чанки, качество

Как внедрить ИИ-ассистента в бизнес: пошаговое руководство

Промпт-инжиниринг для бизнес-задач: шаблоны и ошибки