🤖 Внедрение ИИ

Галлюцинации ИИ: как снизить риски в бизнесе

Галлюцинации — это когда ИИ уверенно выдаёт выдуманные факты. Причины: слабая база, амбициозный промпт, жадная генерация. Разбираем RAG, guardrails, эшелоны контроля и метрики оценки качества.

Денис Закаев, ИИ-архитектор, IDEA
Денис Закаев
ИИ-архитектор, IDEA
📅 18 июня 202610 мин👁
🤖
Короткий ответ

Галлюцинации ИИ — это уверенная выдача выдуманных фактов. Полностью от них не избавиться, но можно снизить частоту до 1–5%. Рабочие методы: RAG с опорой на базу знаний, guardrails на вход и выход, эшелоны контроля с участием человека на критичных задачах. Не полагайтесь на одну только модель.

Что такое галлюцинации

Галлюцинация — это когда модель генерирует ответ, который звучит правдоподобно, но фактически неверен: выдуманная цена, несуществующая статья закона, склеенный из двух фактов третий. Модель не «врёт» намеренно — она угадывает следующий токен, и иногда угадывает гладко, но неверно.

Для бизнеса это критичный риск: один ошибочный ответ клиенту может стоить сделки, репутации или штрафа. Поэтому снижение галлюцинаций — отдельная инженерная задача, не «настройка модели».

Причины галлюцинаций

ПричинаЧто происходитКак проявляется
Нет данных в контекстеМодель не знает факта, но должна ответитьВыдумывает цену, срок, условие
Жадный промпт«Ответь на всё, что спросили»Отвечает даже там, где надо «не знаю»
Слабая база знанийРелевантный документ не нашёлсяМодель фантазирует на тему
Длинный контекстМодель «забыла» началоПротиворечит сама себе
Шумные данныеВ базе конфликты и дублиМодель выбирает случайно

Большинство причин — не в модели, а в архитектуре системы. Это хорошо: значит, их можно исправить без замены LLM.

Способ 1. RAG с опорой на источник

Главный метод. Модель получает только релевантный фрагмент базы знаний и инструкцию: «отвечай только на основе контекста, если данных нет — скажи, что не знаешь». Подробнее — в «Базе знаний для ИИ».

RAG снижает галлюцинации на 50–70% по сравнению с генерацией «из головы». Но не до нуля: модель всё ещё может интерпретировать источник неверно.

Способ 2. Guardrails

Guardrails — это правила на вход и выход модели, которые отсекают опасные или некорректные ответы.

ТипЧто проверяет
На входЗапретные темы, инъекции, нецензурная лексика
На выходФормат, отсутствие конфиденциальных данных, цитирование источника
По фактуСверка утверждений с базой (fact-checking)
По логикеСамопроверка второй моделью

Инструменты в РФ — собственные обвязки на Python, NeMo Guardrails, решения Yandex и Сбера. Готовых SaaS-продуктов с guardrails на рынке РФ пока мало, чаще собирают в коде.

Способ 3. Разрешение «не знаю»

Парадокс: модель галлюцинирует меньше, когда ей разрешают отказаться от ответа. В промпте явно укажите:

Если в контексте нет информации для ответа — скажи «У меня нет данных, переключу на оператора». Не выдумывай.

Это снимает 30–50% галлюцинаций. Подробнее о построении промптов — в «Промпт-инжиниринге».

Способ 4. Эшелоны контроля

Разделяйте ответы по уровню риска:

УровеньПримерыКонтроль
НизкийFAQ, статус заказаАвтоматически
СреднийРекомендации, стоимостьВыборочная проверка
ВысокийДоговоры, юр. советы, медицинскоеОбязательная проверка человеком

На высоком уровне ИИ не отвечает напрямую — он готовит черновик, который проверяет специалист. Это снимает риск полностью за счёт человеческого контроля.

Способ 5. Контроль второй моделью

После основного ответа второй вызов LLM проверяет: «Соответствует ли этот ответ контексту? Есть ли выдуманные факты?». Стоит дороже, но повышает точность критичных ответов до 95%+.

Хорошо работает на юр. и финансовых задачах, где цена ошибки велика.

Метрики

Чтобы снижать галлюцинации, их надо измерять:

  • Faithfulness — доля утверждений в ответе, которые подтверждаются источником.
  • Answer relevance — насколько ответ относится к вопросу.
  • Hallucination rate — доля ответов с выдуманными фактами.

Замеряют на тестовом наборе из 50–200 кейсов вручную или автоматическими метриками (RAGAS, TruLens). Цель — hallucination rate ниже 5%.

Что делать с ошибкой

Когда ИИ наврал клиенту:

  1. Зафиксировать случай в логе.
  2. Разобрать причину: нет данных в базе, плохой промпт, слабый RAG.
  3. Исправить корневую причину, а не симптом.
  4. Добавить кейс в тестовый набор.
  5. Прогнать обновлённую систему на всём наборе.

Без этой петли обратной связи качество не растёт. Подробнее про связанный подход — в «ИИ и персональные данные», где разбираем архитектуру безопасной обработки.

Реалистичные цели

Полностью избавиться от галлюцинаций нельзя — это свойство технологии. Реалистичная цель для бизнес-системы:

  • 1–5% галлюцинаций на типовых задачах;
  • 0% на критичных — за счёт человеческого контроля;
  • каждая ошибка зафиксирована и разобрана.

Главное правило борьбы с галлюцинациями: не надейтесь на одну модель. Степень защиты — это сумма методов: RAG + guardrails + разрешение «не знаю» + эшелоны контроля. Чем выше цена ошибки, тем больше слоёв.

Частые вопросы

Можно ли полностью избавиться от галлюцинаций?
Нет. Любая LLM галлюцинирует с некоторой вероятностью. Реалистичная цель — снизить частоту до 1–5% на типовых задачах и обеспечить контроль критичных ответов.
Какая модель меньше галлюцинирует?
Большие модели (GPT-4-класса, YandexGPT Pro) галлюцинируют реже маленьких. Но главный фактор — не размер, а архитектура: RAG и ограничения сильнее модели.
Как поймать галлюцинацию автоматически?
Двумя способами: проверка по базе знаний (есть ли источник для утверждения) и второй моделью-критиком. Первый дешевле, второй точнее.
Что делать, если ИИ наврал клиенту?
Зафиксировать случай, разобрать причину, вернуть клиенту корректный ответ. Затем — добавить кейс в базу знаний и в тестовый набор для будущих проверок.
Оцените материал:
0

Остались вопросы? Поможем

Эксперты IDEA ответят по теме материала или подскажут по вашему проекту. Свяжемся в течение дня, без навязывания.

Комментарии · 0