Галлюцинации ИИ — это уверенная выдача выдуманных фактов. Полностью от них не избавиться, но можно снизить частоту до 1–5%. Рабочие методы: RAG с опорой на базу знаний, guardrails на вход и выход, эшелоны контроля с участием человека на критичных задачах. Не полагайтесь на одну только модель.
Что такое галлюцинации
Галлюцинация — это когда модель генерирует ответ, который звучит правдоподобно, но фактически неверен: выдуманная цена, несуществующая статья закона, склеенный из двух фактов третий. Модель не «врёт» намеренно — она угадывает следующий токен, и иногда угадывает гладко, но неверно.
Для бизнеса это критичный риск: один ошибочный ответ клиенту может стоить сделки, репутации или штрафа. Поэтому снижение галлюцинаций — отдельная инженерная задача, не «настройка модели».
Причины галлюцинаций
| Причина | Что происходит | Как проявляется |
|---|---|---|
| Нет данных в контексте | Модель не знает факта, но должна ответить | Выдумывает цену, срок, условие |
| Жадный промпт | «Ответь на всё, что спросили» | Отвечает даже там, где надо «не знаю» |
| Слабая база знаний | Релевантный документ не нашёлся | Модель фантазирует на тему |
| Длинный контекст | Модель «забыла» начало | Противоречит сама себе |
| Шумные данные | В базе конфликты и дубли | Модель выбирает случайно |
Большинство причин — не в модели, а в архитектуре системы. Это хорошо: значит, их можно исправить без замены LLM.
Способ 1. RAG с опорой на источник
Главный метод. Модель получает только релевантный фрагмент базы знаний и инструкцию: «отвечай только на основе контекста, если данных нет — скажи, что не знаешь». Подробнее — в «Базе знаний для ИИ».
RAG снижает галлюцинации на 50–70% по сравнению с генерацией «из головы». Но не до нуля: модель всё ещё может интерпретировать источник неверно.
Способ 2. Guardrails
Guardrails — это правила на вход и выход модели, которые отсекают опасные или некорректные ответы.
| Тип | Что проверяет |
|---|---|
| На вход | Запретные темы, инъекции, нецензурная лексика |
| На выход | Формат, отсутствие конфиденциальных данных, цитирование источника |
| По факту | Сверка утверждений с базой (fact-checking) |
| По логике | Самопроверка второй моделью |
Инструменты в РФ — собственные обвязки на Python, NeMo Guardrails, решения Yandex и Сбера. Готовых SaaS-продуктов с guardrails на рынке РФ пока мало, чаще собирают в коде.
Способ 3. Разрешение «не знаю»
Парадокс: модель галлюцинирует меньше, когда ей разрешают отказаться от ответа. В промпте явно укажите:
Если в контексте нет информации для ответа — скажи «У меня нет данных, переключу на оператора». Не выдумывай.
Это снимает 30–50% галлюцинаций. Подробнее о построении промптов — в «Промпт-инжиниринге».
Способ 4. Эшелоны контроля
Разделяйте ответы по уровню риска:
| Уровень | Примеры | Контроль |
|---|---|---|
| Низкий | FAQ, статус заказа | Автоматически |
| Средний | Рекомендации, стоимость | Выборочная проверка |
| Высокий | Договоры, юр. советы, медицинское | Обязательная проверка человеком |
На высоком уровне ИИ не отвечает напрямую — он готовит черновик, который проверяет специалист. Это снимает риск полностью за счёт человеческого контроля.
Способ 5. Контроль второй моделью
После основного ответа второй вызов LLM проверяет: «Соответствует ли этот ответ контексту? Есть ли выдуманные факты?». Стоит дороже, но повышает точность критичных ответов до 95%+.
Хорошо работает на юр. и финансовых задачах, где цена ошибки велика.
Метрики
Чтобы снижать галлюцинации, их надо измерять:
- Faithfulness — доля утверждений в ответе, которые подтверждаются источником.
- Answer relevance — насколько ответ относится к вопросу.
- Hallucination rate — доля ответов с выдуманными фактами.
Замеряют на тестовом наборе из 50–200 кейсов вручную или автоматическими метриками (RAGAS, TruLens). Цель — hallucination rate ниже 5%.
Что делать с ошибкой
Когда ИИ наврал клиенту:
- Зафиксировать случай в логе.
- Разобрать причину: нет данных в базе, плохой промпт, слабый RAG.
- Исправить корневую причину, а не симптом.
- Добавить кейс в тестовый набор.
- Прогнать обновлённую систему на всём наборе.
Без этой петли обратной связи качество не растёт. Подробнее про связанный подход — в «ИИ и персональные данные», где разбираем архитектуру безопасной обработки.
Реалистичные цели
Полностью избавиться от галлюцинаций нельзя — это свойство технологии. Реалистичная цель для бизнес-системы:
- 1–5% галлюцинаций на типовых задачах;
- 0% на критичных — за счёт человеческого контроля;
- каждая ошибка зафиксирована и разобрана.
Главное правило борьбы с галлюцинациями: не надейтесь на одну модель. Степень защиты — это сумма методов: RAG + guardrails + разрешение «не знаю» + эшелоны контроля. Чем выше цена ошибки, тем больше слоёв.
Комментарии · 0