💬 ИИ-ассистенты

Голосовые ИИ-ассистенты для бизнеса: STT, TTS и сценарии

Голосовые ИИ-ассистенты на STT и TTS от Yandex и Сбер отвечают на звонки 24/7, квалифицируют лиды и разгружают колл-центр. Разбираем сценарии, качество распознавания и когда проект окупается в РФ.

Денис Закаев, ИИ-архитектор, IDEA
Денис Закаев
ИИ-архитектор, IDEA
📅 30 мая 202610 мин👁
🎙️
Короткий ответ

Голосовой ИИ-ассистент окупается в колл-центрах с потоком от 500 звонков в сутки: отвечает 24/7, квалифицирует лидов, разгружает операторов на типовых вызовах. В РФ используют Yandex SpeechKit или Сбер Speech, пилот — от 200 тыс. ₽, окупаемость 4–9 месяцев.

Что такое голосовой ИИ-ассистент

Голосовой ассистент — это связка из трёх компонентов:

  1. STT (speech-to-text) — расшифровывает речь звонящего в текст.
  2. LLM — понимает смысл, генерирует текстовый ответ.
  3. TTS (text-to-speech) — озвучивает ответ голосом.

Плюс диалоговый менеджер, который хранит контекст, и интеграция с телефонной инфраструктурой (SIP, IP-PBX). Технически это зацикленный pipeline: звук → текст → смысл → ответ → звук.

В отличие от чат-бота, голос требует быстрого отклика: если пауза больше 1,5–2 секунд, пользователь думает, что связь оборвалась. Поэтому LLM берут компактную (YandexGPT Lite, GigaChat Lite), а ответ сокращают до 1–2 предложений.

Сценарии, где голосовой ИИ даёт эффект

Не все звонки одинаковые. ИИ окупается на повторяемых, коротких, типовых вызовах.

СценарийДоля типовыхЭффект
Запись на приём / услугу70–90%_full self-service, ноль операторов на потоке
Статус заказа / доставки80–95%ИИ закрывает полностью
Информирование (адрес, режим работы)90%+стандартный IVR + ИИ
Первичная квалификация лида50–70%передаёт оператору готовый контекст
Техподдержка 1-й линии40–60%типовые вопросы, эскалация на сложных
Жалобы и конфликтыдо 10%только маршрутизация, не ведёт диалог

Где голосовой ИИ пока проигрывает человеку: эмоционально сложные диалоги, переговоры, нестандартные технические инциденты, многоступенчатые продажи. Здесь его используют как помощника оператора, а не как замены.

Технологии STT и TTS в РФ

ПровайдерSTTTTSОсобенности
Yandex SpeechKit++лучший распознавание русского, много голосов
Сбер Speech++интеграция с GigaChat, голоса Сбер
Tinkoff Voicekit++высокое качество, платное API
Сбер SaluteSpeech++корпоративный сегмент
3iTech (РТС)++локальное развёртывание, импортозамещение

Для публичных проектов в РФ рекомендуют Yandex SpeechKit или Сбер Speech: работают без VPN, хорошо распознают русскую речь с акцентами, имеют готовые голоса. Для регулируемых отраслей (банки, госсектор) — локальное развёртывание 3iTech.

Архитектура голосового ассистента

Звонок (SIP) → Телефонная платформа (FreeSWITCH, Asterisk)
   → STT (потоковое распознавание)
   → Диалоговый менеджер + LLM
   → TTS (озвучка ответа)
   → Возврат в звонок
   → Логирование в CRM и системе аналитики

Ключевые компоненты:

  • Телефония — FreeSWITCH или Asterisk, подключение через SIP-провайдера.
  • Stream STT — потоковое распознавание, чтобы начать обработку до конца реплики.
  • Баркод/IVR — маршрутизация до ИИ или оператора.
  • Латентность — цель: менее 1 секунды от конца реплики до начала ответа.
  • Бэкенд — Node.js или Python, иногда Go для скорости.
  • Интеграция с CRM — транзакция звонка идёт в карточку клиента.

Качество распознавания и озвучки

Главный вопрос клиентов — «а ИИ поймёт клиента?». По факту:

  • Чистая русская речь в тишине — 95–98% точности.
  • Акценты, фоновый шум, тихий голос — 80–90%.
  • Специфическая терминология (медицина, юриспруденция) — требует дообучения словаря (custom STT).

Способы повысить качество:

  • Кастомные словари STT с названиями товаров, услуг, терминов.
  • Баркод-промпт, подсказывающий LLM вероятный контекст (например, раздел каталога).
  • Контекстный менеджер, хранящий последние реплики.
  • Перехват неуверенных реплик: если STT уверенность ниже порога — переспросить.

Метрики и окупаемость

МетрикаБез ИИС ИИЭффект
Доля звонков, закрытых ИИ0%40–70%разгрузка операторов
Время ожидания на линии1–5 минут0–10 секундрост CSAT
Стоимость звонка80–200 ₽20–60 ₽в 2–4 раза дешевле
Обработка ночью и в выходныенет24/7не теряем заявки
Конверсия в запись (для клиник)30–45%45–65%скорость реакции

Окупаемость зависит от нагрузки. При 1000 звонков в сутки и стоимости минуты обработки 1–3 ₽ экономия на операторах — 200–500 тыс. ₽ в месяц. При бюджете внедрения 800 тыс. — 1,5 млн ₽ срок окупаемости — 4–9 месяцев.

Когда голосовой ИИ не нужен или вреден

  • Поток менее 300–500 звонков в сутки — дороже, чем пара операторов.
  • Сложный B2B-продукт с длинными переговорами — ИИ «ломается» на контекстах.
  • Высокие требования к эмпатии — медицина (плохие новости), жалобы, конфликты.
  • Тишина важнее скорости — премиум-сегмент, где клиент ждёт личного менеджера.
  • Нет инфраструктуры телефонии — внедрение с нуля удорожает проект в 2 раза.

Риски и как их снижать

  • Ошибки распознавания — переспрашивайте, если не уверены. Лучше уточнить, чем ошибиться.
  • Галлюцинации LLM — ограничивайте промптом, всегда имейте эскалацию на оператора. Галлюцинации ИИ — отдельная статья.
  • Длинные монологи ИИ — режьте ответ до 1–2 предложений, иначе клиент теряется.
  • Нарушение 152-ФЗ —录音 обязательно согласовывайте, храните ПДн шифрованно.
  • Слишком живой голос — клиент злится, когда понимает обман. Иногда лучше мягкий «роботизированный» тон, чтобы ожидания были адекватными.

Сроки и бюджет

ЭтапСрокОриентир, ₽
Аудит звонков и сценария1–2 недели60–120 тыс.
Прототип на одном сценарии3–4 недели200–400 тыс.
Интеграция с телефониеи и CRM4–8 недель500 тыс. — 1,2 млн
Сопровождение в месяц80–200 тыс. + минуты STT/TTS

Голосовой ИИ-ассистент — зрелая технология с понятной экономикой. Если у вас реальный поток звонков и доля типовых высока — проект окупится за полгода. Если звонков мало или диалоги сложные — дешевле оставить людей, а ИИ использовать как помощника оператора (подсказки, быстрый поиск по базе).

Частые вопросы

Голосовой ИИ уже звучит как человек?
Для типовых коротких реплик — да, на премиальных голосах TTS разница с человеком едва заметна. На длинных диалогах и нестандартных вопросах распознать ИИ всё ещё можно.
В каких сценариях голосовой ИИ окупается?
Колл-центры с потоком от 500 звонков в сутки, запись на приём, статус заказа, информирование, первичная квалификация. На малых потоках дешевле держать оператора.
Какие STT/TTS использовать в РФ?
Yandex SpeechKit и Сбер Speech (Tinkoff Voicekit как альтернатива). Работают без VPN, хорошо распознают русский, соответствуют требованиям по ПДн.
Сколько стоит внедрение?
Пилот на одном сценарии — от 200 тыс. ₽. Продакшен с интеграцией в телефонію и CRM — 500 тыс. — 1,5 млн ₽. Плюс поминутная оплата STT/TTS.
Оцените материал:
0

Остались вопросы? Поможем

Эксперты IDEA ответят по теме материала или подскажут по вашему проекту. Свяжемся в течение дня, без навязывания.

Комментарии · 0