Голосовой ИИ-ассистент окупается в колл-центрах с потоком от 500 звонков в сутки: отвечает 24/7, квалифицирует лидов, разгружает операторов на типовых вызовах. В РФ используют Yandex SpeechKit или Сбер Speech, пилот — от 200 тыс. ₽, окупаемость 4–9 месяцев.
Что такое голосовой ИИ-ассистент
Голосовой ассистент — это связка из трёх компонентов:
- STT (speech-to-text) — расшифровывает речь звонящего в текст.
- LLM — понимает смысл, генерирует текстовый ответ.
- TTS (text-to-speech) — озвучивает ответ голосом.
Плюс диалоговый менеджер, который хранит контекст, и интеграция с телефонной инфраструктурой (SIP, IP-PBX). Технически это зацикленный pipeline: звук → текст → смысл → ответ → звук.
В отличие от чат-бота, голос требует быстрого отклика: если пауза больше 1,5–2 секунд, пользователь думает, что связь оборвалась. Поэтому LLM берут компактную (YandexGPT Lite, GigaChat Lite), а ответ сокращают до 1–2 предложений.
Сценарии, где голосовой ИИ даёт эффект
Не все звонки одинаковые. ИИ окупается на повторяемых, коротких, типовых вызовах.
| Сценарий | Доля типовых | Эффект |
|---|---|---|
| Запись на приём / услугу | 70–90% | _full self-service, ноль операторов на потоке |
| Статус заказа / доставки | 80–95% | ИИ закрывает полностью |
| Информирование (адрес, режим работы) | 90%+ | стандартный IVR + ИИ |
| Первичная квалификация лида | 50–70% | передаёт оператору готовый контекст |
| Техподдержка 1-й линии | 40–60% | типовые вопросы, эскалация на сложных |
| Жалобы и конфликты | до 10% | только маршрутизация, не ведёт диалог |
Где голосовой ИИ пока проигрывает человеку: эмоционально сложные диалоги, переговоры, нестандартные технические инциденты, многоступенчатые продажи. Здесь его используют как помощника оператора, а не как замены.
Технологии STT и TTS в РФ
| Провайдер | STT | TTS | Особенности |
|---|---|---|---|
| Yandex SpeechKit | + | + | лучший распознавание русского, много голосов |
| Сбер Speech | + | + | интеграция с GigaChat, голоса Сбер |
| Tinkoff Voicekit | + | + | высокое качество, платное API |
| Сбер SaluteSpeech | + | + | корпоративный сегмент |
| 3iTech (РТС) | + | + | локальное развёртывание, импортозамещение |
Для публичных проектов в РФ рекомендуют Yandex SpeechKit или Сбер Speech: работают без VPN, хорошо распознают русскую речь с акцентами, имеют готовые голоса. Для регулируемых отраслей (банки, госсектор) — локальное развёртывание 3iTech.
Архитектура голосового ассистента
Звонок (SIP) → Телефонная платформа (FreeSWITCH, Asterisk)
→ STT (потоковое распознавание)
→ Диалоговый менеджер + LLM
→ TTS (озвучка ответа)
→ Возврат в звонок
→ Логирование в CRM и системе аналитики
Ключевые компоненты:
- Телефония — FreeSWITCH или Asterisk, подключение через SIP-провайдера.
- Stream STT — потоковое распознавание, чтобы начать обработку до конца реплики.
- Баркод/IVR — маршрутизация до ИИ или оператора.
- Латентность — цель: менее 1 секунды от конца реплики до начала ответа.
- Бэкенд — Node.js или Python, иногда Go для скорости.
- Интеграция с CRM — транзакция звонка идёт в карточку клиента.
Качество распознавания и озвучки
Главный вопрос клиентов — «а ИИ поймёт клиента?». По факту:
- Чистая русская речь в тишине — 95–98% точности.
- Акценты, фоновый шум, тихий голос — 80–90%.
- Специфическая терминология (медицина, юриспруденция) — требует дообучения словаря (custom STT).
Способы повысить качество:
- Кастомные словари STT с названиями товаров, услуг, терминов.
- Баркод-промпт, подсказывающий LLM вероятный контекст (например, раздел каталога).
- Контекстный менеджер, хранящий последние реплики.
- Перехват неуверенных реплик: если STT уверенность ниже порога — переспросить.
Метрики и окупаемость
| Метрика | Без ИИ | С ИИ | Эффект |
|---|---|---|---|
| Доля звонков, закрытых ИИ | 0% | 40–70% | разгрузка операторов |
| Время ожидания на линии | 1–5 минут | 0–10 секунд | рост CSAT |
| Стоимость звонка | 80–200 ₽ | 20–60 ₽ | в 2–4 раза дешевле |
| Обработка ночью и в выходные | нет | 24/7 | не теряем заявки |
| Конверсия в запись (для клиник) | 30–45% | 45–65% | скорость реакции |
Окупаемость зависит от нагрузки. При 1000 звонков в сутки и стоимости минуты обработки 1–3 ₽ экономия на операторах — 200–500 тыс. ₽ в месяц. При бюджете внедрения 800 тыс. — 1,5 млн ₽ срок окупаемости — 4–9 месяцев.
Когда голосовой ИИ не нужен или вреден
- Поток менее 300–500 звонков в сутки — дороже, чем пара операторов.
- Сложный B2B-продукт с длинными переговорами — ИИ «ломается» на контекстах.
- Высокие требования к эмпатии — медицина (плохие новости), жалобы, конфликты.
- Тишина важнее скорости — премиум-сегмент, где клиент ждёт личного менеджера.
- Нет инфраструктуры телефонии — внедрение с нуля удорожает проект в 2 раза.
Риски и как их снижать
- Ошибки распознавания — переспрашивайте, если не уверены. Лучше уточнить, чем ошибиться.
- Галлюцинации LLM — ограничивайте промптом, всегда имейте эскалацию на оператора. Галлюцинации ИИ — отдельная статья.
- Длинные монологи ИИ — режьте ответ до 1–2 предложений, иначе клиент теряется.
- Нарушение 152-ФЗ —录音 обязательно согласовывайте, храните ПДн шифрованно.
- Слишком живой голос — клиент злится, когда понимает обман. Иногда лучше мягкий «роботизированный» тон, чтобы ожидания были адекватными.
Сроки и бюджет
| Этап | Срок | Ориентир, ₽ |
|---|---|---|
| Аудит звонков и сценария | 1–2 недели | 60–120 тыс. |
| Прототип на одном сценарии | 3–4 недели | 200–400 тыс. |
| Интеграция с телефониеи и CRM | 4–8 недель | 500 тыс. — 1,2 млн |
| Сопровождение в месяц | — | 80–200 тыс. + минуты STT/TTS |
Голосовой ИИ-ассистент — зрелая технология с понятной экономикой. Если у вас реальный поток звонков и доля типовых высока — проект окупится за полгода. Если звонков мало или диалоги сложные — дешевле оставить людей, а ИИ использовать как помощника оператора (подсказки, быстрый поиск по базе).

Комментарии · 0