Активное слушание — это функционал для голосовых ботов, который позволяет им реагировать на речь пользователя, делая диалог более естественным и вовлеченным. Бот использует синтезированные фразы или заранее записанные фразы озвучки, чтобы реагировать на речь пользователя, имитируя поведение живого собеседника.
Цель активного слушания — сделать общение с голосовым ботом более человечным и естественным. Когда бот вставляет фразы подтверждения, пользователь чувствует, что его слушают и понимают. Это повышает удовлетворенность и доверие к системе, а также способствует более плавному и непрерывному диалогу.
Активное слушание включается, когда бот распознает начало речи пользователя — это может быть вызвано триггерным словом, командой или обращением. Система продолжает активное слушание в ходе диалога, отслеживая паузы и изменения в речи, чтобы поддерживать плавное взаимодействие.
Во время разговора бот вставляет короткие фразы, такие как «угу», «да, я понимаю», «продолжайте». Эти фразы могут быть синтезированы или воспроизведены заранее записанным голосом, в зависимости от настроек. Это помогает пользователю понять, что бот продолжает слушать и следить за диалогом, создавая ощущение живого общения. Механизм работы:
После того как бот выдал первое подтверждение, в работу вступают таймеры:
В зависимости от контекста диалога и целей сценария, можно изменить частоту и содержание фраз для создания более естественного взаимодействия. Например, в формальном сценарии можно использовать менее частые и более нейтральные фразы, а в неформальной беседе — более оживленные и частые подтверждения.
Бот не использует фразы подтверждения в случае полной тишины. Это предотвращает ощущение неестественного поведения или того, что бот «завис». Фразы подтверждения всегда зависят от распознанной речи или ее промежуточных результатов.
Функционал доступен в следующих блоках сценария:
Для более естественного и качественного диалога голосового бота с пользователем рекомендуется использовать предзаписанные фразы, а не синтез речи. Это связано с тем, что:
- синтезированная речь может быть громкой;
- синтез не сможет воспроизвести междометия и другие короткие эмоциональные реакции, такие как «угу», которые важны для поддержания беседы.
В результате синтезированные ответы могут звучать неестественно, поэтому предпочтительнее использовать заранее записанные фразы.
Активное слушание поддерживает работу с включенными перебиваниями, что делает бота еще более интерактивным и способным реагировать на изменения в диалоге в реальном времени.