Что «под капотом» диалога с ботом?

По статистике от 37% до 86% россиян в телефонном разговоре пытаются поскорее «пройти робота» и услышать желанное «Соединяю с оператором». Хотя, если нужно узнать статус заявки или наличие товара, общение с автоматическим помощником даже удобнее – он быстро и без ошибок ответит на вопросы, поскольку получает сведения напрямую из базы данных. Тем не менее, сухой информации для пользователей недостаточно, все хотят, чтобы разговор был и полезен, и приятен. Можно ли научить бота такому?

В основе архитектуры голосового робота лежат методы понимания естественного языка (NLU, или Natural Language Understanding). Эта технология была изначально создана английской компанией OpenAI и с тех пор совершенствуется многими ведущими разработчиками.

Например, собственная технология компании TWIN позволяет с высокой точностью (более 96%) распознавать намерения абонента, выраженные самыми разными фразами. Намерение – это ключевое понятие в распознавании речи, по сути, это смысл запроса, то, чего собеседник хочет добиться или получить в разговоре.

К примеру:«Хочу узнать баланс», «сколько у меня там на счету?», «сколько денег на моём телефоне?» – всё это примеры по-разному сформулированного, но одного и того же намерения.

Но всякая технология требует человеческого контроля – и потому качество разговоров проверяется на фокус-группах, отобранных с учетом обсуждаемой тематики. В них входят как разработчики голосовых продуктов, так и представители заказчика.

Основная технология работы диалогового бота – сценарии. Это набор правил, которым следует бот, чтобы привести канву разговора к желаемому для клиента итогу – получению информации, оформлению заказа и т.д.

Для управления логикой диалога разработчики сценариев используют различные структуры:

Линейная структура далека от подобия разговору. Она используется в только однозначных ситуациях, когда человек хочет узнать баланс на своем счете или проверить статус заказа. По сути это пара «запрос-ответ» или прямая последовательность таких пар.
Кольцевая структура. Такой формат знаком нам по обычному голосовому меню. Здесь можно добавить разные блоки и даже управлять интонациями. И так возникает иллюзия хоть и короткого, но настоящего разговора.
Дерево. Разветвляющаяся структура, которую удобно использовать при большом количестве уточняющих вопросов. Например, так может выглядеть оформление заказа в интернет-магазине. Хотя дерево может быть очень разветвлённым, но каждый конкретный путь по нему всегда линеен.
Граф. Наиболее сложная и наиболее гибкая структура. Это узлы и связи между ними. Переход по связям выполняется при выполнении тех или иных заданных правил. Граф позволяет откатиться назад к любому месту разговора – например, когда он не привёл к результату, зашёл в тупик или собеседник изменил первоначальное намерение. Графы позволяют моделировать самые сложные логики диалога, предусмотреть различные варианты его хода при разных сценариях поведения абонента. В результате – максимальное приближение к подобию полноценного разговора.

Чаще всего классический коммерческий сценарий содержит последовательность таких этапов:

Вежливое приветствие и идентификация абонента
Ответы на вопросы
Уточняющие вопросы
Контекстные предложения
Мотивация сделать заказ именно сейчас: скидки, лимитированная коллекция, ограниченное количество — любая причина, по которой лучше не откладывать покупку.
Дополнительная помощь
Оценка качества диалога

Бывает, что человек звонит, потому что его не устраивает ассортимент, цены или условия. Такие коммуникации не ведут к продажам или продолжению сотрудничества, но они не менее полезные. Хотя даже тут система может учесть претензии клиента и на их основе подобрать наилучшее решение.

Важно:
Робот должен не должен общаться механически. Даже очень сложные сценарии можно структурировать так, чтобы обмен репликами превращался в конструктивный диалог.

Если сценарий построен правильно, позвонившему покажется, что он поговорил с сообразительным менеджером — получил исчерпывающие ответы на вопросы и не потратил лишнего времени.

Чтобы преодолеть барьер – робость, страх или неприязнь звонящего к разговору с роботом – активно применяются технологии персонификации ботов. Совершенствуется синтез речи – в ней звучат человеческие интонации. Наиболее продвинутые боты – такие как твины, например – учатся распознавать эмоциональное состояние собеседника и подстраиваться под него. Кстати, такая подстройка может состоять не только из выбора лексикона, но и включать изменение тона разговора и даже выбор других логических веток сценария.

Голосовым и чат-ботам создают виртуальную личность – со своим именем, иногда даже внешностью и чертами характера (хрестоматийный пример – Алиса от Яндекса). В самом деле, неудобно общаться с тем, к кому даже не можешь обратиться по имени.

Пример из жизни:
Архитекторы Twin создали ассистента для банка УРАЛСИБ – Оксану Соловьеву. У нее есть свой внешний образ (аватар) и узнаваемый голос. Автоматическая ассистентка принесла пользу для бизнеса УРАЛСИБа: время на обзвон клиентов сократилось в 2-3 раза, а расходы компании на каждый звонок сократились почти на треть.

Уже сегодня некоторые системы обслуживания способны узнать человека по голосу. Такие решения используют крупнейшие российские банки и госорганы. И даже применяют их для идентификации собеседника – как известно, «голосовой слепок» не менее индивидуален, чем отпечатки пальцев или радужная оболочка глаз.

При активном развитии самообучающихся нейросетей и синтеза речи общение с клиентом можно максимально персонализировать — использовать индивидуальные речевые обороты, находить и запоминать интересующие темы диалога, подбирать тембр голоса и интонации. Разумеется, персонализированными должны быть и предложения клиенту.

Пример из жизни:
Shop&Show – известный в России и Европе телемагазин нового поколения. В его колл-центр ежемесячно поступает более 5 млн звонков. После внедрения твина его работу 92-95% звонков стали завершаться успешным результатом. Один из использованных приёмов – после определения номера звонящего твин за 0,001 секунды получает данные из базы клиентов компании и ведёт дальнейший диалог уже на основе ранее накопленной информации о собеседнике. А объединение голоса диктора и синтеза речи создало иллюзию общения с живым оператором. Это важно, ведь 80% клиентов телемагазина – пожилые люди.

#адаптивное_обслуживание #банкинг #финансы #онлайн_ритейл #персонификация #распознавание_речи #синтез_речи #твин #твин_боты

Что «под капотом» диалога с ботом?

Как понять собеседника?

Как управлять логикой диалога?

Почти как человек

Завтрашний день ботов