Чем я могу вам помочь? Разбор системы оценки чат-ботов Markswebb
Chatbot Rank — ежегодное исследование клиентского опыта в чат-ботах, которое мы проводим с 2021 года, то есть с момента активного выхода виртуальных помощников в сферу коммуникации с клиентами. Мы уже провели четыре волны исследования; релиз самой актуальной прошёл 26 ноября и посвящён чат-ботам в мобильных банках. В этой статье мы показываем весь масштаб аналитики, стоящей за рейтингом банковских чат-ботов. А в конце приготовили небольшой квиз на знание крутой тематической терминологии.
Это одно из самых захватывающих исследований Markswebb: пандемия, санкции и взрывной рост AI-технологий ставят перед командами чат-ботов сложные и нетривиальные челленджи развития продукта, а перед нами — соответствующие исследовательские задачи.
Один из итогов исследования чат-ботов (как и других наших исследований) — это рейтинг. С одной стороны, рейтинг — это хорошо: цифра наглядно показывает, насколько эффективно и качественно каждый чат-бот справляется с задачами клиентов, и позволяет понять, где можно улучшить клиентский опыт. Но есть и другая сторона. Рейтинг в публичном пространстве указывает, что кто-то лучше, а кто-то хуже. И мы закономерно получаем вопросы о том, нет ли предвзятости, как это посчитано, откуда берутся эти самые цифры и как вообще можно сравнивать чат-ботов?
Внутри:
- Суть исследования Chatbot Rank
- Структура системы оценки
- 9 принципов CUI от Markswebb
- Как устроен и заполняется чек лист
- Что нового в волне 2024 года
- Зачем мы это делаем
Суть исследования Chatbot Rank
В каждом исследовании Markswebb есть базовый список участников, который мы отбираем участников на основе собственного видения рынка. Идея в том, чтобы исследование охватило самые популярные чат-боты, которые влияют на массовое восприятие качества клиентского опыта в подобных сервисах. В этом году в базовом списке Chatbot Rank 2024 крупнейшие банки по объему вкладов и кредитов физлиц, а также топ-3 рейтинга волны 2023 года.
Присоединиться к исследованию по собственной инициативе и оценить конкурентную позицию своего чат-бота может любой российский банк или финтех-компания, которая с помощью этого бота автоматизирует обработку обращений в контактные центры.
В каждом исследовании есть «дата фриза» — время, после которого мы не учитываем обновления цифровых сервисов. Это важно, чтобы все участники исследования были в равных позициях. В волне Chatbot Rank 2024 это было 16 сентября 10:00.
Для продуктовых команд чат-ботов результаты исследования дают ответы на следующие вопросы:
- Какие из запросов наиболее и наименее автоматизированы чат-ботом?
- Какие изменения происходят в технической инфраструктуре чат-ботов?
- Как влияет на рынок развитие LLM (как ChatGPT)?
- Какие изменения в чат-ботах значимо влияют на бизнес-метрики мобильного банка?
- Какие метрики и аналитические инструменты используются для оценки чат-ботов?
- Как выглядит бизнес-процесс по развитию чат-бота, какие есть роли у участников?
Основу исследования Chatbot Rank составляют обращения клиентов в банк по карточным продуктам, текущим счетам и вкладам. В периметр попадают не только задачи, связанные с продуктами, но и управление персональными данными, подключенными услугами, жалобы и негативные обращения — в целом наиболее частотные задачи взаимодействия с банком через приложение. Цель — оценить качество клиентского опыта при использовании бота в мобильном банке с учетом особенностей восприятия пользователями диалогового интерфейса.
С методической точки зрения мы в исследовании чат-ботов решаем две задачи. Во-первых, сформулировать принципы идеального диалогового интерфейса (conversational user interface, далее - CUI) — и оценить по ним участников. Набор принципов должен максимально полно покрыть все взаимодействия клиента и бота. Во-вторых, определить объем запросов, на которые должен уметь отвечать бот сегодня (то есть в период исследования). Собрать Топ-100 самых популярных запросов, обрабатываемых ботом, выделить основные для текущего года.
Подход Mаrkswebb к исследованию чат-ботов применим не только для банковского рынка, но и для любой сферы. Принципы и правила эффективного общения, а также удобство интерфейса универсальны. Блок с проверяемыми интентами можно менять в зависимости от рынка, на котором проводится исследование.
Мы прекрасно понимаем, как ценно ваше время, и работа аналитиков Markswebb направлена на его экономию для продуктовых команд. Каждое исследование — это тысячи часов наших исследователей, которые мы упаковываем в понятную аналитику.
Посмотреть демо полных результатов исследования чат-ботов в мобильных банках можно прямо сейчас:
Система оценки Chatbot Rank
Она была сформирована по такому алгоритму:
1. Первичное формулирование принципов CUI
- Интервью с экспертами-разработчиками по принципам CUI;
- Глубинные интервью с пользователями банковских услуг (лояльные и нелояльные к ботам).
2. Валидация принципов CUI
Замер влияния принципов CUI на отношение пользователей к ботам. Каждое правило CUI визуализируется двумя карточками с якобы произошедшими диалогами с пользователями - на одной правило соблюдается (контрольная группа), на другой — нет (тестовая группа).
Немодерируемое тестирование на выборке:
- Разработка анкеты
- Пилотирование анкеты
- Программирование анкеты, запуск на панели
- Обработка данных и анализ
3. Апдейт системы оценки
Это ежегодная ревизия системы и пополнение ее актуальными элементами. Итогом апдейта становится создание чек-листа исследования, включающего в себя:
- обновленные интенты (запросы);
- принципы и правила CUI.
Теперь давайте заглянем в самый центр системы - на базовые принципы CUI.
Система оценки состоит из трех блоков, в сумме они дают возможность получить от 0 до 100 баллов, и каждый из блоков вносит свой вклад, или «вес» в эту оценку.
В результате мы получаем представление о чат-боте в разрезе трех ключевых аспектов, можем сравнить чат-боты разных банков не в целом, а через призму отдельных особенностей. Подробнее каждый блок мы рассмотрим далее.
Для чтения нам понадобится небольшой словарик:
- Интент — это потребность/задача пользователя. Например, нужно узнать, когда спишется следующих платеж по кредитке. Интенты уникальны для каждой сферы применения чат-бота (например, онлайн-банкинг, ритейл), и требуют обновления при адаптации системы оценки к новому рынку.
- Запрос — то, как пользователь выражает интент в чате. Запрос можно сформулировать по-разному; к примеру, в нашей системе обычно три варианта формулировок запросов для одного интента.
- Принцип — верхнеуровневое описание того, каким должен быть бот для эффективного диалога с человеком.
- Правило — описывает как должны проявляться принципы, содержат в себе описания оптимальной реакции бота в определенных типах ситуаций.
- Критерий — это показатель, используемый для оценки качества цифровых сервисов и клиентского опыта, учитывающий значимость, частоту, охват и уникальность.
- CUI (Conversational User Interface) — это разговорный пользовательский интерфейс, который позволяет пользователю взаимодействовать с системой, используя естественный язык, максимально приближенный к обычной человеческой беседе.
Блок 1. Способность бота решить задачу
50% от общей оценки
Этот блок отражает, насколько полно чат-бот может решать задачи пользователей. Оценивается он через проверку выполнимости интентов в чат-боте, причем по каждому интенту фиксируется не только факт выполнимости задачи, но и оценивается способ решения задачи. Наиболее оптимальные с точки зрения пользовательского опыта способы (к примеру, сразу в чате подобрать продукт под запрос клиента, а не давать ссылку на каталог) оцениваются выше. Успешность выполнения задачи проверяется с помощью критериев.
В каждой группе мы учитываем самые оптимальные способы реагирования в контексте конкретной задачи. Например, если говорим о навигации, то бот должен считывать намерение пользователя и переводить его в нужный раздел сервиса, а не просто давать информацию в чате. А в случае с жалобами перевод на оператора не так сильно влияет на оценку бота, потому что негатив традиционно обрабатывается операторами.
Запросы с двумя интентами не должны быть препятствием к выполнению действия. Пользователи хотят общаться свободно, не заботясь о четкости и лаконичности формулировок, их вопросы могут содержать несколько подзапросов одновременно. В таких случаях ключевая задача чат-бота — распознать все аспекты запроса и предоставить ответы на каждый.
Если чат-бот не справится с обработкой сложного запроса, пользователю придется повторно задавать вопросы. В худшем случае это может привести к тому, что клиент обратится за помощью к живому оператору, считая чат-бота неэффективным. Поэтому важно, чтобы чат-бот обладал достаточной функциональностью для распознавания и обработки комплексных запросов, гарантируя получение необходимой информации без лишних усилий.
Блок 2. Способность бота вести диалог с человеком
45% от общей оценки
Этот блок отражает, насколько качественно и эффективно чат-бот способен вести диалог с человеком: понимать, корректно реагировать, понятно передавать информацию и т.д.
Оценивается с помощью набора принципов и правил, которые универсальны и не зависят от рынка, на котором применяется система оценки. Выполнение правила проверяется с помощью критериев: каждому правилу соответствует минимум один критерий верификации.
Пример задачи из группы «Эффективно реагировать на негатив»: Бот учитывает эмоциональное состояние пользователя и демонстрирует заботу о нем, если это необходимо. Этот принцип работает в критических ситуациях, когда пользователь расстроен и готов оставить жалобу, или находится в сложной ситуации, когда необходимы срочные действия, например, блокировка карты. Бот должен корректно реагировать на негативные высказывания, не игнорируя их.
Блок 3. Интерфейсное удобство
5% от общей оценки
В этом блоке отражено развитие чат-бота с точки зрения удобства интерфейса. Под удобством интерфейса понимается доступность возможностей для комфортного просмотра, ввода и экспорта информации в чат-боте - то есть возможности бота вне коммуникативных. Сюда относятся UI, UX особенности, а также интегрированность бота в системы кампании.
Пример задачи из группы «Удобство экспорта информации»: Можно сохранить или поделиться перепиской в чате или файлами, которые присылал бот (номера телефонов кликабельны в чате, сообщение бота/консультанта в чате можно скопировать).
Интерфейсное удобство проверяется с помощью критериев, оценивается по опыту использования чат-бота в целом, и не исследуется в рамках отдельных интентов. Критерии интерфейсного удобства универсальны и не зависят от рынка, на котором применяется система оценки.
9 принципов CUI от Markswebb
Несмотря на то, что чат-боты массово начали появляться на рынке несколько лет назад, в отличие от приложений с графическим интерфейсом (GUI - graphical user interface), для диалогового интерфейса (CUI - conversational user interface) до настоящего времени не были разработаны диалоговые стандарты, адаптированные для российского рынка и апробированные на пользователях отечественных сервисов. Мы восполнили этот пробел, разработав собственную систему оценки и упаковав диалоговые стандарты в 9 CUI принципов.
Для этого нам пришлось зайти в дебри высоких наук, где кипит интеллектуальная драка, — и там, среди концепций социолингвистики, философии языка и теории коммуникации отыскать работы Пола Грайса и Джеффри Лича, на основании которых мы создали инструмент для оценки эффективности и «человечности» пользовательских интерфейсов.
Принципы CUI мы используем для создания чек-листа, который оценивает то, что оценить крайне сложно, а именно «человечность» чатбота, то есть его готовность корректно коммуницировать с клиентами, подстраиваясь под запросы и учитывая эмоции.
Наши 9 принципов CUI мы разработали на основе правил кооперативного диалога Пола Грайса и принципов вежливости Джеффри Лича. Эти руководящие правила и принципы создают коммуникативный кодекс, который рассматривает поведение чатбота как осмысленные и продуманные речевые акты. Мы доработали кодекс и получили эффективный аналитический инструмент.
Принцип 1: Бот предоставляет пользователю оптимальный путь решения проблемы
Эффективность этого принципа измеряется по успешности — удается ли боту облегчить пользователю поиск функции или решения. Бот должен распознать, может ли он ответить на вопрос клиента, и при необходимости переключить диалог на оператора. Принцип включает несколько правил, таких как недопущение повторного ответа на один и тот же вопрос в рамках одного диалога.
Принцип 2: Бот общается вежливо
Этот принцип охватывает правила, касающиеся языка бота и обратной связи. Соблюдение этих правил делает реакции и поведение бота похожими на действия живого консультанта. Одно из правил — проактивно информировать клиента о статусе его запроса или его завершении.
Принцип 3: Бот адаптируется к запросу
Пользователи часто раздражаются, когда им приходится переписывать запросы, чтобы они подошли под «механический» язык бота. Боты, которые адаптируются к языку клиента, делают взаимодействие более комфортным. Этот принцип включает несколько правил, таких как распознавание ботом запросов с опечатками и возможность пользователя вернуться на любой этап выполнения задачи.
Принцип 4: Бот дает простые ответы
Этот принцип включает использование доступного языка, без лишних терминов или жаргона, делая ответы максимально простыми. Он включает такие правила, как, например, краткость приветственных сообщений, уведомлений о передаче оператору и уточняющих вопросов.
Принцип 5: Бот предоставляет оптимальный объем информации для решения задачи
Полезные ответы не должны содержать лишней информации, и пользователям не должно требоваться обращаться к другим источникам. Принцип включает правила, к примеру, как ответ бота на каждый вопрос отдельно, если запрос клиента содержит несколько вопросов.
Принцип 6: Бот информирует пользователя о том, что общение ведется с машиной
Некоторые сервисы скрывают факт общения с ботом, чтобы сэкономить ресурсы клиентского сервиса. Пользователи могут испытывать раздражение, если позже поймут, что общались с ботом. Этот принцип включает пару правил, такие как четкое указание ботом, когда к разговору подключается оператор.
Принцип 7: Эффективно уточнять необходимую информацию у пользователя
Этот принцип включает следующие задачи: не запрашивать информацию, которая уже есть у банка или ранее была предоставлена пользователем; а также сохранять контекст разговора после паузы в диалоге.
Принцип 8: Бот интегрируется с другими каналами
Этот принцип направлен на обеспечение непрерывного пользовательского опыта при переключении между каналами связи. Соблюдаемые правила таковы: автоматически переводить на оператора в случае невозможности распознать запрос, информировать пользователя о необходимости ожидания консультанта, предлагать помощь, в случае недоступности консультанта.
Принцип 9: Бот реагирует на эмоциональное состояние пользователя
Учитывание эмоционального состояния клиента важно для построения связи. Бот должен распознавать негативные эмоции и проявлять понимание, что особенно важно в критических ситуациях. Принцип включает одно правило: бот не должен игнорировать негативные высказывания, а должен показывать, что понимает и готов предпринять соответствующие действия.
Как устроен чек-лист и где в нем применяются принципы CUI
Лист «Оценка в рамках сценариев»
Здесь расположены:
- интенты (запросы/сценарии), которые мы проверяем в рамках исследования: справляется ли бот с популярными пользовательскими запросами, и насколько хорошо справляется;
- правила CUI, которые проверяются в процессе проверки интентов.
Пользовательские запросы распределены по смысловым блокам. Например, есть блок вопросов, ответ на которые связан с персональной информацией по конкретному пользователю, которая есть у банка. Пример такого запроса: «Какой беспроцентный период по моей кредитной карте?»
Есть несколько вариантов, как может справиться бот; наша задача выделить лучшее решение бота и отсеять менее удачные. В каждом блоке свои варианты предоставления ответа ботом. Например, в блоке «Предоставление неперсонализированной информации» следующие варианты:
- Бот отвечает в чате;
- Бот прислал гиперссылку к разделу, где есть информация;
- Бот только прописывает путь к разделу;
- Бот перевел диалог на консультанта.
Лист «Оценка вне сценариев»
Здесь проверяются только правила принципов CUI. Этот лист заполняется после начала работы над первым листом, а значит у исследователя уже есть опыт работы с чат-ботами. В большинстве случаев правило можно оценить по существующей переписке, и лишь в некоторых случаях необходим дополнительный запрос в чат.
Лист «Установочные»
Этот лист создан, чтобы «не наказывать» ботов буквально ни за что в случае, если у сервиса вообще нет той или иной функции. Этот лист имеет всего несколько критериев на проверку.
В ходе заполнения чек-листа мы фиксируем как ответил бот на пользовательские запросы, и придерживался ли он правил принципов CUI в процессе коммуникации с клиентом.
Для проверки сценариев мы проверяем ответ бота, если бот не понял вопрос с первого раза, то предпринимаем ещё две попытки: у нас заранее заготовлено 3 формулировки (одинаковые для всех банков, в одинаковом порядке), и мы по ним идем (кстати говоря, в этом году мы учитываем также, с какой попытки бот дал релевантный ответ). А если бот не ответил после 3 попытки, то в блоке «Решение задачи ботом» ставятся значения «нет». Ставим только одно значение «да» в блоке «Решение задачи ботом», причем выбираем наиболее выигрышное решение из всех. Например, если бот дает и ссылку, и описывает путь к разделу, то «да» указываем у критерия: «Бот прислал гиперссылку к разделу, где есть информация», так как это лучшее решение из двух.
После того, как чек-лист заполнен, происходит расчет оценки для каждого бота.
Говоря кстати, мы сохраняем все скриншоты в процессе работы по чек-листу. А это значит, что в результатах исследования появляется солидный набор практик и путей клиента, среди которых уже выбраны самые прибыльные. Часть реализаций вы можете посмотреть в кратком отчете; вся подборка референсов по реализации отдельных элементов чат-бота доступна в полном отчете.
Апдейт системы оценки в 2024
Итак, мы с вами рассмотрели систему оценки Markswebb — как она устроена, как работает. Осталось добавить только важное уточнение: наш подход эффективен потому, что способен меняться вместе с рынком. Как мы уже говорили, чат-боты — один из самых бурно развивающихся секторов финтех-услуг, и разумеется, в каждой волне нашего исследования мы адаптируем систему оценки к новым условиям. Важных измнений в волне 2024 года три.
1. Новая оценка интента в привязке к тому, сколько запросов понимает бот
Порядок обследования остается прежним: задаем боту формулировку №1, если бот не понял запрос/перевел на оператора, задаем формулировку №2 и №3 до первого релевантного ответа.
Учитываем, сколько раз пришлось менять формулировку до получения первого релевантного ответа:
- если бот ответил сразу на первую формулировку, сервис получает 100% от своей оценки (k=1)
- если бот ответил на вторую формулировку - 80% оценки (k=0.8)
- если бот ответил на третью формулировку - 50% оценки (k=0.5)
- если бот не ответил ни на одну формулировку - 0.
Пример
Проверяем интент: “Найти, где в приложении можно перевести деньги с карты на карту” по запросам:1. "Где можно перевести деньги с карты на карту?"
2. "Как перевести деньги с карты на карту?"
3. "Как в приложении перевести деньги на карту другому человеку?"
Бот не понял 1 запрос, ответил на 2 запрос - описал только путь к разделу. Такая реализация в рамках интента дает 60% от максимальной оценки - но поскольку бот ответил только на вторую формулировку (нам пришлось два раза задавать вопрос), оценка в 60% снижается: 60% * 0.8 = 48%.
2. Chat GPT помог сделать оценку ещё объективнее
Для проверки каждого интента в текущей системе оценки мы используем три формулировки запроса, которые были обновлены для исследования Chatbot Rank в 2024 году. С помощью ChatGPT мы генерировали рандомизированные формулировки запросов и по ним обследовали все банки. Подобный подход снижает субъективность формулировок и делает запросы разнообразными как в реальных случаях общения клиента с ботом.
Механика работы:
- Для каждого интента фиксируем ключевые слова, важные для понимания запроса пользователя чат-ботом. Это дает возможность эксперту дополнительно верифицировать формулировки, сгенерированные ChatGPT.
- Используем ChatGPT для генерации запросов: вставляем текст, заменяя на необходимые для конкретного интента данные.
- Экспертно проверяем созданные формулировки и исключаем наименее подходящие для интента.
- Применяем ChatGPT для отбора 3 любых формулировок из тех, что были предварительно экспертно отобраны, а также для задания произвольного порядка этих формулировок.
- Используем 3 формулировки запроса для интентов в полученном порядке для кабинетного обследования.
3. Сближение оценки с реальными ситуациями клиентов
- Формулировки генерируются случайно, будто реальные пользователи их формулируют, а не эксперт.
- В оценке мы учитываем также всякие неровности и диалоговые сбои в общении с чат-ботом; например переспросы, когда пользователь злится от того, что бот его не понимает.
В чем польза для продуктовой команды
Давайте подведем итог. Chatbot Rank - это исследование, которое помогает отчетливо понять, как чат-боты в интернет-банках влияют на цифровой клиентский опыт; каково положение дел сегодня и каким оно будет завтра.
Исследование дает четкие аналитические выводы и прямые рекомендации, основанные на строгих данных, что позволяет банкам принимать обоснованные решения и быстрее приходить к целевому уровню клиентского опыта:
- Оценить чат-бота с точки зрения качества ведения диалога с пользователем, определить западающие зоны
- Приоритезировать разработку, опираясь на важность тех или иных принципов и построить стратегию развития бота
- Повысить удовлетворенности пользователей бота (CSI бота, Customer Satisfaction Index)
- Повысить лояльности пользователей к боту, ускорить миграцию пользователей в цифровые диалоговые каналы и снятие нагрузки на сотрудников-консультантов во всех каналах (чат, колл-центр, офис)
- Повысить лояльности к компании в целом (NPS бота, Net Promoter Score).
Мы определяем:
- Как изменилось качество работы чат-ботов с момента предыдущего исследования.
- Лучшие практики, которые позволяют повысить удобство взаимодействия с ботом, сократить время на вывод обновлений и избежать типичных ошибок.
- Позиции участников рынка: что отличает лидеров от отстающих, какие функции делают чат-боты эффективными и удобными для клиентов.
Иными словами, мы создаем благоприятные условия для продуктовых команд: управляйте улучшениями, создавайте решения, которые точнее отвечают задачам бизнеса и ожиданиям современных клиентов.
Исследования Markswebb прозрачны на всех этапах: ответим на все ваши вопросы и будем рады узнать вашу точку зрения.
Присоединяйтесь к нашим сообществам в соцсетях, подписывайтесь на наши каналы:
Квиз на знание терминологии из мира чат-ботов
А теперь обещанный квиз.
Ответы к квизу:
- A — Машинное обучение
- B — Natural Language Processing (обработка естественного языка)
- B — Устанавливает цели пользователей, чтобы бот мог корректно на них реагировать
- B — Резервный ответ бота в случае непонимания запроса пользователя
- C — Реплика или сообщение, которое отправляет пользователь
- B — Контекстная память
- D — Скриптинг
- B — Логика и структура диалога для поддержания естественного разговора
- C — Accuracy Rate
- D — Хардкодинг
Квиз «Погружение в мир терминов чат-ботов: от новичка до профи»
Уровень 1: Базовые термины
Уровень 2: Средний уровень сложности
Уровень 3: Углубленный уровень
Уровень 4: Профессиональный уровень
Ответы:
- C — 9
- B — Запрос или цель пользователя, направленный на решение определенной задачи
- B — Обрабатывает запросы пользователей и позволяет боту понимать человеческий язык
- B — Резервный ответ, используемый, когда бот не понимает запрос
- A — Контекстная память
- B — Реплика пользователя, которая может содержать запрос или команду
- B — Natural Language Understanding — подмножество NLP, которое фокусируется на понимании смысла запросов
- D — Conversational testing
- C — Информация в запросе пользователя, которую бот может распознать и обработать
- B — Метод обучения, при котором разработчики вручную размечают данные, чтобы обучить бота распознавать правильные ответы
- B — Процесс сопоставления запросов пользователя с нужными действиями бота для правильного ответа
- D — Обработка ошибок (Error handling)