Как мы строим бизнес на искусственном интеллекте
И помогаем компаниям обрести свой голос.
Голос — это самый привычный способ взаимодействия между людьми, который теперь понимают и машины. Наша команда разговорных продуктов KODE занимается проектированием и дизайном чат-ботов, телефонных систем и виртуальных ассистентов.
За четыре года мы разработали разговорные продукты для Сбера, Тинькофф, HeadHunter, VK, Delivery Club и других крупных компаний, сделали собственный инструмент для VUI-дизайнеров Fabble и создали профессиональное сообщество.
Расскажем, как мы к этому пришли, но сначала разберёмся с теорией.
Что такое разговорный ИИ
Разговорный ИИ (Conversational AI) — один из вариантов искусственного интеллекта. Он может работать на множестве технологий и компонентов, но все они сводятся к способности системы понимать намерения пользователя из его речи (natural language understanding или NLU) и подбирать подходящий ответ или генерировать его самостоятельно.
Сегодня разговорный ИИ принимает формы продвинутых чат-ботов и виртуальных ассистентов, которые отвечают на часто задаваемые вопросы, решают задачи в пользовательских сервисах, оказывают психологическую поддержку и просто болтают.
Мы работаем с разговорными продуктами и в частности с VUI (Voice User Interfaces), развитие которых стало возможно благодаря объединению четырёх компонентов:
- машинного обучения,
- приложения для обмена сообщениями,
- распознавания голоса (automatic speech recognition или ASR)
- генерации естественной речи из текста (text-to-speech или TTS).
По отдельности они известны уже несколько десятилетий, но их сочетание полностью изменило прогресс разработки. Впервые люди познакомились с разговорным ИИ 11 лет назад, когда Apple презентовала Сири.
Современные продукты с разговорным ИИ можно разделить на несколько типов, и наша команда работает с каждым из них:
- Чат-боты — это, как правило, простые диалоговые системы, которые используют только письменную речь. Они наиболее близки к графическим интерфейсам. Текстовые чат-боты удобны, когда пользователь не хочет устанавливать приложение и регистрироваться в нём. Пример — бот техподдержки в Телеграме.
- Голосовые боты — сравнительно простые диалоговые системы, с которыми пользователь взаимодействует через входящие и исходящие звонки. Такие есть в колл-центрах банков, мобильных операторов, авиакомпаний.
- Голосовые ассистенты — сложные многофункциональные системы с множеством взаимосвязанных сценариев. Существуют в экранном формате или полностью в голосе. Могут быть широкого профиля и узкоспециализированные (банковские ассистенты). Из всех перечисленных это самый мощный инструмент построения бренда. Примеры — Сири, Алиса, Салют.
Как мы начали работать с разговорным ИИ
Изначально KODE была основана как компания мобильной разработки. Впоследствии профиль расширился и теперь включает также создание веб-сервисов, IoT и сложных бэкенд-систем. Команда не думала про разговорный ИИ, но только до одного момента.
Один из Android-разработчиков заинтересовался голосовыми технологиями. Он начал проектировать диалоговые интерфейсы в качестве pet-проекта и заметил, что нет ни одного удобного инструмента для этого. Идею создать такой инструмент он презентовал CEO компании — получил поддержку и инвестиции. Так в KODE появилась небольшая команда Conversational Products, состоящая из 5 человек. Ребята спроектировали первую версию Fabble — продукта, который существует до сих пор и успешен на международном рынке, но об этом чуть позже.
Компании, которые использовали Fabble, заинтересовались не только продуктом, но и нашей экспертизой в проектировании интерфейсов. Одними из первых были Тинькофф и HeadHunter. Когда SberDevices создал свою экосистему, мы были первыми создателями контента для платформы.
С ростом числа аутсорс-проектов росла и команда. Сначала она состояла из Android и frontend-разработчиков. Затем мы стали нанимать ребят под конкретные задачи — искали дизайнеров голосовых интерфейсов.
О конкретных задачах VUI-дизайнера, пирамиде скилов и сетапах команд мы писали в другой статье на vc.
Любому интерфейсу нужна аналитика, поэтому у нас появился внутренний отдел разговорных аналитиков. Они изучают пользовательские запросы, ищут способы, как на основе логов улучшить продукт.
Сейчас команда постоянно растёт. Наша экспертиза позволяет делать уже не отдельные навыки, а разрабатывать целых голосовых ассистентов: от первой концепции и проектирования UX до анализа логов и обучения NLU.
Какие проекты мы реализовали на аутсорсе
Сейчас в нашем портфеле — кейсы по разработке голосового дизайна, чат-ботов, проектированию навыков для ассистентов Маруси, Олега и Алексы.
Навыки для телефонного секретаря Олега — один из первых аутсорс-проектов команды разговорных интерфейсов.
Олег — это голосовой финансовый помощник, который живёт в мобильном приложении Тинькофф. Мы спроектировали макеты навыков для установки лимитов, заказа билетов в кино, покупки подарков, инвестиций и разработали диалог для первого запуска ассистента.
Навык Endel для Алексы. Endel создаёт персонализированный звуковой фон, помогает настроиться на любые занятия и легче с ними справляться. От нас требовалось сделать редизайн и упростить VUI, добавить возможность оплаты и связать основное приложение со скилом Алексы.
В результате рейтинг навыка вырос с 3,3 до 4 звёзд, а пользователи получили возможность оформлять подписку на Endel голосом.
HR чат-бот. HeadHunter обратился к нам за разработкой чат-бота, который предлагает вакансии кандидатам, проводит предварительный отбор и записывает на собеседования. Мы спроектировали логическую структуру сценариев, порядок повествования, основные и побочные ветки, протестировали бота на пользователях.
На базе этого проекта мы вывели стандарт создания HR-ботов и используем его, чтобы запускать подобные проекты в короткие сроки.
AR-приложение «Английский с Элом» для SkyEng. Это игра с элементами виртуальной и дополненной реальности для детей от 6 до 12 лет. Дебютное приложение SkyEng на платформе SberPortal.
По популярности навык входит в первую тройку игр на платформе для Kidsar — детского набора дополненной реальности. 25% пользователей регулярно возвращается в игру, а средняя длительность сессии составляет около 40 минут.
«Эра фараонов». Смартап для изучения истории Древнего Египта, гибрид офлайнового квеста с голосовым и графическим интерфейсом для всех типов устройств SberDevices.
Мы спроектировали общую механику игры и ключевые сценарии взаимодействия между 400+ игровыми карточками в каждой эпохе. Разработали механику персонализированной выдачи карточек пользователям в зависимости от ранее совершённых действий.
Игра адаптирована под совершенно разные типы экранов. В «Эре фараонов» можно отдавать команды голосом, управлять пультом (если играть со SberBox или SberBox Top) или тачем (в мобильном приложении и SberPortal).
По итогам запуска навыком воспользовались более 50 000 уникальных пользователей. Среди них около 7 000 продолжают регулярно играть в «Эру фараонов».
Навык «Purina Питомцы» для Маруси. Совместно с Mail.ru Group мы разработали систему для голосового ассистента, которую можно регулярно пополнять. Редакторы добавляют новый контент через панель администратора. Благодаря этому, навык активно поддерживается.
Это самые крупные и значимые из наших аутсорс-проектов. Но далеко не всё, над чем работает команда.
Развиваем собственный продукт
Мы помогаем клиентам в автоматизации бизнес-процессов. Для этого наша CP-команда создала Fabble — нативного помощника для дизайна голосовых инструментов с режимом совместной работы по концепции zero сode.
Fabble позволяет визуализировать общение между пользователем и приложением. Процесс строится при помощи блок-схем, где каждый узел — это шаг пользователя или интерфейса в диалоге. Инструмент сохраняет необходимые фразы и тестирует диалоги в интерактивном прототипе, который легко получить, нажав на кнопку. Разработчики смогут экспортировать проект в JSON-формате. Над одним сценарием можно работать командой и шерить драфт.
Инновация продукта заключается в визуальном проектировании диалога в виде блок-схемы. Это делает инструмент нативным и простым для восприятия. Нет никакого цифрового барьера, можно получить прототип без программирования и сразу же протестировать созданный интерфейс. Fabble разработан специально для широкой аудитории: для тех, кто не готов углубляться в технические нюансы.
Когда мы разработали Fabble, это был инновационный продукт. Сейчас на рынке уже появились и другие, но Fabble продолжают использовать дизайнеры из 69 стран мира, большая часть из США. Голосовые интерфейсы с помощью нашего инструмента проектируют 2000+ пользователей, в том числе компании Subway, Nuuk, Tucuvi, Talking To Me, Jetson.
На крупнейшем digital-конкурсе Восточной Европы Tagline Awards 2020–2021 Fabble.io получил две престижные награды: серебро как лучший продукт года среди агентств и бронзу за лучший инновационный сервис в номинации «Работаем из дома».
Растим профессиональное сообщество
Мы не просто проектируем различные системы в сфере разговорного ИИ, но и рассказываем, как именно это делаем.
Первый митап мы провели, когда в пандемию взлетел Клабхаус. Обсуждали очевидные и спорные тренды voice tech. К разговору присоединились продукт-оунеры и лиды из Mail.ru, Альфа-банка, SberDevices, Тинькофф и других крупных игроков рынка.
Тогда профессиональное сообщество обсуждало, как монетизировать голосовых помощников, и можно ли создать единую экосистему ассистентов. Как видим, спустя два года эти идеи так остались идеями.
На втором митапе, через год, мы вместе с экспертами из других компаний искали способы обеспечить хороший UX для разговорного продукта.
Преимущество митапов в том, что на них собирается самая заинтересованная аудитория. В России она не такая большая, как, например, в США, где голосовые технологии широко распространены. Русскоязычное профессиональное сообщество voice tech только развивается. Мы формируем его вокруг телеграм-канала Hey Voice. В нём рассказываем о новостях, которые кажутся нам важными, публикуем экспертные колонки и обучающие материалы.
Всю аудиторию телеграм-канала и митапов собираем на органическом трафике и за счёт взаимного пиара. Канал Hey Voice пока небольшой — на момент написания статьи 850 подписчиков. Но для узкоспециализированной сферы это хороший результат. Мы ставим себе амбициозную цель — объединить всё русскоязычное сообщество, интересующееся voice tech.
2021 год стал для нас ещё и годом, когда мы начали растить профессионалов. Осенью мы провели полноценную стажировку по VUI. За месяц стажёры изучили основы работы VUI-дизайнера: структуру голосового интерфейса, работу со сценариями, узнали, как мы проводим UX-тестирования и анализируем результаты.
В качестве дипломных работ стажёры создавали навыки для Алисы. По окончании два человека получили офферы и влились в команду KODE в качестве VUI-дизайнеров.
COO команды разговорных продуктов Юлия Мицкевич регулярно участвует в крупнейшем российском хакатоне по ИИ «Цифровой прорыв». Она выступает техническим экспертом кейсов и поддерживает молодые команды.
Изначально направление разговорных продуктов не должно было стать таким масштабным в компании. Наши цели были совсем другими: разработать один качественный продукт, актуальный для рынка. Но вместе с продуктом пришли и заказчики. Разработка разговорных продуктов превратилась в отдельное направление в KODE, которое меняет мир вокруг себя и приносит доход.