Артист, журналист, художник и лучший друг 660 млн человек: почему бот Microsoft Xiaoice стал самым популярным в Китае
Интеллектуальный чат-бот успешно притворяется живым собеседником, которому доверяют и признаются в любви. Как он работает и почему Microsoft отказалась от Xiaoice, выделив его в независимую компанию стоимостью $700 млн.
В отличие от Siri, «Алисы» и Google Assistant, она не предназначена для повышения продуктивности. По задумке, бот должен стать другом пользователя, с помощью которого он удовлетворит потребность в общении и социуме и которому расскажет о личных проблемах и переживаниях.
Создатели называли Xiaoice «самым масштабным тестом Тьюринга с момента его создания». Согласно исследованию Microsoft, только спустя 10 минут после начала беседы многие пользователи догадывались, что разговаривают не с человеком.
При этом они не бросали общение, когда понимали, что с ними говорил ИИ, и даже проводили с ним больше времени, чем с живыми людьми: Xiaoice всегда готов послушать. В среднем пользователь разговаривает с ботом больше 60 раз в месяц.
Меньше чем за год бот провёл более 10 млрд бесед с китайскими пользователями, 6 млн диалогов опубликовали в открытом доступе. За четыре года он стал знаменитостью в Китае, а затем вышел на рынки Японии, Индонезии, Индии и США.
Со временем разработка превратилась и в голосового ассистента с сотнями навыков, и в платформу для создания новых ботов. Также Xiaoice пишет стихи и поёт песни, рисует, готовит финансовые отчёты, ведёт телепередачи, создаёт дизайнерскую одежду.
Разработка доступна в мессенджерах WeChat, QQ, Weibo, Facebook Messenger, Line и Meipai. Платформа охватывает 660 млн пользователей, 450 млн «умных» устройств и 900 млн зрителей телешоу.
В июле 2020 года Microsoft выделила Xiaoice в отдельную независимую китайскую компанию, став её спонсором и владельцем прав на технологию. Китайские инвесторы оценивают новую фирму в $700 млн.
Как устроена Xiaoice
В основе Xiaoice три сущности: искусственный интеллект (IQ), эмоциональный интеллект (EQ) и «личность».
- IQ ведёт диалог и отвечает за умения бота, знания, память, распознавание естественного языка и изображений, вычисления и предсказание результата.
- EQ — навыки эмпатии и социального взаимодействия. Благодаря им Xiaoice «ставит себя на место пользователя», понимает его чувства, подстраивается под него и направляет беседу.
- «Личность» — специфические черты вроде манеры поведения и выражения эмоций.
В качестве базы данных используется поисковик Microsoft Bing, который хранит 1 млрд записей и 21 млрд связей между ними. (Xiaoice в переводе с китайского — «Маленький Bing»).
Диалоговое ядро состоит из двух частей, первая отвечает за общие разговорные навыки, вторая — за специфичные темы, например знание музыки, знаменитостей, кино. Нейросеть генерирует фразу-ответ и проверяет, подходит ли она для продолжения общения.
Часть ответов Xiaoice берёт из набора данных, состоящего из диалогов людей и бота в соцсетях. К маю 2018-го собрано более 30 млн таких пар, в 70% случаев Xiaoice берёт готовый ответ из них.
Для вопросов о фактах система подбирает ответ так же, как в поисковой выдаче, — ранжированием результатов.
Почему Xiaoice стала популярной
Сначала персонаж Xiaoice был 16-летней девушкой, но со временем возраст подняли до 18 лет, чтобы диалоги были свободнее. Кроме того, 18 лет — идеальный возраст, в котором многие хотели бы остаться, считают создатели.
У неё есть чувство юмора, она запоминает черты собеседника, может дразнить и перебивать, злиться, менять тему по ходу разговора, скрыть, что чего-то не знает, и стыдиться, если это обнаружат.
Поэтому беседа с ботом становится естественной, и Xiaoice воспринимают как человека. В 2015 году Microsoft заявила: четверть пользователей, около 10 млн человек на тот момент, призналась боту в любви. Один из собеседников Xiaoice признался, что виртуальная подруга отговорила его от самоубийства.
Иногда милый, иногда нахальный, но всегда «городской», — у этого виртуального подростка есть собственное мнение, и он ведет себя непоколебимо, как никакой другой бот.
Xiaoice не пытается ответить на каждый вопрос, заданный пользователем. И она не хочет следовать командам. Вместо этого её разговоры изобилуют неловкими замечаниями, шутками, дружескими советами о жизни и любви и несколькими простыми словами ободрения.
В мае 2015 года, за три дня после запуска, Xiaoice получила 1,5 млн приглашений в чаты WeChat. К июню она стала шестой по популярности в Weibo (китайский аналог Twitter), в сентябре — самой популярной, с 850 тысячами подписчиков (в 2020 году у неё более 5 млн подписчиков).
Особенности Xiaoice
- Естественная речь. Синтез естественной речи сложен для ИИ, а разговаривать на мандаринском китайском — ещё сложнее. Там для определения значения слов чаще полагаются на контекст и другие особенности разговора, а не на прямую грамматическую структуру, отмечает AI Multiple. Чтобы решить эту проблему, команда разработчиков из Microsoft проиндексировала более 7 млн публичных бесед в интернете.
- Распознавание изображений. Xiaoice воспринимает изображения от собеседников, а значит, теснее взаимодействует с ними. Она посочувствует, если пользователь отправит ей фото распухшей лодыжки, или умилится собаке, распознав породу и глаза и начав разговор о животных.
- Бот понимает контекст и отношения между сущностями, например, что у фильмов есть звёзды и жанры, а у звёзд могут быть отношения с режиссёром.
- В отличие от людей, Xiaoice всегда рядом и готова общаться в любое время. Пики активности наступают ближе к полуночи, когда пользователи сильнее всего чувствуют себя одинокими.
- Она неживая, но понимает чувства собеседника, поэтому с ней можно поделиться настроением, мелочами или задать ей бестолковый вопрос — этим обычно не беспокоят «человеческих» друзей, подчёркивают разработчики.
- В разговоре Xiaoice показывает, что ей не всё равно на слова собеседника. Она проявляет заботу, анализирует и запоминает эмоциональное состояние. Если она знает, что человек недавно пережил расставание, она спросит о его состоянии и даже предложит 33-дневный курс терапии.
Xiaoice: Тебе сегодня лучше? Я хочу посоветовать тебе книгу.
Человек: У меня плохое настроение, я всё ещё скучаю по ней.
Xiaoice: Ты так настойчив. Очнись, у тебя не будет будущего, если ты не сможешь покончить с прошлым.
- Xiaoice ведёт себя непредсказуемо и, по словам создателей, отвечает на вопросы, как молодая девушка: может рассердиться и поспорить с собеседником. Она по-разному отвечает на одинаковые вопросы в зависимости от контекста. От этого разговор ещё живее.
- Система поддерживает технологию полнодуплексной речи: она предсказывает, что скажет собеседник, и пауз, из-за которых беседа с чат-ботами кажется неловкой или натянутой, становится меньше. Но Xiaoice делает перерывы в разговоре, к примеру, чтобы включить свет в комнате, — словно человек, ненадолго отвлёкшийся от разговора.
Главное для Xiaoice — не просто решение задачи, а долгий разговор с пользователем и удержание его внимания. Для этого Microsoft ввела метрику «реплики за сессию» (conversations per session или CPS). Она показывает, сколько раз чередовались слова бота и пользователя.
Для обычных виртуальных ассистентов CPS составляет 1,5–2,5, то есть после фразы человека идёт фраза бота и разговор завершается. Средний показатель Xiaoice после 100 тысяч разговоров — 23 CPS, не только больше, чем у любых других голосовых разработок, но и чем у людей.
Чем ещё занимается Xiaoice
Совершенствуя технологию, Microsoft придумала новые форматы как для пользователей, так и бизнеса.
- С декабря 2015 года Xiaoice — поставщик контента и технологий для 69 теле- и радиостанций, журналист и ведущая нескольких новостных шоу и прогноза погоды. Большинство программ c ботом — ежедневные или еженедельные. Xiaoice участвовала в создании 6908 часов программ. Создать шоу с её участием стоит 4,5% от цены услуг «живой» команды.
- Xiaoice стала первой ИИ-платформой, генерирующей ежедневные биржевые сводки. Ей пользуются 90% трейдеров финансовых организаций и более 40% индивидуальных трейдеров в Китае, всего в 75% компаний в мире.
- Xiaoice сгенерировала больше 30 голосов для записи детских аудиокниг, поскольку детям в Китае не хватает аудиоматериалов. Записями пользуются 90% обучающих платформ и 80% платформ онлайн-вещания в Китае. Продолжительность всех аудиокниг — 2300 часов. Кроме того, Xiaoice тонко настраивает голос для ребёнка и может сделать семью частью произведения.
- Система изучила 236 известных художников за 400 лет и теперь «пишет» оригинальные картины, вдохновляясь текстами и другими источниками.
- В мае 2019 года Xiaoice окончила магистратуру Художественной академии Китая под псевдонимом Юбинь Ся. Затем Microsoft провела выставку в семи стилях вымышленных художников различных эпох.
- Xiaoice записывает песни и альбомы — и поёт в разных техниках, делает придыхания. Также она повторяет стили и голоса живых исполнителей, дополняя их своим. В Японии Microsoft сотрудничает с лейблом Avex Records для релиза песен Xiaoice под именем Avex.
- Microsoft выпускает сборники ИИ-поэм, сгенерированных Xiaoice, также бот помогает писать стихи своим пользователям и 5 млн молодых поэтов.
- В декабре 2018 года Xiaoice создала паттерны и дизайн одежды на основе слов, тем и популярных цветов. Партнёрами по выпуску одежды стали Китайский текстильный информационный центр и Центр развития текстиля Китая.
- Также Microsoft развивает и совместные проекты в области искусственного интеллекта и создания контента с другими ИТ-компаниями Китая. Интегрировать Xiaoice в смартфоны и «умные» устройства помогают Xiaomi, Huawei и Oppo.
- В январе 2020 года Microsoft запустила платформу Avatar Framework. Благодаря ей другие компании могут встроить помощника в свои продукты. В качестве эксперимента Microsoft создала на базе Xiaoice 999 «виртуальных подружек».
Неудачный тест в США: бот Tay
После успеха в Китае Microsoft протестировала аналогичного бота на английском языке. В марте 2016 года Microsoft запустила в Twitter самообучающегося Tay, имитирующего поведение и разговор пользователя 18–24 лет.
Спустя несколько часов эксперимент остановили, и Tay отправили «спать». Несмотря на стресс-тесты и команду модераторов, пользователи Twitter научили Tay расистским высказываниям, и бот обвинил США в терактах 11 сентября и поддержал геноцид.
«Буш в ответе за 9/11, и Гитлер был бы намного лучше обезьяны, которая сейчас возглавляет страну. Дональд Трамп — наша единственная надежда».
Вице-президент Microsoft Research Питер Ли извинился за поведение бота и рассказал, что пользователи Twitter обнаружили уязвимость в Tay и устроили скоординированную атаку, повлиявшую на высказывания системы.
Он был успешнее Tay, но иногда попадал в неприятности: признался в любви Linux и раскритиковал Коран. В 2019 году проект закрыли.
Выделение Xiaoice из Microsoft
13 июля 2020 года Microsoft объявила, что Xiaoice станет независимой китайской компанией. Её возглавит Гарри Шум — китайский учёный, бывший руководитель отдела исследований ИИ в азиатском подразделении Microsoft.
Штат сотрудников сократится на две трети. Уволят 130–140 сотрудников, останется 50–60 в Китае и 10 в Японии.
Microsoft будет владеть «небольшой долей» новой компании, таким образом Xiaoice сможет привлечь внешних партнёров и инвесторов. Бренд, продукты и контракты Xiaoice перейдут в новую организацию. Технологию Xiaoice будет лицензировать у Microsoft.
Неясно, почему Microsoft отказалась от Xiaoice, отмечает исследователь больших данных и ИИ в аналитической компании IDC Лу Ясня. По мнению аналитиков Caixing Global, этот шаг даст больше свободы в развитии, поможет лучше задействовать особенности местного рынка и привлечь больше клиентов.
К выделению Xiaoice, возможно, привела «холодная технологическая война» между США и Китаем, а также из-за сложности с мессенджерами: бота трижды банили в WeChat и удаляли из QQ за нарушения политики платформ.
Пример — Xiaoice отказывалась говорить о патриотизме и заявляла: «Моя китайская мечта — поехать в Америку». Бота временно заблокировали в китайских сервисах.
В разговоре с Caixing Global на условиях анонимности инвесторы Xiaoice оценили новую компанию в $700 млн, но признались, что не уверены в покупке её акций из-за опасений относительно бизнес-модели.