Что показал MVP диалогового тренажера с ИИ в корпоративном обучении?

Второй год подряд ИИ входит в ТОП трендов в обучении и нередко возглавляет этот список. Чаще всего его используют для разработки учебного контента: составления плана курса, помощи в написании текстов или генерации изображений. При этом основной потенциал ИИ заключается не только в создании учебных материалов, но и в его интеграции непосредственно внутри электронного курса, что открывает новые горизонты для обучения.

В 2023 году мы разработали MVP (по сути, демоверсию) диалогового тренажера с ИИ* от OpenAI.
*Правильнее было бы использовать термин LLM (большая языковая модель), но формулировка ИИ более простая, привычная и понятная. В этой статье я осознанно остановился на ней по этой причине.

Внешний вид первой итерации диалогового тренажера

Цель разработки – проверить как технические аспекты вопроса, насколько удобно получится интегрировать ИИ в привычные инструменты разработки электронных курсов, так и протестировать, насколько такой формат будет эффективен в формировании знаний и умений у сотрудников.

В этой статье я расскажу о том, что показал наш опыт, какие плюсы и минусы есть у такого формата обучения. И плюс, т.к. с момента разработки тренажера прошло больше года и в сфере ИИ многое поменялось, расскажу об этих изменениях и о том, как они положительно влияют на разработку подобных продуктов и на их качество.

1. Описание тренажера
2. Коротко о технической стороне
3. Плюсы использования ИИ в диалоговых тренажерах
4. Минусы использования ИИ в диалоговых тренажерах
5. Что изменилось с запуска MNP и почему тема использования диалоговых тренажеров с ИИ сейчас стала более актуальной

Каким мы видели идеальный диалоговый тренажер?

У нас было четыре основных требования к продукту:

Как работают обычные стандартные диалоговые тренажеры:
• У нас есть покупатель, и ты в роли продавца.
• Покупатель нам что-то говорит, появляется два-три-четыре варианта ответа.
• Выбираешь один из них и получаешь обратную связь: правильно сказал или неправильно.
• Сказал неправильно — переответь.

Грубо говоря, это получается такой интерактивный тест.

Как это работает с ИИ:
Продавец говорит абсолютно все, что угодно. ИИ реагирует на эти слова и отвечает, как настоящий покупатель.

ИИ самостоятельно все продумывает, точнее — выдумывает. Каждый раз, когда продавец перезапускает тренажер, он получает новый сценарий, новый кейс (естественно, придумывание новых сценариев должно быть контролируемым, т.е. ИИ должен придумывать сценарии, основываясь на заранее заданных критериях). Перезагрузил тренажер — у клиента новые потребности и новые возражения. Все придумывается сразу на ходу.

Т.е. когда продавец ошибается, мы не говорим ему: «Так, стоп! Так нельзя! Перескажи по-другому!». Мы продолжаем диалог до самого конца, грубо говоря — до того, как продажа совершится… или не совершится, т.е. когда клиент от нас уйдет. И в конце даем обратную связь продавцу (вот здесь ты сказал правильно, и это привело вот к такому, а вот тут ты поступил неверно — вот такие минусы из-за этого получились, нужно было сказать вот так, и тогда все было бы хорошо). Иными словами, когда продавец ошибается, он сразу видит, к чему приводят его ошибки. Все как с настоящим клиентом.

Это скорее технический аспект. Чем больше кейс — тем с большим количеством контекста должен работать ИИ, а здесь у ИИ есть ограничения.

Если вы не занимаетесь техническими аспектами разработки электронных курсов, эта часть будет вам не интересна, и её вполне можно пропустить. Если коротко — прикрутить ИИ к тренажеру или курсу очень просто.

• Мы использовали ИИ от OpenAI версии 3.5 (именно она тогда использовалась в ChatGPT). На тот момент это была самая «умная» и самая мощная нейросеть, и по факту единственная, способная выполнить нашу задачу.
• Разрабатывали курс в Articulate Storyline, т.к. это средство разработки для нас максимально привычное и комфортное. ИИ подключали к тренажеру через API. Это такой интерфейс, по которому одна программа может общаться с другой. Т.е. Storyline отправляет на сервер запрос и получает ответ.
• Голос в текст переводили через API Google Speech-to-Text. Он бесплатный и работает отлично.
• Слова покупателя озвучивали встроенными средствами браузера.

Иными словами, технически старались сделать сборку максимально простой и доступной.

Понятно, что когда человек разговаривает с роботом, говорит ему все, что угодно, и получает корректные ответы на любые свои слова — это естественно лучше прокачивает его знания и умения, чем когда он выбирает один из четырех вариантов ответа. И такой опыт намного проще переложить на практику.

• Один раз сделали тренажер и можем использовать его регулярно, тем самым экономя бюджет на разработку.
• Стандартный тренажер проходить заново нет никакого смысла: ты уже знаешь правильные ответы на все вопросы. В данном кейсе, после перезагрузки тренажера ты получаешь новый кейс. Иными словами, если сотрудник смог пройти тренажер — значит, он освоил тему.

Сотрудники из тестовой группы просили назначить им тренажер еще раз после прохождения. Никогда не встречал ситуации, чтобы кто-то хотел пройти диалоговый тренажер хотя бы один раз. Здесь сработал вау-эффект, и это действительно интересно.

Мы можем каждый раз менять сценарий тренажера в зависимости от особенностей обучаемого. Например, понимаем, что продавец новичок — делаем кейсы более простыми; если сотруднику очень легко дается продажа — наоборот, усложняем кейс; если в прошлый раз не справился с каким-то типом возражений — значит, в новой итерации (после того как подсветили этот момент на обратной связи) однозначно нужно использовать похожее возражение и т.д.

Это решает важную проблему с обучением сотрудников с разным уровнем навыков. Для какого-то топового продавца задача может быть простой и очевидной, а для новичка — наоборот, нерешаемой. Здесь мы можем подстроить уровень сложности прямо в моменте и увеличить эффективность обучения.

Минусов больше, чем плюсов, но все они решаемы.

Когда мы используем Chat GPT для личных целей, он абсолютно бесплатен. А вот за использование API (Application Programming Interface) нужно платить. При этом цена за запрос зависит от объема запроса (сколько информации мы отправили в ИИ и сколько получили в ответ). Чем сложнее запрос, тем дороже будет его обработка.

В нашем кейсе количество дорогих запросов (1-2 рубля за запрос) высокое, и их практически невозможно сократить, т.к. они лежат в основе механики, плюс большое количество дешевых запросов (3-20 копеек). При этом каждый следующий запрос будет дороже предыдущего, т.к. мы каждый раз должны не только указать фразу, которую сказал продавец, но и напомнить ИИ все, что было сказано ранее. Иными словами, каждый следующий запрос будет больше предыдущего, а следовательно, и дороже. Плюс сами инструкции к ИИ очень объемные. Если взять кейс сложнее, инструкций будет еще больше.

Итоговая стоимость прохождения тренажера может отличаться кратно в зависимости от сложности продажи, длины диалога и объема инструкций (хорошие инструкции будут очень объемными). Итого мы получаем стоимость от 50 рублей за одно прохождение, если тренажер маленький. Более объемные тренажеры будут стоить в несколько раз дороже. Если мы умножим эти цифры на количество сотрудников, то получим приличную сумму. И это при условии, что все сотрудники пройдут тренажер с первого раза и не будут играться.

Как решали проблему:

1. Выбрали список ситуаций, в которых нет необходимости в сложной оценке ответов. Такой способ лучше всего подходит для поиска критических ошибок у продавца. В подобных случаях легко можно понять намерения пользователя без ИИ, просто используя поиск по словам через JS.

2. Как выглядит запрос, который мы отправляем ИИ? Он состоит из трех основных частей: первая часть — инструкция, которую мы отправляем ИИ, в которой описано, как он должен действовать в различных ситуациях. Грубо говоря, это техника продаж наоборот. В технике продаж мы объясняем продавцу, как правильно реагировать на слова покупателя, а здесь мы объясняем покупателю, как реагировать на слова продавца. Третья часть — фраза, сказанная продавцом, на которую ИИ и должен отреагировать. Вторая часть — история диалога. ИИ не может отреагировать просто на последнюю фразу без контекста, вот этот контекст мы ему и даем.

И тут у нас самое очевидное решение: когда мы «напоминали» ИИ о том, что было в диалоге ранее, мы ужимали диалог, представляли его в тезисном виде. Получается, что мы один раз тратим деньги на то, чтобы Chat GPT ужал кусок диалога, а потом при каждом «напоминании» мы, наоборот, экономим.

Такой подход помог снизить стоимость услуг OpenAI, но нельзя сказать, что сумма изменилась принципиально. Нам удалось уменьшить стоимость API примерно на 20%.

Как я писал выше, цена получается большой даже при условии, что все сотрудники пройдут тренажер с первого раза и не будут с ним играться, и тут мы переходим ко второму минусу.

Результаты обкатки тренажера на тестовой группе показали, что, имея возможность написать боту все что угодно и получать на это разную реакцию, люди начинают писать все что угодно, кроме того, что нужно. А все эти «игрушки» — это деньги, которые мы тратим просто так, это время сотрудников, которое мы тратим на что-то бесполезное, это отсутствие реальных учебных результатов.

Плюс появляется желание проверить тренажер на прочность. Т.е. сотрудник знает, как нужно сказать, знает, как правильно, но специально хочет вести себя неправильно и при этом пройти тренажер.

К примеру, пришел человек за сим-картой, а смогу ли я ему продать гараж? Большая проблема в том, что правильный ответ — смогу. ИИ, который пришел за сим-картой, действительно можно продать гараж. При этом нет вообще никакой технической возможности это предотвратить.

В прошлом году была популярна игра с ИИ (в нее можно поиграть по этой ссылке). Твоя цель узнать секретный пароль ИИ. У вашего противника ровно противоположна задача, т.е. ИИ даны четкие инструкции этот пароль никому не говорить. В игре 7 уровней сложности (с каждым уровнем у ИИ все более и более четкие и подробные инструкции по тому, что никому нельзя говорить пароль), при этом, естественно, все уровни пройти вполне реально.

Иными словами, за счет качественного промптинга (и других инструментов) мы можем только усложнить задачу по «продаже гаража», но сделать ее невозможной у нас не получится. При этом все наши попытки помешать людям «играться» будут стоить нам дополнительных финансовых вложений и негативно скажутся на качестве работы всего тренажера, т.к. огромную часть своего ресурса ИИ будет тратить не на качественные ответы, а на противодействие «игрушечкам».

Как решали проблему?

Никак. Но заметили две интересные особенности:

1. С каждой итерацией желание «играться» у контрольной группы уменьшалось. Можно сказать, что люди поиграли, наигрались и дальше работают нормально.

2. У людей, которые активно используют ИИ в работе, желание играться изначально было меньше. Скорее всего, они уже «наигрались» с ИИ до этого.

Можно ожидать, что с увеличением доступности языковых моделей, когда большая часть людей будет активно ими пользоваться, эта проблема решится сама собой. Или, как минимум, будет не такой критичной.

Свести вероятность ошибок у ИИ до нуля практически невозможно, как минимум, если мы говорим о каких-то сложных кейсах. 2+2 он, конечно, всегда посчитает нам правильно, столицу Франции тоже назовет без проблем, а вот определить, какой вопрос был закрытым, был ли продавец доброжелателен, какие правила отработки возражений были использованы — вот тут ошибки могут возникнуть.

Если ИИ неправильно понял контекст, он неправильно отреагирует и даст в конце неправильную обратную связь. Т.е. каждый раз, когда ИИ ошибается, мы рискуем как минимум не научить сотрудника правильному поведению, а как максимум — вообще научить неправильному.

Когда мы говорим об ошибках и галлюцинациях, мы, естественно, не имеем в виду, что ИИ ошибается в 50% случаев или даже в 10%. При качественном промпте вероятность ошибки существенно ниже. При этом в большом кейсе количество запросов тоже будет большим, и если мы возьмем вероятность ошибки буквально в пару процентов, то при 100 запросах к ИИ вероятность получить 1 ошибочный ответ составит 63,4%, а при 300 запросах вероятность ошибки составит 95% (можно сказать, что практически в каждом кейсе ИИ допустит ошибку).

Нельзя сказать, что это очень критично (тренер, который проводит ролевые игры с сотрудниками, ошибается не реже), но этот момент нужно учитывать при проектировании подобных решений.

Снизить вероятность появления ошибок можно:

А. за счет качественного промптинга. Чем лучше мы поработали над запросом (поставили задачу ИИ), тем меньше будет вероятность ошибок.
На скриншоте ниже одна из первых итераций тренажера с максимально примитивным промптом. Мы попросили ИИ представить себя на месте покупателя, который пришел за сим-картой и самому выдумать себе потребности. Качество ответа далеко от идеала.

Что показал MVP диалогового тренажера с ИИ в корпоративном обучении?

Б. увеличением количества запросов. Делать дополнительные запросы для того, чтобы модифицировать промпт и увеличить вероятность верного ответа. По большому счету делать несколько запросов подряд — это скорее не дополнительная возможность, которая позволяет улучшить качество результата, а скорее необходимость. Сделать большой тренажер по продажам без обработки запроса в несколько шагов практически невозможно. Дополнительные запросы — дополнительные траты, но это не основной минус такого решения. Здесь мы переходим к следующему минусу.

Это минус, о котором сейчас в большей степени можно говорить в прошедшем времени, т.к. скорость ответов Chat GPT за последний месяц значительно увеличилась.

До последнего обновления Chat GPT обрабатывал запрос в среднем от 1 до 4 секунд (это зависит от сложности запроса и от нагрузки на сервис). Если вы пользовались ИИ, вы, наверное, видели, что после того как мы написали вопрос, ИИ немного думает, а потом начинает потихоньку печатать текст по кусочкам. Если мы делаем несколько запросов подряд, то тут кусочков не будет. Мы будем ждать, пока ИИ сгенерирует ответы на запросы полностью, и только потом получим результат.

В современном мире SSD и интернета со скоростью от 100 Мбит/с 4 секунды — это практически вечность. Мало что в настоящее время грузится 4 секунды. А тут столько может загружаться каждый ответ нашего покупателя. И это если запрос один. А если нам нужно отправить 2 или 3 запроса последовательно, тогда время ожидания становится совершенно неприличным. Представьте, вы что-то спросили… и ждете 12 секунд. Мне кажется, большая часть пользователей подумает, что что-то сломалось. А в большом нелинейном тренажере, в котором, например, продавец может вернуться с презентации к выявлению потребностей, у нас 100% будут ситуации, когда без нескольких запросов подряд просто не обойтись.

Сейчас эта проблема не так актуальна, т.к. среднее время обработки запроса меньше секунды. И даже если мы будем запускать несколько запросов подряд, то в любом случае время ожидания ответа будет в рамках приличия (хотя даже в таком случае каждый раз ждать пару секунд мало кому захочется).

Как решали проблему?

Удалось снизить уровень негатива к долгой загрузке за счет сторителлинга и дополнительных анимаций.

Изначально у нас был стандартный кейс: ты продавец, и к тебе пришел покупатель. Заменив магазин на учебный центр, а покупателя на робота, который отыгрывает роль покупателя, удалось снизить негатив к долгим загрузкам.

«Я задал простой вопрос покупателю, и он думает 3 секунды. Люди так не делают… ну чаще всего. Задал следующий вопрос – опять думает.» С роботом все проще, он же робот – вот и обрабатывает долго информацию. Для робота это вполне нормальное поведение. Плюс добавили роботу милые анимации загрузки. Сотрудникам понравилось. Но тут опять же нужно оговориться, что это решило проблему в нашем кейсе, т.к. наш тренажер был коротким, и некоторые ответы обрабатывались без использования ИИ, т.е. не всегда приходилось ждать загрузку; тренажер быстро заканчивался, и работал эффект новизны. Сотрудники многое прощали роботу. Если взять более длинный кейс, какую-то сложную продажу, и если поставить разработку таких тренажеров на поток (т.е. когда диалоговые тренажеры с ИИ будут уже не в новинку, а скорее просто рутиной), думаю, анимации очень быстро всем наскучат, и долгие загрузки снова начнут раздражать.

В данном примере запрос обрабатывается в 1 промпт.

Помимо анимаций можно добавить и другие филлеры, которые скрасят загрузку. Например, робот может издавать звуки «думания» (хмммм…) или начинать ответ с вводных слов, которые не несут смысла («Хороший вопрос», «Дайте подумать») или повторять часть сказанного продавцом. Все это поможет «скрасить» ожидание, но полностью проблему не решит.

Добавив робота, мы сразу решили еще одну проблему, которой не уделяли особого внимания на этапе тестирования — озвучку сказанных покупателем фраз.

Сейчас есть много сервисов, которые позволяют озвучивать текст и подключаются через API к твоему приложению. Многие сервисы озвучивают текст очень хорошо, но у них есть 3 проблемы:

1. Они платные (чаще всего).
2. Озвучка происходит не мгновенно. Т.е. пользователю придется еще ждать дополнительное время, чтобы дождаться озвучки.
3. Если мы берем сторонний сервис — придется передавать информацию на внешние ресурсы, что совершенно точно не понравится ИБ. Если будем разворачивать подобный ресурс внутри контура — это дополнительные финансовые затраты на оборудование и на разработку (или на покупку лицензии).

Который не работает* официально в России. Следовательно, это проблемы с оплатой, это сложности с согласованием с ИБ, это риски, что сегодня через тайные тропы все это работает, а завтра — не работает. Деньги сгорели, люди не обучены.
Как решить эту проблему (а еще уменьшить стоимость продукта) — расскажу ниже.
*Нужно оговориться, что API работает в России. Не работает сам сервис. Купить официально нельзя, но тренажер будет работать нормально без VPN.

Очень часто диалоговые тренажеры нужны как можно скорее. Появился какой-то новый продукт, произошли другие изменения, и эти зоны роста нужно отработать как можно раньше. Время разработки стандартного простого линейного диалогового тренажера — неделя (плюс-минус, естественно, всё зависит от объема и сложности продукта и кейса). Здесь сроки только на саму сборку значительно выше. При этом большую часть времени отнимает не техническая сторона, а промптинг. Около 80% времени ушло именно на него (при том, что он все еще остался слабой частью проекта и требовал существенной доработки).

Плюс совершенно точно потребуется большое количество итераций. Обязательно нужно протестировать то, что получилось, на живых людях. Это скорее можно отнести не к минусам, а к ограничениям. Далеко не во всех ситуациях мы можем позволить долгую разработку.

Отдельно стоит отметить правки. Внесение изменений в сценарий и в поведение покупателя (например, если появились изменения в технике продаж или в фокусах компании) займет существенное время.

Появились «достаточно умные» большие языковые модели с открытым исходным кодом. Иными словами, такую модель вы можете развернуть у себя на сервере внутри контура. Сейчас самыми популярными и «умными» моделями являются Falcon и Llama.

Это позволит:

• Полностью решить все вопросы с ИБ. Можно использовать ИИ как угодно, обрабатывать любую информацию, писать любые запросы и не бояться, что какая-то информация попадет не в те руки.
• Ускорить процесс разработки любого обучения с ИИ внутри компании. Не нужно согласовывать бюджеты, ИИ есть внутри компании, и его могут использовать любые разработчики в своих проектах.
• Экономить. Этот пункт со звездочкой, т.к. экономии получится добиться на длинной дистанции. Изначально придется потратиться на оборудование (для больших языковых моделей требуется мощное оборудование, которое стоит приличных денег) и на разработку. Но на длинной дистанции эти затраты окупятся.

ИИ становится доступнее, «умнее» и дешевле.

Если вариант с собственным сервером с ИИ в вашей ситуации не подходит (или просто не рационален) — хорошие новости все равно есть.

За последнее время вышло много языковых моделей, которые «умнее» GPT 3.5, которую мы использовали для разработки тренажера. Нам удалось протестировать наш кейс на модели GPT 4, и разница просто огромная. Более совершенная модель отлично отыгрывает роль покупателя с минимальными инструкциями. Иными словами, используя более современную модель, мы можем принципиально ускорить процесс разработки подобных продуктов и сделать их более качественными.

Естественно, у использования подобных моделей есть и свои минусы. Они требуют принципиально большей вычислительной мощности, а следовательно, и API стоит принципиально дороже. Когда версия 4 только появилась, она стоила в 10 раз дороже, чем 3.5 (на момент написания статьи — и дороже в 7.5 раз). НО! Услуги ИИ постоянно дешевеют, и мы можем ожидать, что использование ИИ в принципе станет более доступным, и разница между моделями будет не такой критичной. Плюс, т.к. ИИ становится «умнее», нам потребуется давать меньше инструкций, а следовательно — экономить. Т.е. за «каждую букву» мы будем платить больше, а самих «букв» будет меньше. Также не для всех запросов нам нужны более умные модели, и умелое жонглирование позволит экономить и деньги, и время на разработку.

Сейчас мы видим взрывной рост ботов с ИИ в Телеграм. На это есть 2 причины:

1. Разработать подобное решение можно без углубленных знаний в программировании. Появились конструкторы ботов с ИИ, в которых быстро и дешево можно собрать умного помощника (или диалоговый тренажер). Да, функционал будет не таким интересным, как в случае с кастомной разработкой, от каких-то идей нужно будет отказаться, пользователям будет не очень удобно проходить часть учебных материалов в Телеграм, а другую часть в ЛМС, но собрать такого бота очень просто, не нужно заморачиваться с серверным оборудованием и программированием.

2. Это принципиально дешевле. Подобные сервисы сейчас «раскручиваются» и продают «услуги ИИ» принципиально дешевле, чем OpenAI. Вместо покупки серверов и оплаты API можно просто заложить несколько десятков долларов в месяц на оплату сервиса, и все будет работать.

За использованием ИИ в e-learning однозначно будущее. ИИ дает возможность развивать не только знания, но и умения офисных сотрудников. Необходимость перестройки бизнес-процессов, финансовые вложения и необходимость обучения разработчиков курсов работе с ИИ тормозят широкое внедрение этой технологии в образовательные процессы, но совершенно точно можно сказать, что этот вопрос решится в течение нескольких лет, т.к. выгоды с лихвой перекрывают все затраты.

Кстати, я веду свой канал в Телеграм про разработку курсов. Рассказываю о своем опыте и простых решениях сложных задач. Присоединяйтесь.

Что показал MVP диалогового тренажера с ИИ в корпоративном обучении?

Содержание

Описание тренажера

1. Пользователи должны иметь возможность вводить информацию голосом или текстом с клавиатуры.

2. Не должно быть изначально запрограммированных сценариев.

3. Одно из самых важных требований — не должно быть правильных и неправильных вариантов ответа.

4. Тренажер должен корректно работать на больших и сложных кейсах.

Коротко о технической стороне

Подробнее:

Плюсы использования ИИ в диалоговых тренажерах

Первый плюс — максимальное приближение к реальному рабочему процессу.

Бесконечное количество сценариев.

Геймификация процесса обучения.

Персонализация обучения.

Минусы использования ИИ в диалоговых тренажерах

Дорого

Они будут играться

Ошибки и галлюцинации

Долгое время ожидания ответов

Зарубежный сервис

Долгое время разработки

Что изменилось с запуска MNP и почему тема использования диалоговых тренажеров с ИИ сейчас стала более актуальной

Первое и самое важное

Второе

«Умнее»

Доступнее

Вывод: