Аватары от HeyGen делают диалоговые тренажеры с ИИ еще более реалистичными
Сейчас мы наблюдаем тенденцию на внедрение диалоговых тренажеров с искусственным интеллектом для обучения «разговорным навыкам» (в первую очередь это касается навыков продаж). Это связано с тем, что они позволяют моделировать живое общение с клиентами и сотрудниками, что делает процесс обучения более эффективным и интерактивным.
В этой статье подробно описывал наш опыт работы с подобными продуктами, их плюсы и минусы.
Как это работает:
- Продавец проговаривает (или пишет) то, что считает нужным
- ИИ ведет себя как настоящий покупатель и адекватно реагирует на все сказанное продавцом
- В конце ИИ дает обратную связь по всему диалогу
Как Аватары от HeyGen могут улушить продукт?
Наверняка многие слышали про сервис HeyGen (ну или как минимум видели продукт, сделанный в этом сервисе). HeyGen — это сервис, который позволяет создавать и использовать виртуальных аватаров.
Набираешь текст, выбираешь аватара (или создаешь собственного), и аватар озвучивает твой текст. Выглядит весьма реалистично.
В прошлом году компания выпустила API*, позволяющее генерировать аватаров в режиме реального времени. Иными словами, мы передаем в HeyGen текст, который хотим озвучить, а в ответ получаем видео с аватаром, который озвучивает этот текст. И добавляем видео в свой проект (вот тут можно почитать про работу API подробнее).
*API это интерфейс, через который одна программа может «общаться» с другой. Наш диалоговый тренажер отправляет в HeyGen текст, а в ответ получает видео с ИИ аватаром.
Получается, что мы можем общаться с ИИ, который отвечает нам как реальный человек, выглядит как реальный человек и звучит как реальный человек, что позволяет сделать диалоговые тренажеры еще более реалистичными.
Важно отметить, что HeyGen умеет только генерировать видео с аватаром, который проговаривает присланный нами текст. Языковой модели в нем нет. Следовательно, чтобы наш диалоговый тренажер работал, нам нужно использовать LLM (большую языковую модель).
Процесс выглядит следующим образом:
1. Мы отправляем слова пользователя и инструкции по их обработке в ИИ (это может быть языковая модель от OpenAI, Яндекс, Falcon, который работает на ваших серверах, либо любая другая LLM).
2. Получаем ответ от ИИ, но не показываем его сразу пользователю, а отправляем в HeyGen.
3. HeyGen присылает нам видео с ответом покупателя — вот его мы уже показываем пользователю.
Таким образом, у нас добавляется один дополнительный шаг с отправкой ответа от ИИ в HeyGen.
Конечно, качество потоковой генерации видео с аватаром несколько ниже, чем при обычной работе с сервисом, но, в любом случае, выглядит это очень интересно.
Что можно отметить из минусов использования этой технологии в обучении?
1. За генерацию аватаров, естественно, нужно платить.
2. Генерация видео с аватаром требует времени (пусть и небольшого), следовательно, наш «покупатель» будет отвечать с задержкой.
3. Мы отправляем слова, которые нужно проговорить, на сторонний ресурс. ИБ вашей компании может запретить подобный проект.
Как думаете, есть ли у этой технологии будущее в корпоративном обучении?
Какие преимущества и недостатки вы видите в этой технологии?
Кстати, я веду свой канал в Телеграм про разработку курсов. Рассказываю о своем опыте и простых решениях сложных задач. Присоединяйтесь.