Аватары от HeyGen делают диалоговые тренажеры с ИИ еще более реалистичными

Сейчас мы наблюдаем тенденцию на внедрение диалоговых тренажеров с искусственным интеллектом для обучения «разговорным навыкам» (в первую очередь это касается навыков продаж). Это связано с тем, что они позволяют моделировать живое общение с клиентами и сотрудниками, что делает процесс обучения более эффективным и интерактивным.

В этой статье подробно описывал наш опыт работы с подобными продуктами, их плюсы и минусы.

Как это работает:
- Продавец проговаривает (или пишет) то, что считает нужным
- ИИ ведет себя как настоящий покупатель и адекватно реагирует на все сказанное продавцом
- В конце ИИ дает обратную связь по всему диалогу

Пример выявления потребностей (тренажер долго думает, из-за того, что продукт разрабатывали 2 года назад, тогда ИИ работал медленно)

Наверняка многие слышали про сервис HeyGen (ну или как минимум видели продукт, сделанный в этом сервисе). HeyGen — это сервис, который позволяет создавать и использовать виртуальных аватаров.

Набираешь текст, выбираешь аватара (или создаешь собственного), и аватар озвучивает твой текст. Выглядит весьма реалистично.

Пример видео с ИИ аватаром

В прошлом году компания выпустила API*, позволяющее генерировать аватаров в режиме реального времени. Иными словами, мы передаем в HeyGen текст, который хотим озвучить, а в ответ получаем видео с аватаром, который озвучивает этот текст. И добавляем видео в свой проект (вот тут можно почитать про работу API подробнее).
*API это интерфейс, через который одна программа может «общаться» с другой. Наш диалоговый тренажер отправляет в HeyGen текст, а в ответ получает видео с ИИ аватаром.

Получается, что мы можем общаться с ИИ, который отвечает нам как реальный человек, выглядит как реальный человек и звучит как реальный человек, что позволяет сделать диалоговые тренажеры еще более реалистичными.

Пример работы аватара

Важно отметить, что HeyGen умеет только генерировать видео с аватаром, который проговаривает присланный нами текст. Языковой модели в нем нет. Следовательно, чтобы наш диалоговый тренажер работал, нам нужно использовать LLM (большую языковую модель).

Процесс выглядит следующим образом:

1. Мы отправляем слова пользователя и инструкции по их обработке в ИИ (это может быть языковая модель от OpenAI, Яндекс, Falcon, который работает на ваших серверах, либо любая другая LLM).
2. Получаем ответ от ИИ, но не показываем его сразу пользователю, а отправляем в HeyGen.
3. HeyGen присылает нам видео с ответом покупателя — вот его мы уже показываем пользователю.

Таким образом, у нас добавляется один дополнительный шаг с отправкой ответа от ИИ в HeyGen.

Конечно, качество потоковой генерации видео с аватаром несколько ниже, чем при обычной работе с сервисом, но, в любом случае, выглядит это очень интересно.

Что можно отметить из минусов использования этой технологии в обучении?

1. За генерацию аватаров, естественно, нужно платить.
2. Генерация видео с аватаром требует времени (пусть и небольшого), следовательно, наш «покупатель» будет отвечать с задержкой.
3. Мы отправляем слова, которые нужно проговорить, на сторонний ресурс. ИБ вашей компании может запретить подобный проект.

Как думаете, есть ли у этой технологии будущее в корпоративном обучении?

Какие преимущества и недостатки вы видите в этой технологии?

Кстати, я веду свой канал в Телеграм про разработку курсов. Рассказываю о своем опыте и простых решениях сложных задач. Присоединяйтесь.

Аватары от HeyGen делают диалоговые тренажеры с ИИ еще более реалистичными

Как Аватары от HeyGen могут улушить продукт?