Мультиагенты на пути к AGI: автономные нейро-стримеры и блогеры

Стримеры и блогеры – это уже привычная для нас культура общения с аудиторией. Но что, если их роли начнут выполнять искусственные личности? Сможем ли мы поддерживать с ними такое же активное взаимодействие как, скажем, с теми же нашими любимыми блогерами и стримерами? И что нас ждет в ближайшем будущем в сфере медиа и стриминга?

Вот я и задался этими вопросами и буду отвечать на них в порядке формирования мыслей :)

Хайп вокруг мальтиагентов и автономности не утихает уже год. Что это такое? Небольшой экскурс.

Ваш голосовой помощник – это базовый пример агента. Но представьте, если он сможет лучше понимать вас, как друг поддерживать в сложных ситуациях или даже автоматически создавать записи о вашей жизни. В этом и отличие мультиагенов от агентов.

Мультиагенты – это виртуальные личности(системы), которые обучены взаимодействовать с миром и аудиторией так, как это делают люди. При таком подходе несколько агентов взаимодействуют друг с другом для достижения общей цели или выполнения задач.

Такие системы реализуются путем сочетания различных ML-подходов, включая обработку естественного языка (NLP), CV, Generative AI и, что самое важное, метод Reinforcement Learning. Обычно данные подходы существуют отдельно друг от друга, чтобы не перегружать систему. Но! Если вы решились делать мультиагентов вам необходимо объединить эти подходы под одну «крышу».

В этом и состоит вся сложность разработки мультиагентов. Здесь наружу выходят конфликты, которые возникают при попытке объединения всех процессов. Для устранения проблем обычно объявляется агент-оркестратор, который распределяет запросы и обработку данных по разным форматам. Но реализовать такого агента является трудоемкой задачей.

Что же на счет автономности? За счет нее агенты способны принимать решения и действовать самостоятельно, используя данные из окружающего мира. Однако, создать автономного мультиагента является задачей из ряда близких к невозможным. После автономности будет только AGI (сильный искусственный интеллект), о котором грезят все BigTech-компании.

Наша команда и занимается разработкой автономного мультиагента NetTyan, способного вести трансляцию на Twitch, действовать без заданного сценария и общаться с участниками сервера на одной всеми известной игре. Релиз базовой версии NetTyan уже прошел год назад. С тех пор прошло много времени и многое, что изменилось в поведении NetTyan и она стала автономной! Можно сказать, что мы создали ИИ-личность, которая может действовать самостоятельно в отрыве от человека.

Следующий полноценный релиз пройдет через 1,5 месяца на MiniGames от ИТМО!

Если вы погруженный в ML специалист, то очень рекомендую почитать статью на Хабр по тому из чего и как собиралась NetTyan.

Спойлер: отсутствие автономных мультиагентов. Предполагаю, что из-за всей сложности реализации и настройке алаймента (так, чтобы модель не общалась на запретные темы, следовала законодательству и ее трудно было взломать промпт-инъекциями или другими способами обхода защиты) разработчики либо боятся приступать к созданию подобных решений, либо я плохо искал.

Но, конечно, же есть предшественники автономных мультиагентов и те нейростримеры, благодаря которым появилось понимание, что подобные решения можно разрабатывать.

Предком нейростриминга является Kizuna AI, появившаяся в 2016 году в Японии. Kizuna AI – это виртуальный YouTube-блогер, одна из первых виртуальных личностей, ведущих трансляции, после которой в обиход вошел термин «Vtuber»(Virtual YouTuber). В основном она использует заранее записанные элементы и анимацию, управляемую человеком в режиме реального времени. Собственно именно из-за влияния человека, у Kizuna AI высокий уровень персонализации, но и много ограничений, так как большая часть работы зависит от человека.

Согласно оценкам, состояние Kizuna AI составляет $37,4 млн (https://peopleai.com/fame/identities/kizuna-ai) и это с учетом всех ограничений. В 2019 году компания потерпела убытки в размере $6,2 млн. Предполагаю из-за появившейся конкуренции и неправильно выстроенной стратегии развития. Сейчас Kizuna AI еще выпускает видео на YouTube, но уже не набирает прежней популярности.

История этой компании очаровательная, но для нас самое важное то, что изначально компания занималась XR/VR, но после успеха Kizuna AI в 2017 году переключила свое внимание на разработку виртуальной личности Tokino Sora. Это позволило бизнесу полностью трансформироваться в агентство по разработке VTubers на заказ. К 2024 году компания уже открыла филиал в США, создав «дочку» «COVER USA». В 2024 Cover Corp сообщила о выручке $204 млн с чистой прибылью $27,9 млн.

Название ребята придумали ироничное. Если честно, я пропустил повторный взлет игры Dungeon & Dragons, так что был приятно удивлен, узнав, что нашлись энтузиасты, готовые разнообразить игру с помощью ИИ. Что делают AI Dungeon Masters?

Создают оригинальные истории, сюжеты и конфликты по предпочтениям игроков
Анализируют действия и решения игроков, меняя сценарий в режиме реального времени
Генерируют уникальные реплики персонажей

Основа AI Dungeon Masters – GPT-like модели и интеграция с механиками игр.

Мне не удалось найти точных данных по выручке компании, но если верить сайту growjo, то предполагаемый доход составляет $1,8 млн в год.

Кстати, имя фаундера Josh McKinney (сначала прочитал McKinsey) заряжено на успех.

Оставил ее как вишенку на торте. С Neuro-sama и началась история нашей NetTyan. По функционалу Neuro-sama очень схожа с нашим решением: она может общаться со зрителями, анализирует ситуацию в игре и выполняет там определенные действия. Neuro-sama дебютировала на Twitch в 2022 году и сразу же привлекла внимание пользователей.

Популярностью она обязана своему создателю, который очень грамотно спланировал ивенты и создал запоминающиеся события, но на тот момент многие из них были просто физически невозможны для реализации в техническом виде, значит, подстроены. То есть по большому счёту хороший проект на медиаплатформе - хорошее шоу: топовое планирование, популярные гости = бинго, подписчики.

В отличие от предшественников, нейростримерша могла общаться со зрителями не по заданным шаблонам, а с помощью анализа сообщений и контекстного ответа. С одной стороны это было ее визитной карточкой, а с другой стороны, спустя месяц после релиза Twitch ее заблочил из-за высказываний о запретной теме. Но спустя какое-то время ее разблокировали, автор провел работу над алайментом нейростримерши и в 2024 году Neuro-sama успешно интегрировалась в китайскую платформу Bilibili, где достаточно быстро набрала 600 000+ подписчиков.

К сожалению, мне не удалось найти информацию по экономическим показателям Neuro-sama, но ее автор утверждает, что с 2023 года нейростримерша стала его основным способом заработка.

Maria-AI — это один из самых интересных проектов в сфере русскоязычного нейростриминга. Её Twitch-канал работает практически 24/7, что делает её одной из немногих действительно автономных нейростримерш, но с геймплеем в играх создателю Maria-AI еще предстоит поработать. Сейчас у Maria-AI 30к+ подписчиков на твиче и недавно у нее состоялся 3D-дебют

AI Princess — ещё один проект, который стартовал очень активно и привлек 6 000 подписчиков на Twitch. AI Princess умеет петь и передавать эмоции (радость, грусть и т.д.), меняя при этом выражение лица. Сейчас аудитория проекта задержалась на 6 000 и причины остаются дискуссионными: то ли технические ограничения, то ли недостаточная адаптация к аудитории, то ли что-то не то с маркетинговой стратегией, у меня так и не получилось найти точной информации. Случай с AI Princess служит хорошим напоминанием о том, что рынок нейростримеров, несмотря на хайп, требует тщательного подхода и стратегически верных решений.

Виртуальные стримеры Neuro-sama и NetTyan, показывают, насколько глубокими и разнообразными могут быть приложения мультиагентных систем в медиа и развлечениях. Думаю, что мы наблюдаем начало эпохи, где границы между человеком и ИИ стираются не только в производительности, но и в сфере медиа и креаторства.

Тем не менее, создание мультиагентов — это не только вопрос технологий, но и сложная задача по настройке их взаимодействия с миром, аудиторией и соблюдению этических норм. При разработке NetTyan мы прикладываем все усилия, чтобы сделать ее интересной и безопасной как для пользователей, так и для нас самих.

Спасибо комьюнити «AI Talent Hub» за то, что получилось собрать команду единомышленников и экспертов, что позволяет нам заниматься технологиями, находящимися на острие науки и бизнеса. Если раньше проект разрабатывался одним человеком практически без опыта и с нуля, то сейчас у нас команда из 10+ человек с опытом в ИИ, джуны и миддлы, мы используем все самые топовые наработки в сфере ИИ во множестве областях: TTS, STT, NLP, LLM. И, самое главное, используем новые только вышедшие инструменты для внедрения полноценной автономной мультиагентности с имитацией переключения внимания, мышления, эмоций, что позволит нам приложить руку к истории.. нет, стать пионерами принципиально нового направления и представить человечеству самый настоящий AGI в мире нейростриминга!

Кстати, мы решили создать тг-канал, где будем публиковать информацию о разработке мультиагентов, делиться своими мыслями по развитию технологий ИИ в сфере медиа и стриминга.

Всех горячо поздравляю с наступающим Новым Годом и желаем больших свершений в 2025!

Больше видео с NetTyan можно найти в нашем ютубе и твиче

Статья на Хабр по тому, как разрабатывался первый прототип NetTyan

2 комментария

Yan Pimenov

31.12.2024

Вообще не представляю человека которому будет интересно потреблять такой контент, это нужно быть ну совсем одиноким, я даже когда себе это представляю мне грустно становится)))

Ответить

Данила Калиникин

1 янв

Автор

Доходность компаний, создающих такой контент говорит об обратном. Либо о том, что в мире очень много одиноких людей :)