Стартап от сотрудников DeepMind по разработке AGI?

Стартап от сотрудников DeepMind по разработке AGI?

Исследовательский проект смог получить деньги на разработку амбициозных проектов – мультимодальных мультиакторных ИИ-агентов… Подобные технологии – авангард современной индустрии машинного обучения.

Теория игр в ИИ?

Координация ИИ-агентов?

И причем тут аукционы?

Сегодня мы обозреваем загадочный стартап “H Company” от ведущих разработчиков и исследователей DeepMind. И хотя информации в открытых источниках о проекте практически нет — мы станем настоящими детективами и вытянем максимум информации.

Пока крупные стартапы борются за клиентские сервисы: CRM, SaaS, чат-ботов — наш стартап пошел дальше и рассчитывает на разработку AGI. Хотя компания напрямую заявляет о своих намерениях: "Всем привет, мы разрабатываем общий искусственный интеллект, который не может разработать сам OpenAI уже 5 лет" – ни о каком реальном общем интеллекте все же речи и не идет.

AGI – artificial general intellegence, общий искусственный интеллект, имитирующий все способности человека.

В интервью команда прямо заявляет, что хотела бы наметить путь к AGI, а не разработать его с нуля за пару лет. Но путь самурая к общему ИИ может быть и прибыльным, если поможет бизнесу заменить низкоэффективных сотрудников. За это компания получила 100 млн долларов в недавнем Seed-раунде, что неплохой результат для команды из пары десятков сотрудников. Если проект окажется эффективным — ребята смогут рассчитывать на инвестиции $500+ млн, а это уже уровень Ada, AssemblyAI, Synthesia и других компаний среднего рыночного сегмента.

Стартап от сотрудников DeepMind по разработке AGI?

Всё дело в двойственном определении AGI: для одних — это сверхтехнология, а для других — когнитивный аппарат, заменяющий сотрудников.

Поэтому "H" называют свои нейронки или основополагающими моделями для действий, или мультимодальными и мультиагентными нейронками.

Цель одна – разработать универсальные нейросети, решающие задачи через взаимодействие ИИ-агентов с приемом мультимодальных данных на входе.

Такой подход — одна из возможных реализаций создания общего искусственного интеллекта, который бы имитировал человека на уровне рабочих задач.

Эти модели потребуют крупных контекстных окон, формы рассуждений и определения приоритетов задач: больше, чем могут предложить нынешние LLM.

Стартап от сотрудников DeepMind по разработке AGI?

Команда основателей H объединяет Чарльза Кантора (генерального директора) и команду высококвалифицированных бывших исследователей, и других ученых мирового уровня DeepMind: Карла Тьюлса (руководитель исследовательского отдела), Лорана Сифре (главного технологического директора), Даана Виерстра (скоро присоединится в качестве руководителя Ученый) и Жюльен Перола (главный специалист по мультиагентам. Все эти люди — топы в индустрии разработки моделей машинного обучения.

Например, Карл с 2017 года возглавлял группу DeepMind по теории игр и мультиагентным командам.

Стартап от сотрудников DeepMind по разработке AGI?

Теория игр — математическая дисциплина о стратегиях агентов в разных системах: от конкурентных рынков до дилемм заключенных в полицейских участках.

Лоран и Даан — крупные исследователи и пионеры в проектах генного искусственного интеллекта и областях методов обучения с подкреплением.

Как бывает, некоторые сотрудники крупных компаний на высоких должностях не могут реализовать свои амбиции и организуют стартапы.

Важно: все участники проекта — исследователи Парижских академий, которые зарекомендовали себя во всей индустрии машинного обучения. Поэтому перспективы у "H" точно есть.

Что же такое эти мультимодальные и мультиагентные ИИ?

Стартап от сотрудников DeepMind по разработке AGI?

Мультиагентность противоположна ансамблям нейросетей по своей концепции. Важную роль играет подход самоорганизации, где агенты автономно адаптируют свои стратегии в ответ на изменения в окружающей среде и действия других агентов.

Они не представляют собой комбинацию ИИ, не голосуют демократическим путем за "вероятное" предсказание результата — они независимы и конкурируют между собой за "вознаграждение" и решение задачи.

Пример мультимодального и мультиагентного ИИ:

Представим себе классический беспилотник.

БПЛА патрулируют заданную территорию, используя сенсоры для сбора данных о температуре, влажности и других параметрах.

Каждый БПЛА выполняет локальное планирование маршрута на основе GPS и координирует свои действия с другими агентами для обеспечения оптимального покрытия территории и своевременного обнаружения возгораний.

В случае обнаружения пожара, агенты могут координировать свои действия для передачи информации в центр управления и принятия мер по локализации и тушению возгорания, используя механизмы обмена сообщениями и совместное планирование действий.

Например, БПЛА по GPS-локатору определяет местоположение возгорания, отправляя данные о расстоянии бортовому компьютеру — тот в свою очередь выбирает скорость и траекторию полета, пока ИИ под водосброс выжидает момент для "тушения" пожара килолитрами воды. Когда GPS-локатор поймет, что БПЛА на месте — он отправит данные в борткомпьютер, и тот снизит скорость до минимальной.

Но AGI, или полная замена сотрудников, невозможны без мультимодальности в чистом виде.

Хочется вспомнить живые космические корабли, человеческих компаньонов из фильмов, общающихся с главными героями и выстраивающие настоящие человеческие отношения: бармен из фильма "Пассажиры", миниатюрный робот TARS из "Интерстеллар" – все они самая качественная реализация мультимодальных ИИ. Они воспринимают и текст, и речь, и музыку, а также способны на сложные моторные ответные действия.

Как работают подобные системы?

Многоакторное обучение агентов (MARL, Multi-Agent Reinforcement Learning) объединяет в себе концепции классического обучения с подкреплением (RL) и добавление множества агентов, взаимодействующих в единой среде.

Стартап от сотрудников DeepMind по разработке AGI?

В классическом RL агент обучается через взаимодействие с окружающей средой, получая вознаграждение за свои действия и корректируя свою стратегию для максимизации накопленного вознаграждения. В случае с MARL ситуация усложняется тем, что несколько агентов взаимодействуют не только с окружающей средой, но и друг с другом.

Каждый агент должен учитывать действия и стратегии других агентов, что делает задачу обучения многомерной и динамической. Попробуйте себе визуализировать взаимодействие нейронок – у вас получится либо унылый формат "последовательной" передачи данных, либо представление об абстрактной борьбе "интересов".

Теоретическая основа MARL опирается на концепции теории игр, где каждый агент рассматривается как игрок в игре с множеством участников. В этом случае каждый агент стремится максимизировать свою функцию вознаграждения, принимая во внимание стратегии других агентов.

Да, именно поэтому костяк разработчиков компании H – специалисты по теории игр.

Главная цель оптимизации мультагентной нейронки — поиск равновесия Нэша, состояния, в котором ни один из агентов не может улучшить свое положение, изменяя только свою стратегию.

В отличие от одиночного RL, где используется понятие функции ценности (value function), в MARL применяется общая функция ценности (joint value function) или независимые функции ценности для каждого агента.

Одним из наиболее распространенных способов обучения – Q-обучение (Independent Q-Learning), где каждый агент обучается независимо, игнорируя влияние других агентов. Например, агенты могут использовать таблицы Q-значений, обновляемые на основе опыта взаимодействий с окружающей средой и другими агентами.

Этот метод прост в реализации, но не учитывает взаимодействия между агентами, что может приводить к неустойчивым стратегиям и пустым противоречиям, которые трудновато исправить на постпродакшене.

Централизованное обучение с децентрализованным выполнением (Centralized Training with Decentralized Execution, CTDE) предлагают компромисс, при котором агенты обучаются централизованно с учетом всей информации о среде и других агентах, но выполняют свои стратегии независимо. Этот подход позволяет достичь более координированных и стабильных стратегий.

Стартап от сотрудников DeepMind по разработке AGI?

Существуют и глубокие детерминированные обучения стратегиям, так называемые DDPG. Они действуют по принципу тотального самоопределения и хорошо подходят для многоагентных систем, которые могут эффективно работать лишь в непрерывных пространственных состояниях.

Также стоит отметить Q-обучение (Deep Q-Learning) и актор-критик (Actor-Critic), которые позволяют агентам обрабатывать высокоразмерные пространства состояний и действий.

Cхема алгоритма актор-критика
Cхема алгоритма актор-критика

В AC актор вырабатывает действия на основе текущего состояния, а критик (ценностная функция) оценивает качество этих действий, предоставляя градиенты для обновления акторной политики взаимодействия.

В рамках MARL агенты могут координироваться и сотрудничать, чтобы достичь общей цели, или конкурировать, чтобы максимизировать собственное вознаграждение. Разделение приводит к разным типам игр: кооперативные, конкурентные и смешанные.

В кооперативных играх агенты стремятся к общей цели и работают совместно, в конкурентных – соревнуются за ресурсы или вознаграждения. В смешанных играх сочетаются элементы кооперации и конкуренции.

Способность агентов адаптироваться к изменениям в среде и стратегиям других агентов требует динамического пересмотра стратегий и постоянного обучения.

Ключевая проблема современного MARL – подбор эффективной стратегии и ресурсных затрат для каждого агента в динамической среде, где постоянно меняются "игровые ситуации".

Сегодня, чтобы грамотно распределить ресурсы между агентами, используют протоколы взаимодействия: контрактные сети и аукционные алгоритмы.

Контрактные сети (Contract Net Protocol) – одни из первых и наиболее известных методик для координации действий агентов.

Стартап от сотрудников DeepMind по разработке AGI?

В этом протоколе агенты играют роли менеджеров и исполнителей. Менеджеры объявляют задачи, которые необходимо выполнить, а исполнители могут предлагать свои услуги для выполнения этих задач.

Процесс взаимодействия в контрактной сети можно разбить на несколько этапов.

Сначала менеджер объявляет задачу, рассылает информацию всем потенциальным исполнителям.

Исполнители оценивают свои возможности и ресурсы для выполнения задачи и отправляют предложения менеджеру.

Менеджер, получив все предложения, выбирает наиболее подходящего исполнителя, основываясь на критериях стоимости, времени выполнения и качества, он заключает контракт с выбранным исполнителем – тот приступает к работе.

И так по кругу. Настоящий принцип бизнес-делегирования.

Существует и другой метод — аукционный. В отличие от контрактных сетей, где основной акцент делается на согласовании контрактов, аукционные алгоритмы сосредоточены на конкурентном распределении ресурсов через процесс торгов.

Существует несколько типов аукционов: английский аукцион, голландский аукцион, аукцион первого ценового предложения и аукцион второго ценового предложения (аукцион Викри) – у каждого свой принцип и подходит он для разных игр.

Задача охоты на лисиц (Predator-Prey Game) - пример простой игры в концепции MARL

Стартап от сотрудников DeepMind по разработке AGI?

Агенты-хищники (predators) сотрудничают друг с другом, чтобы поймать агента-добычу (prey).

Хищники и добыча перемещаются в дискретной двумерной сетке, где каждый агент может перемещаться в одном из четырех направлений (вверх, вниз, влево, вправо) или оставаться на месте.

Цель хищников — захватить добычу, окружив её таким образом, чтобы добыча не могла сбежать. Добыча, в свою очередь, пытается избежать захвата как можно дольше.

Каждый агент-хищник обучается с использованием алгоритмов обучения с подкреплением: Q-обучение или глубокое Q-обучение (Deep Q-Learning) – где агенты используют функции ценности для оценки выгодности своих действий в определённых состояниях.

У каждого хищника есть своя собственная политика, которую он улучшает на основе опыта взаимодействия со средой.

Агент-хищник получает вознаграждение за каждое действие в зависимости от его результата: положительное вознаграждение за успешный захват добычи и отрицательное вознаграждение за каждый шаг, который не привёл к захвату.

Хищники могут использовать централизованное обучение с децентрализованным выполнением (CTDE). При централизованном обучении все агенты могут обмениваться информацией и обучаться с учетом всех действий и состояний других агентов, что позволяет создать более координированные стратегии.

Например, Волк-Михаил видит, что его товарищ Волчара-Максим находится справа от жертвы — для успешного захвата Мише нужно встать слева...

На начальном этапе хищники могут случайным образом перемещаться по сетке, но со временем, через множество эпизодов и итераций обучения, они начинают лучше координировать свои движения.

Один хищник может блокировать путь к бегству, в то время как другие два направляются к добыче с противоположных сторон. Постепенно агенты учатся разделять пространство так, чтобы эффективно захватить добычу, минимизируя при этом свои перемещения.

Но этот пример — самый простой в сфере теории игр. Беспилотники, экономические агенты для составления инвестиционных портфелей, многоуровневые системы рекомендаций в маркетинге — все это еще заставит ресерчеров "H" попотеть...

Почему стартап "H" - будущее искусственного интеллекта?

В отличие от классически DL или ML, где компании борются исключительно за продвижение бизнеса в рамках разработки CRM и SaaS, подобные исследовательские проекты двигают индустрию вперед. Не зря ресерчеры DeepMind почти стали единорогами, собрав 100 млн долларов на научный проект, который лишь в долгосрочной перспективе обещает оптимизацию бизнеса и обозначение пути к AGI.

В последнее время инвест-ангелы и венчурные фонды вкладывают все больше средств в исследовательские проекты, которые могут выстрелить лишь через несколько лет, но принести крупные дивиденды. И мы не говорим про Microsoft, OpenAI, DeepMind, открывающие не только свои ресерч-проекты, но и продвигающие чужие. Технологическая гонка ведется не только в зонах LLM, Computer Vision и робототехники…

Проекты компании H выглядят многообещающими. Возможно, нам придется написать еще один материал по подобным агентным ИИ через несколько лет.

1 комментарий

Автор отлично постарался понять и дать понять читателю то, что понять полезно, конечно, специалисту. Но вот специалист и без этой статьи должен указанное понимать. Начинающий не обязательно. Зато теперь мы можем сделать предположение, что Евгений разобрался в вопросе и с ним можно что-то обсуждать. Что касается меня, то я подписываюсь и ставлю в закладки. И желаю развития проектам Автора. Привет.

Ответить