Microsoft переосмысливает игры. Компания создает нейросеть, в которую можно играть уже сейчас *

* с тормозами и ограничениями, но это только вопрос времени 😏

Кроме непосредственно самой игры, в любой момент в игру можно добавить любой предмет в виде изображения и он оживет в виртуальном мире

Пока другие нейросети красиво болтают, эта строит тебе целый мир — прямо в момент, когда ты нажимаешь на клавишу.

Я давно перестал удивляться заголовкам вроде «ИИ прошёл игру» или «нейросеть победила игрока в StarCraft». Но в этот раз — это что-то совсем другое. Microsoft показала WHAMM — нейросеть, которая генерирует игру на лету и реагирует на твое ввод.

Ты дви��аешься — и модель рисует тебе, куда ты пошел. Стреляешь — и она дорисовывает взрыв. Всё, что ты видишь на экране, создаётся в режиме реального времени, без игрового движка.

WHAMM — это экспериментальная модель от Microsoft Research. По сути, это ИИ-движок, который сам строит игровой мир кадр за кадром, основываясь на твоих действиях.

www.microsoft.com

WHAMM! Real-time world modelling of interactive environments. - Microsoft Research

В отличие от моделей, которые генерируют видео по изображению, WHAMM создает виртуальный мир и реагирует на нажатия клавиш.

Они продемонстрировали модель на примере игры Quake II, а демо выпустили в открытый доступ для всех желающих попробовать.

aka.ms

Copilot Gaming Experiences | Copilot Labs

Модель, эмулирующая Quake II в действии

Идея в следующем:

Играешь ты не в Quake II — ты играешь в модель, которая притворяется Quake II. Это важное различие. Потому что:

В мире WHAMM можно «телепортироваться», просто посмотрев в небо.
Враги могут внезапно исчезнуть или «подглючивать».
Иногда здоровье не считается, а урон проходит сквозь текстуры.

Геймеры известны своей категоричностью, а поскольку Microsoft стала покушаться на святое — игры, то конечно же они не остались равнодушными.

Как только видео с WHAMM попало в медиа, комментарии под ним стали выглядеть примерно так:

«Это настолько плохо… Microsoft правда обожает свой AI-мусор» — @ShadowNickz

«Я выстрелил во врага, и он превратился в бочку, когда я подошёл ближе. Наверное, худшая демка, что я вообще видел» — @RidleyDeckard

«Я жду, когда ИИ с треском провалится. Надоело, что эта машина для плагиата лезет во все индустрии» — @Steelhearts23

Классика. Каждый раз, когда появляется что-то новое, это вызывает не любопытство, а раздражение. Особенно у тех, кто путает исследование с продуктом.

Но не все так печально и среди пасмурного неба пробился луч света:

«Это просто технодемка. И это даже не должно быть полноценной игрой. Люди просто не поняли, что это инструмент для прототипирования. И да — он показывает, почему игры всё ещё делают люди» — @dreampage

«Попробовал. Пока это далеко от играбельного состояния, но потенциал чувствуется. И смешно смотреть, как некоторые жалуются, будто демка принижает труд художников — хотя её сделали те же люди» — @DDShadow

На самом деле это не первая версия модели Muse — технологии, которая делает возможной такую генерацию. Ранее они уже публиковали результаты своих исследований. Тогда частота кадров была примерно 1 кадр в секунду, а разрешение — 300×180 пикселей.

В новой версии модели они увеличили данные показатели. В феврале они опубликовали новую статью в Nature на тему исследования:

www.nature.com

World and Human Action Models towards gameplay ideation - Nature

Вместо того чтобы гнаться за красивыми демками, команда сосредоточилась на реальном времени и интерактивности:

Увеличили FPS с 1 до 10+ кадров в секунду.
Повысили разрешение почти в два раза.
Уменьшили объем обучающих данных с 7 лет геймплея до одной не��ели, собрав их вручную.
Перешли на MaskGIT — подход, который позволяет генерировать сразу весь кадр, а не пиксель за пикселем.

Да, это всё ещё ранний эксперимент. Но даже с багами и ограничениями — он уже дает ощущение живого ИИ, который не просто отыгрывает скрипты, а моделирует целый мир из твоих действий.

Потому что это не просто прикольная игрушка. Это новый взгляд на то, как ИИ может видеть и создавать реальность.

Это не текстовая генерация, не чат-бот. Это поток восприятия и действия. И если такие модели продолжат развиваться, они могут лечь в основу:

Интерактивных симуляторов
Обучающих сред для роботов
Генеративных игровых движков
Да даже ассистентов, которые видят, что ты делаешь — и понимают, как тебе помочь

Потому что основная проблема современных моделей в том, что они не умеют планировать и у них нет пространственного мышления. WHAMM пытается исправить этот недостаток.

Как разработчик, я не смотрю на WHAMM как на замену чему-то. Я смотрю на него как на новый строительный блок.

Он глючный, он сырой — но это не минус, это норма для настоящих инноваций. Мы же не ругали первых дронов за то, что они не летают как F-16, правда?

Каждый раз, когда вам будет казаться, что текущие модели недостаточно хороши — вспоминайте какой прогресс сделали модели для генерации изображений буквально за несколько лет. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fmedium.com%2F%40ori.holis%2Fwhat-to-expect-from-ai-in-2024-d3ee6e723287&postId=1912352" rel="nofollow noreferrer noopener" target="_blank">Medium</a>

Если ты делаешь свой продукт или стартап — важно уметь видеть за прототипом возможности. WHAMM — не про Quake II. Он про то, что ИИ можно научить думать в терминах мира и действия, а не только текста и кнопок. В будущем это может быть полезно как для роботов, так и для других задач, в которых нужно планирование или пространственное мышление.

Если тебе интересно не только как пользоваться новыми технологиями, но и знать, что лежит в их основе и как они устроены — приходи в мой блог «Код без тайн». Там я делюсь своими находками и рассказываю простым языком и без хайпа о том, как работает техника:

t.me

Код без тайн

Microsoft переосмысливает игры. Компания создает нейросеть, в которую можно играть уже сейчас *

Что это за зверь такой, этот ваш WHAMM?

Конечно же, не обошлось без критики

Что на самом деле делает Microsoft

Почему это важно?

Мой личный взгляд