Nvidia представила базовую модель для роботов-гуманоидов GR00T N1 с опцией рассуждений — её обучали в том числе на синтетических данных

У решения с открытым исходным кодом 2 млрд параметров.

Архитектура GR00T N1 двусоставная. Мультимодальная модель «трактует окружение по визуальным и языковым инструкциям, что позволяет боту рассуждать и об окружении, и об инструкциях и планировать действия».
Диффузионно-трансформерная модель «генерирует действия» на основе полученной информации: взять объект, переставить его одной или двумя руками — и не только. GR00T N1 — «эволюция» модели GR00T, которую Nvidia анонсировала в 2024 году.

Для предобучения GR00T N1 использовали данные разного типа. В основу легли общедоступные языковые и визуальные данные, в том числе видеоролики с людьми — чтобы роботы могли перенять естественные для человека движения.
«Промежуточный» слой составили синтетические данные, сгенерированные с помощью облачной платформы Nvidia Omniverse. С ними GR00T N1 показывал на 40% большую производительность, чем исключительно с «реальными». «Верхушка пирамиды» — данные работающих роботов.
Модель доступна на Hugging Face. Фрагменты дата-сетов, а также скрипты для донастройки выложили на Github. Минимальные требования для постобучения — видеокарты Nvidia RTX A6000 или NVIDIA GeForce RTX 4090.

За взаимодействие с объектом отвечает GR00T N1

Пример «сложного» взаимодействия с объектом в паре: один робот поднимает и переставляет предмет поближе к другому, а тот его подхватывает

Специально для роботов компания также разработала новый физический движок Newton — вместе с Google DeepMind и Disney Research. Презентовали его с «дроидоподобным» ботом Blue.

Фрагмент презентации