Nvidia представила базовую модель для роботов-гуманоидов GR00T N1 с опцией рассуждений — её обучали в том числе на синтетических данных

У решения с открытым исходным кодом 2 млрд параметров.

  • Архитектура GR00T N1 двусоставная. Мультимодальная модель «трактует окружение по визуальным и языковым инструкциям, что позволяет боту рассуждать и об окружении, и об инструкциях и планировать действия».
  • Диффузионно-трансформерная модель «генерирует действия» на основе полученной информации: взять объект, переставить его одной или двумя руками — и не только. GR00T N1 — «эволюция» модели GR00T, которую Nvidia анонсировала в 2024 году.
Так выглядит путь от «инструкции» до «действия»
Так выглядит путь от «инструкции» до «действия»
  • Для предобучения GR00T N1 использовали данные разного типа. В основу легли общедоступные языковые и визуальные данные, в том числе видеоролики с людьми — чтобы роботы могли перенять естественные для человека движения.
  • «Промежуточный» слой составили синтетические данные, сгенерированные с помощью облачной платформы Nvidia Omniverse. С ними GR00T N1 показывал на 40% большую производительность, чем исключительно с «реальными». «Верхушка пирамиды» — данные работающих роботов.
  • Модель доступна на Hugging Face. Фрагменты дата-сетов, а также скрипты для донастройки выложили на Github. Минимальные требования для постобучения — видеокарты Nvidia RTX A6000 или NVIDIA GeForce RTX 4090.
За взаимодействие с объектом отвечает GR00T N1
Пример «сложного» взаимодействия с объектом в паре: один робот поднимает и переставляет предмет поближе к другому, а тот его подхватывает
  • Специально для роботов компания также разработала новый физический движок Newton — вместе с Google DeepMind и Disney Research. Презентовали его с «дроидоподобным» ботом Blue.
Фрагмент презентации 
Глава Nvidia Дженсен Хуанг и Blue.
Глава Nvidia Дженсен Хуанг и Blue.
18
6
67 комментариев