Nvidia представила базовую модель для роботов-гуманоидов GR00T N1 с опцией рассуждений — её обучали в том числе на синтетических данных
У решения с открытым исходным кодом 2 млрд параметров.
- Архитектура GR00T N1 двусоставная. Мультимодальная модель «трактует окружение по визуальным и языковым инструкциям, что позволяет боту рассуждать и об окружении, и об инструкциях и планировать действия».
- Диффузионно-трансформерная модель «генерирует действия» на основе полученной информации: взять объект, переставить его одной или двумя руками — и не только. GR00T N1 — «эволюция» модели GR00T, которую Nvidia анонсировала в 2024 году.
Так выглядит путь от «инструкции» до «действия»
- Для предобучения GR00T N1 использовали данные разного типа. В основу легли общедоступные языковые и визуальные данные, в том числе видеоролики с людьми — чтобы роботы могли перенять естественные для человека движения.
- «Промежуточный» слой составили синтетические данные, сгенерированные с помощью облачной платформы Nvidia Omniverse. С ними GR00T N1 показывал на 40% большую производительность, чем исключительно с «реальными». «Верхушка пирамиды» — данные работающих роботов.
- Модель доступна на Hugging Face. Фрагменты дата-сетов, а также скрипты для донастройки выложили на Github. Минимальные требования для постобучения — видеокарты Nvidia RTX A6000 или NVIDIA GeForce RTX 4090.
За взаимодействие с объектом отвечает GR00T N1
Пример «сложного» взаимодействия с объектом в паре: один робот поднимает и переставляет предмет поближе к другому, а тот его подхватывает
- Специально для роботов компания также разработала новый физический движок Newton — вместе с Google DeepMind и Disney Research. Презентовали его с «дроидоподобным» ботом Blue.
Фрагмент презентации
Глава Nvidia Дженсен Хуанг и Blue.
67 комментариев