Умельцы научили роботов слушать и думать (!) лучше
Выходцы из Google придумали систему Hi Robot, которую специалисты называют прорывом и которая делает робота умнее и, если угодно, человечнее. Расскажу, в чем она заключается, а главное – что это дает роботам (и нам с вами).
🔥 Еще больше интересного в моем канале Продуктовые штучки
Прорывом является изобретение технологии «внутреннего голоса» Hi Robot — это новая система, разработанная компанией Physical Intelligence.
Эта система позволяет роботу – подобно нам с вами – рассуждать с помощью внутреннего голоса и корректировать действия на основе обратной связи в ходе выполнения задачи.
Physical Intelligence — стартап, основанный в 2024 году в Калифорнии. Занимается разработкой универсального софта для роботов, которое может управлять любым роботом, устраняя необходимость создавать отдельный софт для каждой модели. В ноябре 2024 компания привлекла $400 млн в новом раунде финансирования при оценке в $2 миллиарда. Инвесторами стали Джефф Безос, OpenAI, Lux Capital, Thrive Capital и другие
Что за «внутренний голос»?
Технология "внутреннего голоса" позволяет роботам рассуждать и планировать свои действия, разбивая сложные задачи на более простые шаги и включая обратную связь в реальном времени. Система может учитывать обратную связь от пользователя в процессе выполнения задачи.
Например, если пользователь говорит «это не мусор», робот понимает, что объект не должен быть выброшен, и корректирует свои действия
Hi Robot расшифровывается как Hierarchical Interactive Robot (Иерархический интерактивный робот) и включает иерархическую интерактивную модель.
Система "внутреннего голоса" для роботов, представленная в проекте Hi Robot, включает два основных компонента:
1. Высокоуровневая система (System 2): Отвечает за обдумывание и планирование сложных задач, разбивая их на последовательные простые шаги.
2. Низкоуровневая система (System 1): Выполняет эти простые шаги, действуя автоматически и интуитивно.
Высокоуровневая модель VLM (Vision-Language Model) обрабатывает сложные инструкции и разбивает их на более простые шаги, а низкоуровневая модель VLA (Vision-Language-Action) выполняет эти шаги.
Это позволяет роботам выполнять задачи, требующие нескольких шагов, и адаптироваться к изменениям в реальном времени.
Поскольку эти команды даются на естественном языке, исследователи могут изучить их и увидеть, как робот «разговаривает сам с собой», чтобы выполнить задачу.
Например, роботу поручено приготовить чашку кофе. Система "внутреннего голоса" позволяет роботу мысленно разбить эту задачу на последовательные шаги:
1. Наполнить кофеварку водой.
2. Добавить кофе в фильтр.
3. Включить кофеварку
4. Подождать завершения процесса заваривания.
5. Налить кофе в чашку.
При этом робот может адаптироваться к изменениям, например, если закончилась вода, он может сначала наполнить резервуар.
Вот пример работы. Роботу поручено убирать со стола, вынося весь мусор в мусорное ведро, а всю посуду — в корзину:
А вот роботу корректируют задачу, просят не убирать тарелки, только мусор:
Преимущества Hi Robot
Внедрение "внутреннего голоса" делает роботов более умными и гибкими, что способствует их интеграции в различные сферы жизни и облегчает взаимодействие с ними для обычных пользователей. Hi Robot может лучше обрабатывать сложные подсказки и обратную связь, если ему разрешено сначала разбить их на более простые шаги, которые базовая модель уже понимает, как делать.
Это означает, что "из коробки" такие модели уже достаточно хорошо справляются с ответами на вопросы типа «на этой картинке, какой объект робот должен схватить следующим, чтобы убрать со стола?»
Практически это означает:
Улучшенная адаптация: роботы могут лучше понимать сложные команды и адаптироваться к изменениям в реальном времени, что делает их более надежными и эффективными.
Интуитивное взаимодействие: пользователи могут давать роботу сложные инструкции, не разбивая их на простые команды, что упрощает взаимодействие.
Расширение применения: такие роботы могут выполнять более широкий спектр задач, от помощи в быту до участия в производственных процессах, повышая их полезность в повседневной жизни.
Какова эффективность модели?
Hi Robot оценивался на реальных задачах, таких как сборка за столом, приготовление сэндвичей и покупка продуктов, сравнивая его с предыдущими методами.
Hi Robot показывает более высокую точность выполнения инструкций по сравнению с другими системами, такими как GPT-4o, и лучше справляется с многозадачными инструкциями и корректировками в реальном времени.