Умельцы научили роботов слушать и думать (!) лучше

Выходцы из Google придумали систему Hi Robot, которую специалисты называют прорывом и которая делает робота умнее и, если угодно, человечнее. Расскажу, в чем она заключается, а главное – что это дает роботам (и нам с вами).

🔥 Еще больше интересного в моем канале Продуктовые штучки

Прорывом является изобретение технологии «внутреннего голоса» Hi Robot — это новая система, разработанная компанией Physical Intelligence.

Эта система позволяет роботу – подобно нам с вами – рассуждать с помощью внутреннего голоса и корректировать действия на основе обратной связи в ходе выполнения задачи.

Physical Intelligence — стартап, основанный в 2024 году в Калифорнии. Занимается разработкой универсального софта для роботов, которое может управлять любым роботом, устраняя необходимость создавать отдельный софт для каждой модели. В ноябре 2024 компания привлекла $400 млн в новом раунде финансирования при оценке в $2 миллиарда. Инвесторами стали Джефф Безос, OpenAI, Lux Capital, Thrive Capital и другие

Что за «внутренний голос»?

Технология "внутреннего голоса" позволяет роботам рассуждать и планировать свои действия, разбивая сложные задачи на более простые шаги и включая обратную связь в реальном времени. Система может учитывать обратную связь от пользователя в процессе выполнения задачи.

Например, если пользователь говорит «это не мусор», робот понимает, что объект не должен быть выброшен, и корректирует свои действия

Роботу дают указание не трогать телефон. Источник

Hi Robot расшифровывается как Hierarchical Interactive Robot (Иерархический интерактивный робот) и включает иерархическую интерактивную модель.

Система "внутреннего голоса" для роботов, представленная в проекте Hi Robot, включает два основных компонента:

1. Высокоуровневая система (System 2): Отвечает за обдумывание и планирование сложных задач, разбивая их на последовательные простые шаги.

2. Низкоуровневая система (System 1): Выполняет эти простые шаги, действуя автоматически и интуитивно.

Высокоуровневая модель VLM (Vision-Language Model) обрабатывает сложные инструкции и разбивает их на более простые шаги, а низкоуровневая модель VLA (Vision-Language-Action) выполняет эти шаги.

Это позволяет роботам выполнять задачи, требующие нескольких шагов, и адаптироваться к изменениям в реальном времени.

Поскольку эти команды даются на естественном языке, исследователи могут изучить их и увидеть, как робот «разговаривает сам с собой», чтобы выполнить задачу.

Например, роботу поручено приготовить чашку кофе. Система "внутреннего голоса" позволяет роботу мысленно разбить эту задачу на последовательные шаги:

1. Наполнить кофеварку водой.

2. Добавить кофе в фильтр.

3. Включить кофеварку

4. Подождать завершения процесса заваривания.

5. Налить кофе в чашку.

При этом робот может адаптироваться к изменениям, например, если закончилась вода, он может сначала наполнить резервуар.

Вот пример работы. Роботу поручено убирать со стола, вынося весь мусор в мусорное ведро, а всю посуду — в корзину:

А вот роботу корректируют задачу, просят не убирать тарелки, только мусор:

Преимущества Hi Robot

Внедрение "внутреннего голоса" делает роботов более умными и гибкими, что способствует их интеграции в различные сферы жизни и облегчает взаимодействие с ними для обычных пользователей. Hi Robot может лучше обрабатывать сложные подсказки и обратную связь, если ему разрешено сначала разбить их на более простые шаги, которые базовая модель уже понимает, как делать.

Это означает, что "из коробки" такие модели уже достаточно хорошо справляются с ответами на вопросы типа «на этой картинке, какой объект робот должен схватить следующим, чтобы убрать со стола?»

Практически это означает:

Улучшенная адаптация: роботы могут лучше понимать сложные команды и адаптироваться к изменениям в реальном времени, что делает их более надежными и эффективными.

Интуитивное взаимодействие: пользователи могут давать роботу сложные инструкции, не разбивая их на простые команды, что упрощает взаимодействие.

Расширение применения: такие роботы могут выполнять более широкий спектр задач, от помощи в быту до участия в производственных процессах, повышая их полезность в повседневной жизни.

Какова эффективность модели?

Hi Robot оценивался на реальных задачах, таких как сборка за столом, приготовление сэндвичей и покупка продуктов, сравнивая его с предыдущими методами.

Hi Robot показывает более высокую точность выполнения инструкций по сравнению с другими системами, такими как GPT-4o, и лучше справляется с многозадачными инструкциями и корректировками в реальном времени.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

2
Начать дискуссию