Роботы Helix обещают нам революцию в области бытовых роботов
🔥 Еще больше интересного в моем канале Продуктовые штучки
Компания Figure представила новую модель обучения для гуманоидных роботов под названием Helix, которую специалисты считают прорывом в архитектуре управления. Потому что робот управляется голосом и может ориентироваться в малознакомом пространстве. Расскажу, почему это важно и сложно.
Эта новость пришла спустя две недели после того, как компания объявила о прекращении сотрудничества с OpenAI. Становится понятно, почему это сотрудничество было так внезапно и быстро было завершено.
Сотрудничество Figure с OpenAI началось в 2023 году и продолжалось до начала 2025 года. В рамках этого партнерства компании работали над интеграцией передовых технологий ИИ для улучшения работы гуманоидных роботов. Figure решила прекратить это сотрудничество, решив развивать свои собственные технологии. Одной из причин стало стремление создать более самостоятельную и уникальную модель, такую как Helix, для управления роботами без полной зависимости от сторонних технологий.
Что за роботы Helix?
Одна из важнейших особенностей Helix — возможность взаимодействовать с людьми через естественный язык.
Роботы могут получать команды не только через текст или команды, но и воспринимать голосовые команды в реальном времени. Это помогает сделать взаимодействие более интуитивным и естественным для пользователя.
С роботом можно взаимодействовать на обычном «человеческом языке» (что само по себе достижение), и это открывает массу перспектив, не только в домашних делах.
Helix работает на базе модели Vision-Language-Action (VLA), которая использует комбинацию визуальных данных и языковых команд для управления роботами в реальном времени.
В отличие от традиционных методов, эта модель позволяет роботам обучаться и выполнять задачи, получая голосовые команды на обычном языке. Робот получает голосовую команду, визуально оценивает окружение и выполняет задачу. Например, можно сказать: «Передайте сумку с печеньем роботу справа» или «Примите сумку с печеньем от робота слева и положите в открытый ящик».
На данный момент Helix находится на ранней стадии разработки, это не является полноценным коммерческим релизом.
В чем новация модели?
Helix использует синергетический подход, в котором объединяются визуальные данные с текстовыми или голосовыми командами.
Модель Vision-Language-Action (VLA) включает три ключевых компонента:
1. Vision (Зрение) — использование камер и сенсоров для восприятия окружающей среды. Робот "видит" объекты и оценивает их характеристики: форму, размер, цвет и другие физические параметры. 2. Language (Язык) — способность воспринимать и интерпретировать команды, подаваемые на естественном языке (например, «положи чашку на стол» или «возьми книгу с полки»).
3. Action (Действие) — выполнение задачи на основе полученной информации от зрения и языковых команд.
Что это означает на практике?
1) Работа с незнакомыми предметами без дополнительного обучения. Helix поддерживает множество объектов с разными характеристиками, которые могут быть не встроены в процессе обучения. Например, робот может взять незнакомый предмет — скажем, новый вид чашки, с которым он никогда не работал — только на основе языковой команды, без необходимости перенастройки или добавления в базу данных.
2) Понимание контекстных команд. Робот анализирует окружающее пространство с помощью камер, распознает объекты и принимает решение о том, как выполнить задачу на основе естественного языка. Например, получив команду "поставь чашку на полку", робот сначала оценивает, где находится чашка, какие объекты находятся вокруг, затем решает, как правильно переместить чашку, избегая столкновений. Координация нескольких роботов. Модель может управлять двумя роботами одновременно.
В чем преимущества такого робота?
1. Меньше потребности в ручном программировании: робот может адаптироваться и учиться новым действиям, что сокращает потребность в ручном вмешательстве.
2. Использование естественного языка: прощает процесс эксплуатации и делает взаимодействие с роботом более доступным.
3. Многофункциональность: Helix подходит для работы в различных областях, где роботы должны взаимодействовать с людьми и другими устройствами, например, в офисах, на складах или в производственных цехах.
Кроме того, модель натренировали это всего на 500 часах данных (что мало, а значит, доступно другим стартапам.
Домашние роботы – это так сложно для робота?
Обучение роботов новым действиям требует значительных усилий, и этот процесс пока не масштабируем.
Например, роботы, обученные в лабораториях, должны повторить задачу сотни раз, прежде чем смогут выполнять ее корректно в реальной жизни.
Одной из главных трудностей является управление роботом в домашней обстановке, так как дома часто нет четкой структуры, как в складах или фабриках. Разнообразие предметов и условий ставит большие вызовы перед роботами. Несмотря на трудности, Figure ставит перед собой цель адаптировать роботов для домашних условий, уверяя, что для этого роботы должны развивать «умные» поведения по запросу, в том числе с объектами, которые они не видели ранее.
Helix обучается в реальных условиях, что дает больше гибкости.
Например, роботы могут работать в домашних условиях, где каждый день приносит новые объекты, которые могут быть совершенно незнакомыми. На данный момент технология еще на ранней стадии развития.
Обучение роботов новым действиям, несмотря на использование ИИ, требует значительных ресурсов и времени. Технология зависит от огромного количества данных и повторений, чтобы робот мог научиться выполнять задачи точно и эффективно. Кроме того, несмотря на улучшение технологий, многие сложные задачи, такие как работа с бытовыми приборами или перемещение по сложным маршрутам, все еще требуют доработки.
На основе данных сайта Figure и публикации на TechCrunch