ИИ может развить интуитивное понимание физических законов через самообучение

Такой вывод следует из исследования Meta*, демонстрирующего, как именно ИИ может развить интуитивное понимание физических законов мира.

🔥 Еще больше интересного в моем канале продуктовые штучки

Этот подход позволяет ИИ моделям самостоятельно выявлять и понимать физические закономерности, наблюдая за видеопоследовательностями.

Как обучалась модель?

ИИ модель обучалась распознавать и интерпретировать физические явления, такие как движение объектов, столкновения и изменения формы, исключительно на основе визуального контента.

Модели не получают заранее заданных физических правил; вместо этого они самостоятельно выявляют закономерности через анализ видеоматериалов.

Модель использует архитектуру V-JEPA (Video Joint Embedding Predictive Architecture), которая предсказывает будущее видео в абстрактном пространстве представлений, а не на уровне пикселей. Это позволяет системе фокусироваться на семантических аспектах, таких как движение объектов и их взаимодействия. Для обучения было достаточно 128 часов видео, что кране мало.

ИИ обучается предсказывать скрытые части видео, что напоминает теорию predictive coding в нейробиологии (постоянное предсказание и коррекция ошибок). Был также заимствован методиз детской психологии, в котором модель оценивает уровень "удивления" при столкновении с физически невозможными сценариями (например, мяч, проходящий сквозь стену)

ИИ обучается предсказывать скрытые части видео. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2502.11831&postId=1923867" rel="nofollow noreferrer noopener" target="_blank">Источник</a>. <br />
ИИ обучается предсказывать скрытые части видео. Источник.

Каковы результаты?

V-JEPA достигла 98% точности на синтетических данных IntPhys и 62% на реалистичных InfLevel, тогда как другие модели показывали результаты близкие к случайным .

Данный подход демонстрирует потенциал ИИ в самостоятельном освоении сложных концепций.

Какое это имеет значение?

Этот подход открывает перспективы для улучшения технологий компьютерного зрения, робототехники и других сфер, где важно понимание физического контекста.

Это открывает путь к созданию, например:

  • Роботов, способных предвидеть последствия действий в динамической среде
  • Систем видеонаблюдения с улучшенным анализом аномалий
  • Более эффективных моделей для AR/VR, где физическая согласованность критически важна

Пожалуйста, поддержите меня, поставьте лайк! 🙏

1
1 комментарий