Хотя генеративная модель, обученная на многолетнем видеоматериале, может точно предсказывать, как отскочит баскетбольный мяч, она не понимает причину — так же, как языковые модели не совсем понимают концепции, стоящие за словами и фразами. Но модель мира, даже с базовым пониманием того, почему баскетбольный мяч отскакивает именно так, будет лучше отображать этот процесс. Для реализации такого понимания модели мира обучаются на разнообразных данных, включая фотографии, аудио, видео и текст, с целью создания у машины внутренних представлений о том, как работает мир, и способности рассуждать о последствиях действий.
Как развитие технологий может повлиять на доступность обучения сложных моделей, таких как Sora, для небольших компаний или исследователей?
С одной стороны, общие вычислительные мощности становятся доступнее благодаря развитию облачных сервисов и новых аппаратных решений. Появляются более эффективные алгоритмы обучения и методы оптимизации, которые снижают требования к ресурсам.
С другой стороны, прямо сейчас модели масштаба Sora требуют колоссальных инвестиций в обучение и инфраструктуру. Текущие оценки затрат на обучение таких моделей находятся в диапазоне десятков миллионов долларов, что делает их разработку доступной только для крупных технологических компаний.
отличная статья
230 миллионов на разработку модели мира? Офигеть
Это область которую они хотят активно развивать или уже продвинутые разработки?
На данный момент моделирование мира - это активно развивающаяся область с большим потенциалом, но еще находящаяся на относительно ранних стадиях. Крупные компании вроде DeepMind, OpenAI и Google Research вкладывают значительные ресурсы в это направление, поскольку оно рассматривается как ключевой шаг к более продвинутому ИИ.
Крупные технологические компании располагают огромными массивами данных, которые потенциально могут быть использованы для развития моделей мира.
Apple собирает данные через свои устройства о том, как люди взаимодействуют с физическим миром, включая движение, жесты, голосовые команды. Google через свои сервисы имеет доступ к огромному количеству визуальной информации (Google Photos, Street View), текстовым данным и поведенческим паттернам пользователей. Meta через свои социальные платформы накапливает данные о социальном взаимодействии, а через проекты виртуальной реальности - о том, как люди воспринимают и взаимодействуют с трехмерным пространством.
Эти данные в сочетании с вычислительными мощностями и финансовыми ресурсамидают этим компаниям серьезное преимущество в разработке систем, способных моделировать различные аспекты реального мира.
А не будет ли проблема в том что ИИ будет саморазвиваться?