Сэм Альтман опять всех мощно уделал: OpenAI представила Sora, которая генерит фантастические видео. Внутри примеры
Новая (и бесспорно, революционная) модель OpenAI принимает текстовые подсказки и превращает их в «сложные сцены с несколькими персонажами, определенными типами движения» и много чего еще. Разберемся по порядку. Но сначала демка:
Итак, пока вы охаете, я раскрою детали: OpenAI представила новую модель генерации видео — Sora. Альтман написал, что Сора «может создавать реалистичные и творческие сцены из текстовых инструкций». Модель преобразования текста в видео позволяет пользователям создавать фотореалистичные видеоролики продолжительностью до минуты — и все это на основе написанных ими подсказок.
Хотите быть в курсе всех новостей ИИ? Подписывайтесь на телеграм-канал "Нейронутые", где я рассказываю о том, что происходит в этой индустрии.
Добавлю: ролики убийственно реалистичны. Gen-2 и прочие нервно сглотнули. Смотрим дальше:
В блоге OpenAI читаем: «Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движения и точными деталями объекта и фона». Компания также отмечает, что модель может понимать, как объекты «существуют в физическом мире», а также «точно интерпретировать реквизит и создавать убедительных персонажей, выражающих яркие эмоции». Смотрим дальше:
Модель может генерировать видео и на из неподвижного изображения (проще говоря анимировать картинки), а также заполнять недостающие кадры существующего видео или расширять его (outpainting)
Демонстрации, созданные Sora поражают. Но многие из них содержат некоторые явные признаки ИИ — например, подозрительно движущийся пол на видео из музея. Вот:
В OpenAI говорят: модель «может испытывать трудности с точным моделированием физики сложной сцены», но результаты в целом довольно впечатляющие. Например такие:
Итак, что имеем? Всего лет назад именно генераторы текста в изображения, такие как Midjourney, выступили на переднем рубеже моделей, способных превращать слова в неподвижные изображения.
Но в последнее время именно ии-видео начало совершенствоваться удивительными темпами.
Такие компании, как Runway (Gen-2) и Pika, продемонстрировали впечатляющие модели преобразования текста в видео, а компания Google Lumiere уже признана одним из основных конкурентов OpenAI в этой области.
Подобно Sora, Lumiere предоставляет пользователям инструменты для преобразования текста в видео, а также позволяет им создавать видео из неподвижного изображения.
А теперь о грустном.
В настоящее время Sora до��тупна только «красным командам», которые оценивают модель на предмет потенциального вреда и рисков. OpenAI также предлагает доступ некоторым художникам, дизайнерам и кинематографистам для получения обратной связи.
Пользователи, получившие доступ, отмечают, что существующая модель может неточно моделировать физику сложной сцены и неправильно интерпретировать определенные случаи причины и следствия.
Хотите быть в курсе всех новостей ИИ? Подписывайтесь на телеграм-канал "Нейронутые", где я рассказываю о том, что происходит в этой индустрии.