Open-Sora 2.0 соответствует конкурентным ИИ видеомоделям при снижении затрат на обучение на 90%

Компания HPC-AI Tech разработала новую модель искусственного интеллекта для генерации видео, которая обеспечивает качество коммерческого уровня примерно за одну десятую от обычных затрат на обучение за счет использования новых методов сжатия.

Две женщины сидят на бежевом диване в уютной, тепло освещенной комнате на фоне кирпичной стены. Они ведут веселую беседу, улыбаются и поднимают бокалы с красным вином в кадре среднего размера

Группа антропоморфных грибов устраивает дискотеку посреди темного зачарованного леса, со светящимися неоновыми огнями и преувеличенными танцевальными движениями, их гладкие текстуры и отражающие поверхности подчеркивают комичный 3D-вид

Помидор, катающийся по листу салата-латука в водопаде заправки "ранчо", с преувеличенными движениями при серфинге и эффектами сливочных волн, подчеркивающими удовольствие от 3D-анимации

Подсказка: "Помидор, катающийся по листу салата-латука в водопаде заправки "ранчо", с преувеличенными движениями при серфинге и эффектами сливочных волн, подчеркивающими удовольствие от 3D-анимации ". | Видео: HPC-технология искусственного интеллекта.

Сравнение затрат на обучение: Open-Sora 2.0 требует примерно 200 000 долларов по сравнению с 2,5 миллионами долларов для Movie Gen и 1 миллионом долларов для Step-Video-T2V

Система достигает своей эффективности благодаря трем этапам обучения: начиная с видео с низким разрешением, специализируясь на преобразовании изображения в видео и, наконец, доводя до более высокого разрешения. Команда дополнительно оптимизировала ресурсы, внедрив предварительно подготовленные модели изображений, такие как Flux.

Центральное место в системе занимает автоэнкодер видео DC-AE, который обеспечивает превосходную степень сжатия по сравнению с существующими методами. Это нововведение ускоряет обучение в 5,2 раза и повышает скорость генерации видео более чем в десять раз.

Более высокое сжатие создает несколько менее детализированный результат, но обеспечивает существенно более высокую скорость генерации видео

Open-Sora 2.0 может генерировать видео как из текстовых описаний, так и из отдельных изображений. Он включает функцию оценки движения, которая позволяет пользователям контролировать интенсивность движения в создаваемых клипах.

Более высокие оценки движения приводят к более динамичным движениям камеры и повышению активности сцены

Система имеет заметные ограничения. Видео может достигать разрешения всего 768x768 пикселей и длиться максимум пять секунд (128 кадров). Для сравнения, Sora от OpenAI, которая разделяет с этим проектом только свое название, может генерировать видео с разрешением 1080p продолжительностью до 20 секунд.

Тестирование показало, что система работает почти на коммерческом уровне по ключевым показателям, включая качество изображения, оперативную точность и управление движением. Наиболее примечательно, что оценка VBench Open-Sora 2.0 теперь отстает от Sora OpenAI всего на 0,69%, существенно сокращая разрыв в 4,52%, наблюдавшийся в предыдущей версии.

Open-Sora 2.0 демонстрирует существенные улучшения по сравнению со своей предыдущей версией, сокращая разрыв в качестве с коммерческими системами видео с искусственным интеллектом

Open-Sora теперь доступен с открытым исходным кодом на GitHub. Как и другие видеомодели с искусственным интеллектом, она по-прежнему сталкивается с проблемами, связанными с случайными артефактами и движениями, нарушающими физику. Вы можете посмотреть больше примеров на официальной странице проекта.

Создание видео с искусственным интеллектом становится все более конкурентной сферой, и китайские компании лидируют в разработке большей части. Новые системы запускаются почти еженедельно, включая проекты с открытым исходным кодом, такие как Genmo Mochi 1и MiniMax Video-01. Хотя эти модели часто демонстрируют скромные улучшения в тестовых показателях, ни одна из них не достигла серьезного прорыва в общем качестве видео.

Стратегии экономической эффективности Open-Sora 2.0 отражают аспекты "момента глубокого поиска" в языковых моделях, когда улучшенные методы обучения помогли системам с открытым исходным кодом достичь производительности коммерческого уровня при сниженных затратах. Это может повлиять на ценообразование во всем секторе видео с искусственным интеллектом, где сервисы, подобные последней модели Google, в настоящее время требуют 0,50 цента в секунду из-за интенсивных вычислительных потребностей..

Однако разрыв в производительности между открытым исходным кодом и коммерческим видео с искусственным интеллектом остается более значительным, чем в языковых моделях, поскольку даже лидеры отрасли продолжают работать над решением фундаментальных технических проблем.

Это модель от третьей ИИ-компании мира, специализирующейся в графике. Перед ней OpenAI и Midjourney.

Модель уже довольно устаревшая и мы ожидаем выход новых.

Stable Video

Компания Luma сейчас активно развивается и выпускает новые модели одну за другой: Dream Machine, Ray-2, Ray-2-flash.

Luma Dream Machine

Видео в моделях Luma и Stable Video генерировали в KolerskyAI.

Open-Sora 2.0 соответствует конкурентным ИИ видеомоделям при снижении затрат на обучение на 90%

Система с открытым исходным кодом бросает вызов коммерческому видео с искусственным интеллектом

Какие модели генерации видео популярны на данный момент ещё?

Stable Video

Luma