Open-Sora 2.0 соответствует конкурентным ИИ видеомоделям при снижении затрат на обучение на 90%
Компания HPC-AI Tech разработала новую модель искусственного интеллекта для генерации видео, которая обеспечивает качество коммерческого уровня примерно за одну десятую от обычных затрат на обучение за счет использования новых методов сжатия.
Подсказка: "Помидор, катающийся по листу салата-латука в водопаде заправки "ранчо", с преувеличенными движениями при серфинге и эффектами сливочных волн, подчеркивающими удовольствие от 3D-анимации ". | Видео: HPC-технология искусственного интеллекта.
Система достигает своей эффективности благодаря трем этапам обучения: начиная с видео с низким разрешением, специализируясь на преобразовании изображения в видео и, наконец, доводя до более высокого разрешения. Команда дополнительно оптимизировала ресурсы, внедрив предварительно подготовленные модели изображений, такие как Flux.
Центральное место в системе занимает автоэнкодер видео DC-AE, который обеспечивает превосходную степень сжатия по сравнению с существующими методами. Это нововведение ускоряет обучение в 5,2 раза и повышает скорость генерации видео более чем в десять раз.
Система с открытым исходным кодом бросает вызов коммерческому видео с искусственным интеллектом
Open-Sora 2.0 может генерировать видео как из текстовых описаний, так и из отдельных изображений. Он включает функцию оценки движения, которая позволяет пользователям контролировать интенсивность движения в создаваемых клипах.
Система имеет заметные ограничения. Видео может достигать разрешения всего 768x768 пикселей и длиться максимум пять секунд (128 кадров). Для сравнения, Sora от OpenAI, которая разделяет с этим проектом только свое название, может генерировать видео с разрешением 1080p продолжительностью до 20 секунд.
Тестирование показало, что система работает почти на коммерческом уровне по ключевым показателям, включая качество изображения, оперативную точность и управление движением. Наиболее примечательно, что оценка VBench Open-Sora 2.0 теперь отстает от Sora OpenAI всего на 0,69%, существенно сокращая разрыв в 4,52%, наблюдавшийся в предыдущей версии.
Open-Sora теперь доступен с открытым исходным кодом на GitHub. Как и другие видеомодели с искусственным интеллектом, она по-прежнему сталкивается с проблемами, связанными с случайными артефактами и движениями, нарушающими физику. Вы можете посмотреть больше примеров на официальной странице проекта.
Создание видео с искусственным интеллектом становится все более конкурентной сферой, и китайские компании лидируют в разработке большей части. Новые системы запускаются почти еженедельно, включая проекты с открытым исходным кодом, такие как Genmo Mochi 1и MiniMax Video-01. Хотя эти модели часто демонстрируют скромные улучшения в тестовых показателях, ни одна из них не достигла серьезного прорыва в общем качестве видео.
Стратегии экономической эффективности Open-Sora 2.0 отражают аспекты "момента глубокого поиска" в языковых моделях, когда улучшенные методы обучения помогли системам с открытым исходным кодом достичь производительности коммерческого уровня при сниженных затратах. Это может повлиять на ценообразование во всем секторе видео с искусственным интеллектом, где сервисы, подобные последней модели Google, в настоящее время требуют 0,50 цента в секунду из-за интенсивных вычислительных потребностей..
Однако разрыв в производительности между открытым исходным кодом и коммерческим видео с искусственным интеллектом остается более значительным, чем в языковых моделях, поскольку даже лидеры отрасли продолжают работать над решением фундаментальных технических проблем.
Какие модели генерации видео популярны на данный момент ещё?
Stable Video
Это модель от третьей ИИ-компании мира, специализирующейся в графике. Перед ней OpenAI и Midjourney.
Модель уже довольно устаревшая и мы ожидаем выход новых.
Luma
Компания Luma сейчас активно развивается и выпускает новые модели одну за другой: Dream Machine, Ray-2, Ray-2-flash.
Видео в моделях Luma и Stable Video генерировали в KolerskyAI.