Китайцы ворвались с мощными видеомоделями — генерация бесконечного видео

SkyReels-V2

Менторство для ML/Computer vision спецов

SkyReels-V2 (вероятно SOTA)

Кратко:

💡 SkyReels-V2 — новая open-source видеомодель для генерации фильмов бесконечной длины.

🧠 Основана на мультимодальной LLM + MoE-архитектуре с поддержкой "киношного" языка (ракурсы, сцены, движения камеры).

📏 Доступны две версии: 1.3B и 14B параметров (под 15 и 52 ГБ VRAM).

🎥 Поддержка видео до 720p и длительности без ограничения.

🔁 Используется собственная техника Diffusion Forcing — позволяет устойчиво генерировать длинные видео.

🏗 Обучение включает поэтапную донастройку, обучение с подкреплением и человеческую аннотацию.

✍ Введён SkyCaptioner-V1 — модель для автоматической разметки видеоданных и создания обучающего корпуса.

🎬 Отличается точным следованием промптам, хорошей динамикой движения и качественной стилизацией под кино.

📂 Код и модели доступны на GitHub: SkyworkAI/SkyReels-V2

Доступны модели для Img2Video, Txt2Video в 720p

Авторы представляют SkyReels-V2 — модель генерации фильмов бесконечной длины, которая преодолевает ограничения современных видеогенераторов (низкое качество движения, короткая длительность, слабое понимание киноязыка). Модель сочетает мультимодальные LLM, многоступенчатое обучение, обучение с подкреплением и специальную диффузионную схему. В основе лежит структурное представление видео и кастомный видеокапшенер SkyCaptioner-V1, обученный на аннотированных данных. Методология включает поэтапную дообработку для улучшения качества движения, визуальной достоверности и соответствия запросу. Результаты показывают высокий уровень качества и открывают путь к профессиональной генерации длинных фильмов.

MAGI-1

🧠 MAGI-1 — новая видеомодель, предсказывающая видео кусками (chunks) по принципу автогрессии.

🔁 Использует монотонно увеличивающийся шум при обучении, что позволяет потоковую генерацию и каузальное моделирование времени.

🎯 Показывает высокие результаты на задачах image-to-video (I2V) с текстовой инструкцией.

📈 Обеспечивает высокую временную согласованность и масштабируемость за счёт алгоритмических новшеств и спец-инфраструктуры.

🎛 Поддерживает управляемую генерацию — можно задавать подсказки chunk за chunk’ом.

⚡ Эффективна в реальном времени — пиковая нагрузка не растёт с длиной видео.

🧩 Крупнейшая версия содержит 24B параметров и работает с контекстом до 4 миллионов токенов.

Пример img2video MAGI-1

Менторство для ML/Computer vision спецов

1
3 комментария