Китайцы ворвались с мощными видеомоделями — генерация бесконечного видео
Менторство для ML/Computer vision спецов
SkyReels-V2 (вероятно SOTA)
Кратко:
💡 SkyReels-V2 — новая open-source видеомодель для генерации фильмов бесконечной длины.
🧠 Основана на мультимодальной LLM + MoE-архитектуре с поддержкой "киношного" языка (ракурсы, сцены, движения камеры).
📏 Доступны две версии: 1.3B и 14B параметров (под 15 и 52 ГБ VRAM).
🎥 Поддержка видео до 720p и длительности без ограничения.
🔁 Используется собственная техника Diffusion Forcing — позволяет устойчиво генерировать длинные видео.
🏗 Обучение включает поэтапную донастройку, обучение с подкреплением и человеческую аннотацию.
✍ Введён SkyCaptioner-V1 — модель для автоматической разметки видеоданных и создания обучающего корпуса.
🎬 Отличается точным следованием промптам, хорошей динамикой движения и качественной стилизацией под кино.
📂 Код и модели доступны на GitHub: SkyworkAI/SkyReels-V2
Авторы представляют SkyReels-V2 — модель генерации фильмов бесконечной длины, которая преодолевает ограничения современных видеогенераторов (низкое качество движения, короткая длительность, слабое понимание киноязыка). Модель сочетает мультимодальные LLM, многоступенчатое обучение, обучение с подкреплением и специальную диффузионную схему. В основе лежит структурное представление видео и кастомный видеокапшенер SkyCaptioner-V1, обученный на аннотированных данных. Методология включает поэтапную дообработку для улучшения качества движения, визуальной достоверности и соответствия запросу. Результаты показывают высокий уровень качества и открывают путь к профессиональной генерации длинных фильмов.
MAGI-1
🧠 MAGI-1 — новая видеомодель, предсказывающая видео кусками (chunks) по принципу автогрессии.
🔁 Использует монотонно увеличивающийся шум при обучении, что позволяет потоковую генерацию и каузальное моделирование времени.
🎯 Показывает высокие результаты на задачах image-to-video (I2V) с текстовой инструкцией.
📈 Обеспечивает высокую временную согласованность и масштабируемость за счёт алгоритмических новшеств и спец-инфраструктуры.
🎛 Поддерживает управляемую генерацию — можно задавать подсказки chunk за chunk’ом.
⚡ Эффективна в реальном времени — пиковая нагрузка не растёт с длиной видео.
🧩 Крупнейшая версия содержит 24B параметров и работает с контекстом до 4 миллионов токенов.
Менторство для ML/Computer vision спецов