Stability AI представили ИИ виртуальную камеру: генерация многовидового видео с управлением 3D-камерой
Представляем стабильную виртуальную камеру, которая в настоящее время находится в стадии предварительного просмотра. Эта многовидовая диффузионная модель преобразует 2D-изображения в захватывающие 3D-видео с реалистичной глубиной и перспективой - без сложной реконструкции или оптимизации для конкретной сцены.
Модель генерирует 3D-видео из одного входного изображения или до 32, следуя заданным пользователем траекториям камеры, а также 14 другим динамическим траекториям камеры, включая 360 °, лемнискат, спираль, масштабирование, перемещение, панорамирование и крен.
Стабильная виртуальная камера доступна для исследовательского использования по некоммерческой лицензии. Вы можете прочитать статью здесь, скачать утяжелители для Hugging Face и получить доступ к коду на GitHub.
Сегодня мы выпускаем стабильную виртуальную камеру, которая в настоящее время находится в стадии предварительного просмотра. Эта многовидовая диффузионная модель преобразует 2D-изображения в захватывающие 3D-видео с реалистичной глубиной и перспективой - без сложной реконструкции или оптимизации для конкретной сцены. Мы приглашаем исследовательское сообщество изучить ее возможности и внести свой вклад в ее развитие.
Виртуальная камера - это цифровой инструмент, используемый в кинопроизводстве и 3D-анимации для захвата цифровых сцен и навигации по ним в режиме реального времени. Стабильная виртуальная камера основана на этой концепции, сочетая привычное управление традиционными виртуальными камерами с возможностями генерирующего искусственного интеллекта для обеспечения точного и интуитивно понятного управления выводом 3D-видео.
В отличие от традиционных моделей 3D-видео, которые полагаются на большие наборы входных изображений или сложную предварительную обработку, стабильная виртуальная камера создает новые виды сцены из одного или нескольких входных изображений под заданными пользователем углами камеры. Модель обеспечивает последовательный и плавный вывод 3D-видеосигнала, обеспечивая плавную траекторию движения по динамическим траекториям камеры.
Модель доступна для исследовательского использования по некоммерческой лицензии. Вы можете прочитать статью здесь, загрузить утяжелители для Hugging Face и получить доступ к коду на GitHub.
Возможности
Стабильная виртуальная камера предлагает расширенные возможности для генерации 3D-видео, в том числе:
- Динамическое управление камерой: Поддерживает заданные пользователем траектории камеры, а также несколько динамических траекторий камеры, в том числе: 360 °, лемнискат (траектория в форме∞), спираль, увеличение и уменьшение масштаба, увеличение и уменьшение масштаба, перемещение вперед, перемещение назад, панорамирование вверх, панорамирование вниз, панорамирование влево, панорамирование вправо и поворот.
- Гибкие входные данные: генерирует 3D-видео всего из одного входного изображения или до 32.
- Несколько соотношений сторон: возможность создавать видео в квадратном (1: 1), портретном (9: 16), альбомном (16: 9) и других пользовательских соотношениях сторон без дополнительной подготовки.
- Генерация длинного видео: обеспечивает согласованность 3D в видеороликах до 1000 кадров, обеспечивая плавные циклы и переходы, даже при повторном просмотре с одних и тех же точек обзора.
Исследования и архитектура модели
Стабильная виртуальная камера обеспечивает самые современные результаты в новых тестах view synthesis (NVS), превосходя такие модели, как ViewCrafter и CAT3D. Он превосходит как NV с большой точкой обзора, что подчеркивает мощность генерации, так и NV с малой точкой обзора, в которой приоритет отдается временной плавности.
Стабильная виртуальная камера обучается с фиксированной длиной последовательности как многовидовая диффузионная модель, принимая заданное количество входных и целевых просмотров (M-in, N-out).
Стабильная виртуальная камера обучается как многовидовая диффузионная модель с фиксированной длиной последовательности, используя заданное количество входных и целевых просмотров (M-in, N-out). Во время выборки он функционирует как гибкий инструмент генеративного рендеринга, позволяющий изменять длину ввода и вывода (P-in, Q-out). Это достигается за счет двухпроходного процедурного процесса выборки — сначала генерируются привязочные виды, затем рендерятся целевые виды частями для обеспечения плавных и последовательных результатов.
Чтобы глубже погрузиться в архитектуру и производительность модели, вы можете прочитать полный исследовательский документ здесь.
Ограничения модели
В своей начальной версии стабильная виртуальная камера в определенных сценариях может выдавать результаты более низкого качества. Входные изображения с участием людей, животных или динамических текстур, таких как вода, часто приводят к ухудшению результатов. Кроме того, очень неоднозначные сцены, сложные траектории движения камеры, пересекающие объекты или поверхности, и объекты неправильной формы могут вызывать артефакты мерцания, особенно когда целевые точки обзора значительно отличаются от входных изображений.
Начало работы
Стабильную виртуальную камеру можно бесплатно использовать в исследовательских целях по некоммерческой лицензии. Вы можете прочитать статью и загрузить гири на Hugging Face и код на GitHub.
Чтобы быть в курсе наших достижений, подписывайтесь на X, LinkedIn, Instagram и присоединяйтесь к нашему сообществу Discord.