Нейросеть Kandinsky 4.0 Video: что умеет и чем отличается от предыдущей модели

Обновленная версия генерирует более реалистичные видео, но иногда превращает животных в персонажей хорроров.

В декабре «Сбер» представил обновлённую версию нейросети Kandinsky на конференции AI Journey 2024. По сравнению с предыдущей моделью Kandinsky 4.0 создаёт ещё более реалистичные видео на основе промпта или загрузки картинки.

Пока что пользоваться новой версией могут дизайнеры, художники, кинематографисты и блогеры, которым разработчики предоставили доступ. А для остальных пользователей его обещают открыть в первом квартале 2025 года. Но, несмотря на это, протестировать генерацию видео всё-таки можно — на онлайн-ресурсе Hugging Face.

Содержание:

Что такое Kandinsky
Что изменилось
Где протестировать Kandinsky 4.0
Инструкция: как генерировать видео
Плюсы и минусы: реализм, галлюцинации и немного хоррора
Насколько хорошо Kandinsky 4.0 T2V Flash понимает промпты
Коротко: что известно о Kandinsky 4.0 уже сейчас

Это нейросеть, которая создаёт изображения, анимацию и видео, лимита по количеству генераций в день нет.

Kandinsky полностью бесплатная.
Нейросетью можно пользоваться на нескольких ресурсах: на сайтах Fusion Brain и ruDALL-E, через чат-бота в Telegram и чат-бота в VK, приложении «Сбербанк онлайн», в виртуальном ассистенте в Android-приложении «Салют», через «Салют ТВ» по команде «Включи художника».
Исксутвенный интеллект хорошо понимает промпты как на русском, так и на английском языке.
Качество видео в предыдущей версии нейросети сильно отставало от качества изображений.

Больше о Kandinsky — в статье.

Главное — видео теперь выходят реалистичнее.

Картинка уже не напоминает компьютерную игру из 90-х или десятки раз перезаписанную кассету VHS. Например, до этого среднестатический ролик, сгенерированный в Kandinsky, выглядел так:

Видео, сгенерированное в предыдущей версии Kandinsky по промпту «Корабль плывёт по морю».

Ещё частенько Kandinsky выдавал такое:

Видео, сгенерированное в предыдущей версии Kandinsky по промпту «Молодой парень в белой футболке, джинсах и бейсболке едет на скейте по городу, на фоне парк аттракционов, снято на плёнку, кинематографичное видео».

А вот какой степени реалистичности разработчики добились в Kandinsky 4.0:

Видео, сгенерированное в Kandinsky 4.0 T2V Flash по промпту «Пиратский корабль, плывущий по морским волнам, 4K».

Нейросеть от «Сбера» создаёт видео в разрешении HD (1280×720) длительностью 12 секунд. А до этого генерировала только 5-секундные ролики.
Новая версия Kandinsky создаёт видео не только по промпту — можно загрузить изображение, которое станет первым кадром видеоролика.
Добавились новые соотношения сторон: 1:2 и 2:1. Раньше их было три: 1:1, 16:9 и 9:16.

Пару слов про устройство Kandinsky 4.0

Новая версия Kandinsky состоит из четырёх моделей:

T2V — основная модель. Отвечает за создание видео в разрешении HD по текстовому промпту. Правда, как быстро модель генерирует контент — пока не ясно.
T2V Flash — создаёт ролики по текстовому промпту за 15 секунд, но в качестве 720×480р. Для сравнения: в предыдущей версии на генерацию обычно уходило от четырёх минут.
T2V — генерирует видео по загруженному изображению.
V2A — создаёт аудио по видео.

Поможет Hugging Face — онлайн-сервис, на котором можно бесплатно протестировать нейросети. Сейчас на нём есть только одна модель Kandinsky — T2V 4 Flash.

Бесплатно без регистрации можно генерировать примерно три ролика в день. У зарегистрированных пользователей лимит увеличен, его хватает в среднем на пять-шесть роликов. Есть ещё платная подписка Pro за $9 в месяц, которая поднимает лимит на х5.

Пока что вместо обещанных 15 секунд Kandinsky T2V 4 Flash генерирует видео в среднем за одну минуту. Возможно, разработчики исправят это позже.

Инструкция

Открыть вкладку «Spaces».

Найти в поиске Kandinsky и выбрать Kandinsky 4 Flash.

Составить промпт в строке «Enter your prompt» и выбрать соотношение сторон в «Aspect ratio».

Ещё можно нажать на «Beautify your prompt», и тогда нейросеть сама дополнит запрос деталями.

Подсказка: пока что Kandinsky 4.0 T2V 4 Flash лучше понимает длинные подробные промпты, в особенности те, что составлены с помощью функции «Beautify your prompt». Чем детальнее промпт, тем выше вероятность получить релевантный результат. Если нужно создать реалистичное видео спящего кота, лучше расписать стиль изображения, цвет, фон, окружающие предметы и так далее. Больше о том, как создавать промпты в Kandinsky, — в статье.

Кликнуть на «Generate». После того как нейросеть сгенерирует видео, можно отредактировать промпт, если результат не понравится.

Ниже — инструкция, как создавать ролики в старой версии Kandinsky. Не исключено, что после обновления разработчики что-то изменяет в интерфейсе.

Чтобы сгенерировать видео, нужно:

Зайти в раздел «Видео» в левом меню и выбрать модель «Видео».

Написать промпт, выбрать размер и кликнуть на «Создать видео». Как только пользователь открывает вкладку «Видео», он видит случайный промпт, уже составленный нейросетью. Чтобы составить собственный, нужно просто удалить запрос от Kandinsky и потом написать свой. Например, в этот раз промпт от нейросети был таким: «Пиратский корабль, плывущий по морским волнам, 4K».

Получить сгенерированное видео и, если результат не устроит, изменить промпт. А вот отредактировать уже сгенерированное видео нельзя.

Выводы делать сложно, потому что «Сбер» ещё не открыл доступ к Kandinsky 4.0 всем пользователям. Ниже — только то, что удалось выяснить благодаря Hugging Face.

Плюсы:

Видео выглядят реалистичнее, меньше дрожат и пикселятся.
Теперь Kandinsky генерирует видео длительностью 12 секунд, раньше было 5.
Разработчики обещают, что нейросеть позволит сохранять ролики в качестве HD.

Минусы:

При создании видео по текстовому промпту нейросеть часто галлюцинирует. Галлюцинациями называют отхождение от промпта и любые странности, которые выдаёт искусственный интеллект. Допустим, когда пользователь просит создать двух персонажей, а получает трёх — это галлюцинация. Или когда нейросеть генерирует кота по промпту, но почему-то добавляет пятую лапу — тоже.

Например, таким получилось видео по запросу «Собака бежит по пляжу на рассвете». И такая абстракция в ответ на любой промпт — вообще не редкость.

А ещё Kandinsky часто не учитывает анатомию, хотя и соблюдает промпт. Выходит жутковатый микс: из-за того, что само изображение выглядит реалистично, животные и люди превращаются в героев хоррора.

Например, вот что нейросеть сгенерировала про промпту «Милый рыжий кот спит на диване».

А здесь запрос был «Собака танцует на фоне египетской пирамиды, яркие цвета, жизнерадостное видео, мультипликация».

Можно, конечно, дать шанс Kandinsky сгенерировать видео по промпту на английском языке. Допустим, по такому: «Two cute puppies are playing» («Два милых щенка играют»).

Или расширить этот же промпт с помощью «Beautify your prompt»: «Two adorable puppies, one with fluffy golden fur and the other with soft white fur, are frolicking in a lush green meadow on a sunny day. The golden puppy chases a colorful ball, while the white puppy jumps playfully around him. They tumble over each other, wagging their tails excitedly. The scene is filled with laughter and joy as they explore their surroundings, sniffing flowers and running through puddles» («Два очаровательных щенка, один с пушистой золотистой шёрсткой, а другой — с мягкой белой, резвятся на зелёном лугу в солнечный день. Золотистый щенок гоняется за разноцветным мячиком, а белый щенок игриво прыгает вокруг него. Они кувыркаются друг через друга, радостно виляя хвостами. Сцена наполнена весельем и радостью, щенки исследуют окрестности, нюхают цветы и бегают по лужам»).

Ниже — примеры, которые показывают, как Kandinsky справляется с промптами.

Промпт: «A ginger cat is peacefully sleeping on a cozy sofa. The room is warm and inviting, with soft afternoon sunlight filtering through the curtains. The cat’s fur is a rich, deep orange, and it rises and falls gently with each breath. Occasionally, its paws twitch slightly as if dreaming of chasing imaginary prey. The scene is serene and tranquil, capturing the essence of a lazy afternoon nap» («Рыжий кот мирно спит на уютном диване. В комнате тепло и уютно, сквозь шторы проникает мягкий полуденный солнечный свет. Шерсть кота насыщенного тёмно-оранжевого цвета мягко поднимается и опускается при каждом вздохе. Время от времени лапы слегка подёргиваются, как будто во сне кот гонится за воображаемой добычей. Сцена безмятежная и спокойная, передающая суть ленивого послеобеденного сна»).

Промпт: «Утро в летнем лесу. Ветер колышет зелёные деревья. На голубом небе ярко светит солнце, его лучи проникают сквозь густую листву, создавая игру света и тени. Всё вокруг наполнено гармонией и безмятежностью».

Промпт: «Милая девушка с розовыми волосами сидит на диване и читает книгу. На девушке белая футболка, голубые джинсы и жёлтые кеды. На фоне висят плакаты музыкальных групп».

Промпт: «Самолёт летит по небу, реалистичное видео».

Промпт: «A red car is driving through a bustling city at night, with neon signs illuminating the streets. The camera follows the car as it maneuvers smoothly through traffic, capturing the vibrant colors of the city lights reflecting off its sleek surface. The atmosphere is lively, with people walking on the sidewalks and other cars passing by. The neon signs cast a warm glow, adding to the realistic and immersive feel of the video» («Красная машина едет по оживлённому городу ночью, улица освещена неоновыми вывесками. Камера следует за автомобилем, который плавно маневрирует в потоке, запечатлевая яркие цвета городских огней, отражающиеся на его гладкой поверхности. Атмосфера оживлённая: по тротуарам гуляют люди, мимо проезжают другие автомобили. Неоновые вывески создают тёплое свечение, придавая видео ре��листичность и эффект полного погружения»).

Промпт: «В ярком и красочном анимационном стиле нарисованные кролики прыгают по тропинке в лесу. Солнечные лучи пробиваются сквозь кроны деревьев, создавая игру света и тени. Яркие красочные цвета, радостная атмосфера».

Промпт: «Мотоциклист быстро едет по дороге в пустыне, реалистичное видео, максимальная детализация».

Пока что пользоваться Kandinsky 4.0 могут дизайнеры, художники, кинематографисты и блогеры, которым разработчики предоставили доступ. А вот остальным его откроют в первом квартале 2025 года.
Протестировать генерацию видео в разрешении 720×480р по текстовому промпту уже можно на онлайн-сервисе Hugging Face. Это бесплатно.
Теперь Kandinsky генерирует видео длительностью 12 секунд. Максимальное разрешение — HD (1280×720р).
Kandinsky 4.0 пока часто галлюцинирует — создаёт не то видео, которое просит пользователь.

А в какой нейросети вы обычно генерируете видео?

Нейросеть Kandinsky 4.0 Video: что умеет и чем отличается от предыдущей модели

Что такое Kandinsky

Что изменилось

Где протестировать Kandinsky 4.0

Инструкция: как генерировать видео в Kandinsky

Плюсы и минусы: реализм, галлюцинации и немного хоррора

Насколько хорошо Kandinsky 4.0 T2V Flash понимает промпты

Коротко: что известно о Kandinsky 4.0 уже сейчас