Kandinsky 2.2: что нового в нейросети от Сбера

Вчера Кандинский обновился до версии 2.2. Мы решили сравнить его с предыдущей версией и заодно проверить, начал ли он догонять известную нейросеть Midjourney. Итак, спойлер: он пока еще не дотягивает до уровня Midjourney, но новое обновление вышло действительно интересным!

В обзоре будем сравнивать версии 2.1 и 2.2, используя один и тот же промпт. И чисто из интереса те же промпты выдадим Midjourney.

Идеи для промптов брали на сайте Prompt Hero — постарались выбрать разные тематики. Кандинский понимает запросы и на русском, и на английском, так что переводить мы их не стали.

Немного об обновлении

Основные положения обновления:

  1. Генерируемые изображения стали более фотореалистичными;
  2. Теперь можно указывать соотношения сторон будущего изображения. Раньше генерируемые изображения были ограничены квадратным форматом 1:1;
  3. Функционал ControlNet: он предоставляет вам возможность вносить локальные изменения на картинке без изменения всей сцены.

Портрет

Решили начать с портретов, чтобы проверить, насколько изображения стали более реалистичными

a commercial photo portrait of stunning instagram model, sparklecore, appropriation artist, shiny/glossy, clear edge definition, unique and one-of-a-kind pieces, light brown and light amber, Fujifilm X-T4, Sony FE 85mm f/1. 4 GM

Кандинский 2.1 vs 2.2

Сразу заметна разница. Хотя с первого взгляда и видно, что это не фотография живого человека (либо сильно отфотошопленная версия), но результаты уже получше. Для сравнения вот такую фотореалистичность сейчас выдает Midjourney:

Kandinsky 2.2: что нового в нейросети от Сбера

Не удержались и решили провести эксперимент на Папе Римском. В этот раз мы обойдемся без переодевания его в белый пуховик (вы еще помните тот тренд с Баленсиагой?), а отправим его в Майами в 80-е годы.

Pope Francis in 80s Miami Style

Кандинский 2.1 vs 2.2

Вот тут мы не сильно впечатлились. Версия 2.1 получается даже более интересной и оригинальной. Да и цветовая гамма у нее сразу ассоциируется с розовым стилем и пальмами, о которых думаешь, когда слышишь о Майами 80-х. Версия 2.2 от Кандинского имеет излишнюю желтую насыщенность, это кстати сильный минус новой версии. Кажется, в 2.1 этого было меньше. Ну ладно, пойдем дальше.

Кстати, вот вам версия от Миджорни:

Kandinsky 2.2: что нового в нейросети от Сбера

Несмотря на колоссальную разницу в качестве, 2.1 и Midjourney в общем-то попали в один вайб!

Стиль: мультфильм

Ладно, давайте оставим фотореализм на время и сделаем что-то забавное и мультяшное. Вот промпт, который мы выбрали:

a cartoon of an astronaut in space full of other characters, in the style of dreamscape portraiture, youthful protagonists, dark cyan and bronze, vibrant murals, lit kid, photorealistic renderings, intricate underwater worlds

Кандинский 2.1 vs 2.2

Есть впечатление, что новая версия стала чуть более... скучной? Мы пробовали этот промпт в разных стилях — и в мультфильме, и в аниме, и во всяких разных. Однако все равно получается некая «пустоватая» картинка с характерной засвеченностью. В общем, мы снова хотим отдать свой голос за предыдущую версию.

А вот Midjourney:

Kandinsky 2.2: что нового в нейросети от Сбера

Как будто бы они тут с 2.1 опять мыслили в одном направлении. У Кандинского даже персонажи на заднем фоне повеселее вышли :)

Предметная съемка

Одно из интересных применений нейросетей — генерировать референсы для предметных съемок. Давайте попробуем создать рекламу бургера!

Flying food photography with a burger as the main theme, splash of toppings and spices, cheddar flavored cheese, onion, pickles, sesame Bun

Кандинский 2.1 vs 2.2

Опять же, версия 2.1 действительно проявляет больше фантазии, здесь и соусы, и кусочки бургеров. Зато вот у 2.2 получается гораздо реалистичнее.

И вот такой результат показывает Midjourney:

Kandinsky 2.2: что нового в нейросети от Сбера

Архитектура

Давайте попросим нейросеть нарисовать для нас интерьер дома с большими окнами, открытой планировкой и использованием натуральных материалов.

open spaces that are arranged to be viewable, in the style of ludwig mies van der rohe, light brown and light amber, post-war french design, voigtlander brilliant, balcomb greene, use of common materials, windows vista

Кандинский 2.1 vs 2.2

Девиз 2.2: Еще больше желтизны богу желтизны...

Midjourney
Midjourney

Животные

Давайте еще раз вернемся проверить фотореалистичность. Хотим ленивца!

A photo of a cute sloth swimming in a river, summer day

Кандинский 2.1 vs 2.2

Ну, стало чуть более реалистично. Но все равно заметна повторяющаяся проблема с излишней насыщенностью.

Забавно наблюдать, как Миджорни и версия 2.1 выдают примерно похожие результаты:

Kandinsky 2.2: что нового в нейросети от Сбера

Еще немного сравнений 2.1 и 2.2

Действительно, различия между версиями 2.1 и 2.2 заметны сразу. Даже если бы все эти изображения были представлены в одинаковом формате и размере, все же было бы возможно легко отличить две версии.

Новая функция: смешивание картинки и текста

В телеграм-боте Кандинского появились новые функции взаимодействия с изображениями, например возможность «смешивания». В этом режиме, по аналогии с функцией «remix» в Midjourney, вы можете загрузить изображение и написать тестовый промпт. Тогда нейросеть не только сгенерирует изображение, но и возьмет за основу загруженное изображение.

Для эксперимента, мы решили взять портрет девушки, который сгенерировали ранее, и в промпте написали всего одно слово: смокинг.

До
До
После
После

Вышло интересно, вот это нам понравилось :)

Новая функция: перенос стиля

Очень похоже на функцию смешения. Здесь вы можете использовать одно изображение в качестве основы и передать его стиль другому. Не нужно дополнительно писать, что вы хотите получить — нейросеть все сделает сама.

Нажали «смешать картинки» и получили это:

Kandinsky 2.2: что нового в нейросети от Сбера

Функции смешения и переноса стиля тянут потестировать их еще. Можете загружать свои фотографии и использовать их в качестве основы для генерации других изображений с разными стилями. Поле для экспериментов огромное!

Делаем стикеры

Выбираете соответствующую команду в меню тг-бота, вводите промпт, и получаете изображения, которые можно сразу же использовать для создания стикерпака прямо в телеграме:

Kandinsky 2.2: что нового в нейросети от Сбера

Вот это крутая функция, особенно для любителей собирать свои собственные наборы стикеров. Теперь вам не нужны никакие сторонние программы, чтобы создавать свои уникальные стикеры и делиться ими с друзьями.

Midjourney так не умеет!

Итог

Новые функции 2.2 нам понравились. В них не нужно долго разбираться да и проблем с ними не возникло.

Конечно, Кандинский, несмотря на свои достоинства, уступает Midjourney во многих аспектах. Но учтем, что Midjourney имеет больший объем данных для обучения — будем верить, что у Кандинского еще все впереди!

Недостаток обновления, который нас расстроил — «безликость» и желтизна получаемых изображений. Кроме того, несмотря на увеличение количества стилей до двадцати, разница между ними оказалась не всегда заметна и особого восторга не вызвала.

Как вам обновление? Успели затестить?

Подписывайтесь на наш телеграм-канал: мы следим за новостями в сфере нейросетей и рассказываем только самое главное. А еще устраиваем интерактивы и тестируем нейросетки вместе с подписчиками ⚡

77
5 комментариев

Говорят что 2.1 круче чем 2.2, но прошлую потестить не успел. Делюсь что получилось в этой

1
Ответить

2.1 можно потестить здесь: https://rudalle.ru/kandinsky2 🙌🏼

1
Ответить

Да не, пока вообще шлапа.

Ответить

Про стикеры очень интересно! Надо изучить!

Ответить

Второй кандинский, такое ощущение, был отдан на откуп китайским разработчикам - что не генерация, то азиаты, кислотные цвета или откровенная пластмасса. Художественные стили, которыми славился старый кандинский 2,1 были великолепны, в новом 2,2 это адский ужас и кислота в глаза. Самое смешное, что некоторые промты просто перестали обрабатываться или работают через раз. Часто выскакивает запрет в совсем уж неожиданных местах. Что еще хуже, хотя и старую версию оставили, на нее теперь тоже периодически накатывает азиатская кислотная пластмасса. Ничего против азиатов не имею, но если я хочу видеть в кадре, например, афроамериканца, а мне выдают китайца в совершенно другом сеттинге, то это, как минимум, раздражает.

Ответить