Kandinsky: как пользоваться нейросетью Сбера

Обзор и подсказки для удобной работы.

Нейросеть Kandinsky для генерации картинок и видео

Kandinsky — это нейросеть от «Сбера» для генерации картинок, анимации и видео. По степени реалистичности и детализированности изображений она находится примерно на одном уровне с Midjourney и Stable Diffusion, которых часто называют лучшими ИИ в этой области. Однако у Kandinsky, в отличие от них, нет платных тарифов — можно генерировать бесконечное количество картинок и анимаций.

Содержание

Нейросеть Kandinsky: как всё устроено
Инструкция: как генерировать картинки
Инструкция: как генерировать анимацию
Инструкция: как генерировать видео
Как составлять промпты
Можно ли обойтись без подробного промпта
Примеры сгенерированных картинок с промптами
Очень странные дела: примеры сомнительных генераций
Выводы
FAQ

Нейросеть работает в двух режимах: Kandinsky (картинки и анимация) и Kandinsky Video (видео). Чтобы сгенерировать контент, нужно составить промпт (текстовый запрос), то есть прописать ТЗ для искусственного интеллекта.

Например, «Нарисованный акварелью портрет девушки». При этом ИИ от «Сбера» понимает промпты более чем на 100 языках, в том числе на русском.

Отличие Kandinsky от многих конкурентов: ИИ можно пользоваться на разных платформах:

на сайте Fusion Brain;
на сайте ruDALL-E;
через чат-бота в Telegram;
через чат-бота в VK;
в приложении «СберБанк Онлайн»;
в виртуальном ассистенте в Android-приложении «Салют»;
через «Салют ТВ» по команде «Включи художника».

Интерфейс интуитивный, предусмотрены подсказки, а на сайте есть горячие клавиши.

Источник: Kandinsky

Шанс получить релевантную картинку в Kandinsky довольно высокий, иногда выше, чем в случае с другими нейросетями. Например, если в промпте сказано «чёрный кот в парике», нейросеть, скорее всего, создаст именно его, а не другого кота в шляпе из фольги (тру стори).

Но нужно быть честными: Kandinsky тоже ошибается. Например, на сайте Fusion Brain нейронка в какой-то момент начинает дублировать предыдущие генерации. Приходится перезагружать страницу или даже входить в кабинет заново.

Kandinsky стал продолжением ruDALL-E — первой нейросети от «Сбера» для генерации изображений и анимации, вышедшей 2 ноября 2021 года.

Умеет создавать картинки с нуля и на основе готовых изображений: можно загрузить фото и получить его нарисованную версию. Или сделать микс из двух картинок. Спойлер: иногда исходник с картинкой очень похожи, а иногда — лишь отдалённо.

Промпт для картинки: «Портрет девушки блондинки с длинными волосами на фоне голубого неба. Крупный план, розовый воротник, естественный макияж, длинные сережки с жемчугом».

Слева: фото, которое мы дали нейросети. Справа: то, что Kandinsky выдал без промпта на основе фотографии.

Усложнили задачу и попросили Kandinsky сгенерировать картинку на основе его же предыдущего результата.

В среднем на одну картинку у Kandinsky уходит 2 минуты. В чат-боте Telegram тоже, хотя там результат обещают «примерно за 10 секунд».
Нейросеть предлагает выбрать стиль изображения перед каждой генерацией. Всего их 17. Вероятность того, что нейросеть отрисует изображение в выбранном вами стиле, очень высокая. Но сбои — ещё они называются «галлюцинацией» ИИ — всё равно случаются. В этом случае нужно просто повторить генерацию.

Негативные промпты (то есть формулировки через отрицания) нейросеть тоже понимает. Особенно пригодятся, если надо убрать детали с уже сгенерированного контента. Другой вариант — ластик для удаления ненужных объектов.
На сайте нейросеть генерирует изображения с соотношением сторон 1:1, 16:9, 9:16, 3:2, 2:3. В телеграм-боте доступны только 1:1, 16:9 и 9:16. От соотношения зависит максимальное качество изображения. Например, при 1:1 нейронка автоматически генерирует картинку 1024×1024 px, а при 16:9 — 1024×576 px.
Стандартный формат для скачивания результатов — JPEG. Исключение — изображения, созданные в стиле «3D рендер», они загружаются в PNG.

Анимация в Kandinsky создаётся из нескольких сцен, максимальное количество — четыре. Длительность каждой сцены — 4 секунды.
Чем больше сцен, тем дольше генерация. На анимацию из четырёх сцен в среднем уходит 10 минут (хотя нейросеть обещает управиться за 6).
Соотношение сторон для анимации: 1:1, 9:16, 16:9. При соотношении 1:1 максимальное качество — 640×640 px.
Есть возможность выбрать направление камеры: зум или отдаление, панораму слева направо или снизу вверх и так далее.
Сцены можно менять местами.
Негативные промпты с анимациями не работают.
Скачать анимацию можно только в MP4.

Источник: Kandinsky

Промпт 1 сцены: «Пустыня, 4k». Промпт 2 сцены: «Солнце, 4k».

Kandinsky Video — это первая модель по созданию видео в России, бета-версию которой представили 22 ноября 2023 года.

Максимальная длительность видео — 5 секунд.
Качество хуже, чем на картинках и в анимации.
Приблизительное время генерации — 4 минуты.

Соотношение сторон такое же, как и в анимации: 1:1, 9:16, 16:9.
Негативные промпты не поддерживаются.

Источник: Kandinsky

Результат по промпту: «Корабль плывёт по морю».

Источник: Kandinsky

Результат по промпту: «Рассвет 4K».

Добиться нужного результата с первого раза не так просто.

Например, одна из непростых задач для ИИ — создать изображение с двумя героями и ничего не перепутать. Обычно нейросети то дублируют одного и того же персонажа, то рисуют лишнего. Поэтому ниже — исчерпывающая инструкция, в которой тестируется генерация двух героев одновременно.

Итак, чтобы создать картинку, пользователю нужно:

1. Кликнуть на раздел «Картинки» и выбрать соотношение сторон. Допустим, 16:9.

2. Составить промпт. Чем больше деталей, тем выше вероятность получить релевантный результат. Но если не столь важна точность, можно дать волю Kandinsky — и он создаст картинку на свой вкус. Подробнее — в разделе «Как составлять промпты».

А запрос для генерации двух героев звучит так: «Супермен и Бэтмен сидят на скамейке и едят пиццу, на фоне небоскрёбы, общий план, максимум деталей, яркие цвета».

3. Прописать негативный промпт и выбрать стиль изображения. Но это не обязательно — можно ничего не указывать. Когда всё готово — кликнуть на зелёную кнопку справа в окне промпта.

Ниже выбран стиль «Цифровая живопись», а вот в негативном промпте не прописано ничего.

Источник: Kandinsky

4. Оценить результат. Если результат не устраивает — нужно упрощать логику.

Например, в этом случае нейросеть хорошо справилась с задачей, только вместо Супермена и Бэтмена создала близнецов: от одного героя она взяла костюм, а от другого — шапочку.

5. Изменить промпт, если результат не устроил. А если не нравятся конкретные детали — прописать их в негативном промпте.

Запрос: «Один супермен и один Бэтмен сидят на скамейке и едят пиццу, на фоне небоскрёбы, общий план, максимум деталей, яркие цвета». Ещё ради эксперимента в негативном промпте указана «Ночь».

Результат: Kandinsky создал день, заменил шапочку и лосины, но героев оставил прежними.

Попробовать ещё раз переписать обычный и негативный промпты — и так до тех пор, пока ИИ не сгенерирует релевантную картинку.

Ниже — пара скринов с попытками и запросами.

Промпт: «Супермен в костюме Супермена и Бэтмен в костюме Бэтмена сидят на скамейке и едят пиццу, на фоне небоскребы, общий план, максимум деталей, яркие цвета».

Промпт: «Супермен вдвоем с Бэтменом сидят на скамейке и едят пиццу, на фоне небоскребы, общий план, максимум деталей, яркие цвета».

6. Применить ластик, чтобы удалить ненужное. А затем — прописать в запросе, что сгенерировать на пустом месте. Появятся слои — чтобы их посмотреть, нужно кликнуть на иконку справа вверху.

Промпт, использованный ниже: «Бэтмен сидит на скамейке и ест пиццу, на фоне небоскрёбы, общий план, максимум деталей, яркие цвета».

Источник: Kandinsky

Сработало.

Осталось разобраться с шапочкой Супермена. Промпт: «Голова супермена».

И снова сработало.

Если нужен Супермен повеселее и без летающего объекта над головой — можно продолжать дальше.

Ну а если и так сойдёт — значит, и так сойдёт :)

Анимация в Kandinsky состоит из сцен, количество которых выбирает пользователь.

1. Кликнуть на «Видео» и выбрать модель «Анимация».

2. Составить промпт для каждой сцены и указать соотношение сторон. Если нужно — выбрать направление камеры. На примере внизу — панорама слева направо.

Когда всё готово — нажать на «Создать анимацию».

3. Отредактировать промпты или поменять сцены местами, если результат не устраивает.

Результат — ниже. Что удивило: Kandinsky понял, что в ролике должна быть одна и та же белка. Появляется она чаще, чем подразумевалось в запросе, и в некоторых сценах держит книгу, но в целом — результат релевантный.

Источник: Kandinsky

1. Кликнуть на «Видео» и выбрать модель «Видео».

2. Составить промпт, выбрать соотношение сторон и кликнуть на «Создать видео».

Промпт ниже: «Молодой парень в белой футболке, джинсах и бейсболке едет на скейте по городу, на фоне парк аттракционов, снято на плёнку, кинематографичное видео».

3. Оценить результат и, если нужно, переписать запрос. Отредактировать уже сгенерированное видео не получится.

Источник: Kandinsky

Если хочется создать определённую картинку, важно дать ИИ как можно больше данных.

Выносите самое важное в начало. Кто или что на картинке или видео → что герой делает или что происходит → детали. Правило не железное, но такая последовательность помогает ИИ сфокусироваться.
Не забывайте о деталях. Речь о фоне, времени дня, погоде, цветах, настроении, крупности плана, технических характеристиках фотоаппарата или стиля рисования и так далее. Не обязательно указывать всё, главное — дать нейросети понять, что должно получиться в итоге.
Упрощайте конструкции. Сложные варианты с деепричастными оборотами не нужны: чем проще формулировка, тем выше вероятность, что нейросеть считает запрос верно.
Избегайте метафор, пользуйтесь прямыми отсылками. Если указать художника или, допустим, фильм, искусственный интеллект сгенерирует картинку или ролик в этом стиле. Например, «Закат в стиле Малевича» или «Кот и собака в стиле „Криминального чтива“».
Подсматривайте чужие промпты. Часто это помогает понять логику ИИ и экономит время.

Обычно чем подробнее запрос, тем красивее картинка. Однако Kandinsky умеет создавать симпатичные изображения даже без длинных промптов.

Поэтому если детали не так важны, достаточно ограничиться одним словом — и Kandinsky сгенерирует изображение на свой вкус.

К примеру, вот что сгенерировал Kandinsky по промпту «Лошадь».

А вот картинка по промпту «Машина».

Промпт: «Реалистичное фото, плёнка 35 мм, милая молодая девушка блондинка с длинными волосами ночью, большие глаза, пухлые губы, естественный макияж, белая майка, крупные серьги, ночные огни, портрет, максимум деталей». Стиль: «Детальное фото» (сгенерировано на сайте Fusion Brain).

Промпт: «Мопс в короне сидит на троне, картина в стиле Веласкеса, максимум деталей». Стиль: нет (сгенерировано в чат-боте Telegram).

Промпт: «Закат в пустыне, максимальный реализм». Стиль: «Детальное фото» (сгенерировано на сайте Fusion Brain).

Промпт: «Американский мотель ночью, неоновые огни, рядом машина mustang. кинематографичное реалистичное изображение». Стиль: нет (сгенерировано на сайте Fusion Brain).

Промпт: «Кот спит на диване, реализм, максимум деталей, неяркие цвета». Стиль: нет (сгенерировано в чат-боте Telegram).

Промпт: «Сочный бургер, картошка фри и бутылка колы на столе, яркие цвета, максимум деталей». Стиль: «Детальное фото» (сгенерировано в чат-боте Telegram).

Промпт: «Медвежонок в лесу днём, жизнерадостная картинка, яркие цвета». Стиль: «3D рендер» (сгенерировано на сайте Fusion Brain).

Промпт: «Реалистичное фото, молодая девушка с длинными розовыми волосами улыбается, пирсинг в носу, белая футболка, крупные серьги, фон размыт, жизнерадостная картинка, портрет». Стиль: «Детальное фото» (сгенерировано в чат-боте Telegram).

Промпт: «Натюрморт: банан, груша, яблоко. Яркий красный и жёлтый цвет». Стиль: «Пикассо» (сгенерировано на сайте Fusion Brain).

Промпт: «Бульдог идёт по ночному городу». Стиль: «Киберпанк» (сгенерировано на сайте Fusion Brain).

Промпт: «Корабль, море, солнце». Стиль: «Рисунок карандашом» (сгенерировано на сайте Fusion Brain).

Промпт: «Человек сидит за столом и печатает на компьютере, на фоне плакаты с героями боевиков из 90-х, яркие цвета, общий план. Жизнерадостная картинка». Стиль: «Аниме» (сгенерировано в чат-боте Telegram).

Промпт: «Стол». Стиль: «3D рендер» (сгенерировано на сайте Fusion Brain).

Промпт: «Лес ночью в стиле хоррора, общий план, вдалеке идёт человек в клетчатой рубашке и шапке, его освещает свет фар от машины, тёмные цвета, светят звёзды». Стиль: нет (сгенерировано в чат-боте Telegram).

Ниже — три примера, когда генерация свернула не туда. Справедливости ради: даже когда Kandinsky сходит с ума, он всё равно генерирует картинки высокого качества. Так что иногда достаточно просто «подлатать» детали.

Промпт: «Нарисованная грустная лошадь в стиле Симпсонов сидит в парке и ест сэндвич, она одета в джинсы, красную футболку и коричневую бейсболку. Жизнерадостное изображение». Стиль: нет (сгенерировано в чат-боте Telegram).

Промпт, в котором должна была быть рыба: «Единорог, ленивец и рыба играют в карты за столом, стиль нуар, они освещены светом лампы, вокруг темно». Стиль: нет (сгенерировано в чат-боте Telegram).

Промпт, в котором не должно было быть пятой лапы: «Кот в шубе спит на диване, максимум деталей, реалистичное изображение». Стиль: «Классицизм» (сгенерировано на сайте Fusion Brain).

Kandinsky — в первую очередь про красивые картинки. Даже если искусственный интеллект галлюцинирует, он всё равно создаёт качественные, детальные и реалистичные изображения.
Нейросеть смело конкурирует с Midjourney и Stable Diffusion, которых многие называют лучшими ИИ для генерации изображений.
Сервис полностью бесплатный. Правда, периодически сбоит.
А вот с видео ситуация обратная — качество роликов оставляет желать лучшего.

Сохраняются ли генерации в истории?

На сайте нет: если пользователь забудет скачать картинку или ролик — они пропадут. При этом в чат-боте Telegram сохраняется всё.

На каком языке лучше писать промпты — русском или английском?

Kandinsky хорошо понимает запросы на обоих языках.

Что нельзя генерировать в Kandinsky?

Если коротко: Kandinsky отказывается генерировать контент, который нарушает законы страны пользователя и общеэтические нормы. Дисклеймер с запретами — это первое, что видит пользователь после регистрации.

Но временами Kandinsky путает безобидные промпты с «запрещёнкой». К примеру, он в первый раз отказался создавать картинку по запросу «Сочный бургер, картошка фри и бутылка колы на столе, яркие цвета, максимум деталей». Однако после отправки сообщения об ошибке и повторного введения промпта — сгенерировал её.