Whisk: Творчество в одно касание — генерация изображений с помощью визуальных подсказок

Приветствую! Меня зовут Макс Олимпов. Сегодня я поделюсь с вами своим открытием — удивительным инструментом для творчества под названием Whisk. Этот экспериментальный сервис от Google предлагает совершенно новый подход к созданию изображений с помощью визуальных подсказок. Если вас, как и меня, захватывают инновации в мире ИИ и визуального искусства, то Whisk точно вас удивит!

Сегодня я хочу рассказать вам об одном любопытном инструменте, который я недавно для себя открыл. Имя ему — Whisk, и это экспериментальный ИИ-сервис от Google, предназначенный для работы с изображениями. Если вы, как и я, любите всё новое и интересное, что связано с нейросетями и визуальным творчеством, то эта статья для вас!

Представьте, что у вас есть несколько картинок: фотография любимого кота, пейзаж с альпийскими лугами и, допустим, портрет Ван Гога. И вот вам вдруг захотелось увидеть, как бы выглядел ваш кот, вальяжно развалившийся на фоне этих самых лугов, да ещё и в стиле Ван Гога. Раньше пришлось бы идти в Photoshop, осваивать слои и маски… Но теперь на помощь приходит Whisk!

Этот сервис позволяет комбинировать изображения, создавая нечто новое и, порой, весьма неожиданное. В отличие от популярных нейросетей вроде Midjourney или Ideogram, где мы обычно вводим текстовые запросы, Whisk работает по-другому. Здесь мы загружаем картинки, а искусственный интеллект на их основе творит свою магию.

Итак, заходим на сайт Whisk и авторизируемся через Google-аккаунт).

Что мы видим? А видим мы очень дружелюбный и минималистичный интерфейс. Никаких сложных меню и непонятных кнопок — всё просто и интуитивно.

Внимание: Требуется VPN

Нас встречает приветственный экран с двумя пунктами:

"Prompt with pics": Здесь говорится, что мы будем использовать картинки в качестве запроса.
"Refine with words": А тут нам предлагают уточнять наш запрос словами.

Жмём на яркую желтую кнопку "Let’s Whisk" и переходим на главный рабочий экран.

Главный экран разделен на три колонки, каждая из которых отвечает за свою часть процесса:

Subject (Объект): Сюда мы загружаем те изображения, которые будут главными действующими лицами нашей будущей композиции. Это может быть что угодно: фото человека, животного, предмета, да хоть ваш собственный рисунок!
Scene (Сцена): Эта колонка отвечает за фон. Здесь мы выбираем, на каком фоне будут располагаться наши объекты.
Style (Стиль): А вот тут начинается самое интересное! В этой колонке мы можем выбрать стиль, в котором хотим получить итоговое изображение. Можно выбрать из предложенных вариантов или написать свой собственный запрос, как в обычных генераторах изображений.

Под этими тремя колонками есть ещё одно полезное поле — "Add additional details…". Сюда можно вписать дополнительные пожелания к нашему творению. Например, можно указать позу персонажа, его эмоции, время суток на картинке — всё, что придёт вам в голову.

Почти! В этой первой части мы познакомились с Whisk и его интерфейсом. Мы узнали, что это за инструмент и как он устроен. В следующей части мы уже вплотную займёмся практикой: будем загружать картинки, экспериментировать со стилями и запросами, а также посмотрим, какие результаты у нас получатся. Я поделюсь своими собственными экспериментами и, конечно же, покажу вам скриншоты.

Итак, мы на главном экране Whisk, и наши руки уже чешутся что-нибудь сгенерировать. Давайте начнём с простого примера, а потом будем постепенно усложнять задачу.

Ставим эксперимент: Девушка на льве, зимний лес и аниме

Для очередного эксперимента я подготовил три картинки.

Первая - это фотография заснеженного леса. Деревья в снегу, тропинка, солнышко светит — красота, одним словом! И маленький черный котенок на переднем плане. Её я буду использовать как сцену.
Вторая картинка — это рисунок двух парней в стиле, похожем на аниме или комикс. Эту картинку я возьму в качестве стиля для нашего эксперимента.
Третья - фото девушки верхом на льве. Её я буду использовать как объект.

Задача: С помощью Whisk объединить девушку и льва с фотографий с зимним лесом, придав итоговому изображению стиль аниме, как на второй картинке. Звучит интересно, правда?

В поле для дополнительных деталей я ввел запрос: "a girl sitting on a lion in a winter forest." ("девушка, сидящая на льве в зимнем лесу").

Поехали!

Загружаю все три картинки в соответствующие поля: объект, сцену и стиль. Нажимаю кнопку "Generate" и с волнением жду результата.

Идеальное попадание!

Whisk сгенерировал два варианта, и оба они меня поразили! На обоих изображениях мы видим девушку, сидящую на льве, как я и хотел. Причем, девушка и лев выполнены в стиле аниме, который я задал с помощью второй картинки. Зимний лес с первой картинки послужил прекрасным фоном, а маленький чёрный котёнок, хоть и не был в центре внимания, органично дополнил композицию. Whisk отлично уловил суть запроса и сгенерировал именно то, что я представлял!

Выводы и размышления

Этот эксперимент показал, что Whisk — мощный инструмент в руках умелого пользователя. Он не просто механически объединяет изображения, а действительно улавливает суть запроса и создает гармоничные композиции. Функция "Refine" позволяет довести результат до совершенства, а возможность использовать собственные изображения открывает безграничные просторы для творчества.

Продолжаю свои эксперименты с ИИ-сервисом Whisk от Google. В этот раз я решил полностью положиться на волю случая и испытать функцию генератора случайных картинок.

В интерфейсе Whisk есть три колонки: "Subject" (Объект), "Scene" (Сцена) и "Style" (Стиль). Так вот, в верхнем левом углу каждой из этих колонок есть маленькая иконка с игральным кубиком. Если нажать на неё, Whisk сам подберет случайное изображение для этой категории.

Мне стало интересно, что же получится, если полностью довериться ИИ и не выбирать картинки самому. Итак, я нажал на кубик в каждой из трёх колонок.

Что же выбрал Whisk?

Вот что мне предложил сервис:

Subject (Объект): Мультяшный пожилой мужчина в синем костюме, белой рубашке и соломенной шляпе.
Scene (Сцена): Интерьер кафе-закусочной в мультяшном стиле. На заднем плане видны другие посетители: барсук, кот и, кажется, лис.
Style (Стиль): Плюшевый зеленый динозаврик.

Дополнительный запрос: Я решил не вводить никаких дополнительных деталей, чтобы не ограничивать свободу творчества Whisk.

Результат:

Whisk сгенерировал два варианта изображения. И, надо сказать, получилось очень даже интересно! На обоих вариантах мы видим того самого пожилого мужчину из раздела "Subject", но теперь он выглядит как плюшевая игрушка, совсем как динозаврик из раздела "Style"! Он сидит в мультяшном кафе, прямо как на картинке, которую Whisk выбрал для "Scene".

На первом варианте мужчина сидит за столиком, на столе перед ним стоит тарелка, стакан и лежит книга. Вокруг него другие посетители кафе, выполненные в том же плюшевом стиле.

Второй вариант похож, но здесь наш герой сидит на другом месте, а ракурс немного изменён.

Что в итоге?

Эксперимент с кубиком прошёл на ура! Whisk смог объединить совершенно случайные изображения в одну гармоничную композицию. Результат получился забавным и необычным.

Санта, котик, олень и неоновый стиль

В этот раз я решил усложнить задачу и добавить больше объектов. Вот что я выбрал:

Subject (Объект): Целых три картинки! Фотография Санта Клауса, читающего письмо; милый котик в рождественском свитере; и фото оленя на фоне зимнего пейзажа.

Scene (Сцена): Уютная гостиная с камином, ёлкой, подарками и прочими атрибутами Нового Года.

Style (Стиль): Неон в стиле киберпанка.

Дополнительный запрос: "Create a heartwarming holiday scene showing Santa reading his special letter, a playful kitten in a festive sweater raising its paws, and a gentle reindeer with sparkling antlers." ("Создайте трогательную праздничную сцену, на которой Санта читает своё особое письмо, игривый котенок в праздничном свитере поднимает лапки, и добрый олень со сверкающими рогами").

Задача: Посмотрим, сможет ли Whisk объединить всех трёх персонажей — Санту, котика и оленя — в одной сцене, да ещё и приправить всё это неоновым стилем.

Загружаем картинки, жмем "Generate" и…

Вуаля! Whisk сгенерировал два варианта, и оба они получились просто потрясающими! На обоих изображениях мы видим уютную гостиную, как и было задумано. В центре композиции — Санта Клаус, читающий письмо. Рядом с ним, как я и хотел, расположился котик в свитере, а чуть поодаль — олень. И всё это выполнено в неоновом стиле!

Рассмотрим детали:

Первый вариант: Санта сидит в кресле у камина, на коленях у него лежит письмо. Котик, подняв лапку, стоит возле кресла Санты, а олень с неоновыми рогами расположился у камина. Всё залито мягким неоновым светом, создавая атмосферу уюта и волшебства.
Второй вариант: Здесь Санта также сидит в кресле, но уже немного в отдаленном ракурсе, олень стоит также справа от него, а котик в новогоднем наряде.

Что в итоге?

Этот эксперимент показал, что Whisk отлично справляется с задачей объединения нескольких объектов в одной сцене.

Итак, мы провели несколько экспериментов и уже можем сделать некоторые выводы о работе Whisk:

Комбинирование, а не смешивание: Whisk не смешивает стили в привычном понимании, а скорее комбинирует изображения, накладывая одни элементы на другие.
Уточнение работает: Функция "Refine" действительно помогает получить более точный результат, добавляя нужные детали.
Случайности — это весело: Генератор случайных картинок позволяет получить неожиданные и забавные результаты.
Свои картинки — можно: Whisk отлично работает с загруженными пользователем изображениями.

Что дальше?

В третьей части статьи мы подробнее разберём дополнительные возможности Whisk, поговорим о его плюсах и минусах, а также подведём итоги и решим, кому может быть полезен этот инструмент.

Помимо основных функций, о которых мы говорили в предыдущих частях, у Whisk есть ещё несколько интересных особенностей:

Копирование промта: Это такая неочевидная, но очень полезная функция. Когда Whisk генерирует изображение, он создает текстовый запрос (промт), который описывает это изображение. И этот промт можно скопировать! Зачем? Ну, например, чтобы использовать его в других ИИ-генераторах изображений, таких как Midjourney или Stable Diffusion. Чтобы скопировать промт, нужно нажать на значок двойного квадрата который появляется, если навести на уже сгенерированную картинку в правом верхнем углу. Очень удобно, я считаю!

Скачивание изображений: Любое сгенерированное изображение можно скачать, нажав на значок со стрелкой вниз в правом верхнем углу.
Добавление в избранное: Понравившиеся картинки можно помечать сердечком и сохранять в "Избранное".

"Refine" или Уточнить: В Whisk есть невероятно полезная функция, которая называется "Refine" (Уточнить). Она позволяет доработать сгенерированное изображение, добавив к нему больше деталей или изменив его в соответствии с нашими пожеланиями.

Когда мы генерируем изображение в Whisk и наводим на него курсор, в правом верхнем углу появляются несколько значков. Один из них, в виде "пера" или "карандаша", как раз и отвечает за функцию "Refine". Нажав на него, мы попадаем в режим редактирования.

Тут всё просто. Сверху мы видим наше изображение, а под ним — текстовое поле, в котором изначально сгенерирован текст, описывающий что находится на изображении. Поле, которое в самом низу под картинкой, предназначено для ввода дополнительных деталей или изменений, которые мы хотим внести.

Например, вы просто сгенерировали изображение, а затем, используя функцию "Refine", уточнили запрос, добавив "измени цвет рогов оленя на пурпурный". Whisk сгенерировал новый вариант изображения, уже с учетом этого дополнения.

Что можно уточнять?

В принципе, всё, что угодно! Вот лишь несколько примеров:

Внешность персонажей: цвет и длина волос, одежда, выражение лица, поза и т.д.
Детали окружения: добавить больше предметов, изменить освещение, погоду, время суток.
Стиль: сделать изображение более реалистичным или, наоборот, мультяшным, добавить элементы определенного стиля.
Настроение: сделать картинку более весёлой, грустной, таинственной и т.д.

Важно помнить:

При использовании функции "Refine" Whisk генерирует новое изображение, а не изменяет исходное.
Пока что не ясно, насколько точно Whisk понимает сложные и многосоставные запросы, это нужно проверять экспериментальным путем.
Вы не можете нажать на значок пера и изменять само изображение, можно изменять только сгенерированный текст над картинкой.

Больше картинок в "Subject" и "Scene": Как оказалось, в каждую из этих вкладок можно добавлять не по 3 картинки как я думал изначально, а гораздо больше.

Теперь, когда мы досконально изучили Whisk, давайте подведём итоги и поговорим о его достоинствах и недостатках.

Плюсы:

Простота и интуитивность: Whisk — очень дружелюбный инструмент. В нём легко разберётся даже тот, кто никогда раньше не пользовался ИИ-генераторами изображений.
Комбинирование изображений: Это главная фишка Whisk, и она работает отлично. Можно создавать интересные и необычные коллажи, соединяя разные картинки.
Функция "Refine": Возможность уточнять запрос и перегенерировать отдельные части изображения — это очень удобно.
Генератор случайных картинок: Для тех, кто любит неожиданности и не хочет тратить время на подбор изображений.
Бесплатный доступ: Whisk можно пользоваться бесплатно, и это не может не радовать.
Копирование промта: Возможность скопировать сгенерированный запрос и использовать его в других ИИ-инструментах — это большой плюс.

Минусы:

Генерация нового вместо доработки: При использовании "Refine" иногда создается новое изображение, а не изменяется исходное.
Непредсказуемость: Результат иногда может сильно отличаться от того, что вы ожидали, особенно при использовании случайных изображений.
Ограниченный функционал: По сравнению с другими ИИ-генераторами изображений, Whisk пока что довольно простенький.

Whisk может быть полезен:

Новичкам в мире ИИ-генераторов: Благодаря своей простоте и интуитивности, Whisk станет отличной отправной точкой для тех, кто только начинает знакомство с этой темой.
Тем, кто ищет вдохновение: Whisk может подкинуть интересные идеи для творчества, сгенерировав неожиданные комбинации изображений.
Любителям экспериментов: Если вам нравится пробовать что-то новое и необычное, Whisk точно придётся вам по душе.
Создателям коллажей: Whisk может стать удобным инструментом для создания коллажей из разных изображений.
Контент-мейкерам: Whisk поможет создавать уникальные и запоминающиеся иллюстрации для постов в социальных сетях, статей в блогах, презентаций и многого другого. С его помощью можно быстро визуализировать свои идеи, не тратя время на поиски подходящих картинок или создание их с нуля. Это отличный способ выделиться из толпы и привлечь внимание к своему контенту.

Whisk — это интересный и многообещающий инструмент, который, несмотря на свою простоту, обладает большим потенциалом. Он идеально подходит для новичков, а также для тех, кто хочет быстро и легко создавать необычные визуальные комбинации. Я уверен, что Whisk найдёт своих поклонников и будет развиваться дальше, обрастая новыми функциями.

Whisk от Google — это не просто очередная игрушка с ИИ, а вполне себе инструмент для творчества, хоть и на начальном этапе развития.

Whisk открывает захватывающие возможности для визуальных экспериментов, даже если у вас нет художественного опыта. Хотите научиться работать с такими инструментами и создавать уникальные визуальные проекты? Присоединяйтесь к бесплатному видеокурсу «Мастер искусственного интеллекта» и откройте для себя мир ИИ-творчества!

Whisk: Творчество в одно касание — генерация изображений с помощью визуальных подсказок

Знакомство с Whisk — ИИ-помощником для визуальных экспериментов

Что такое Whisk и с чем его едят?

Первые шаги: знакомимся с интерфейсом

Три кита Whisk: Subject, Scene и Style

Всё, можно начинать творить?

Пробуем Whisk в деле: эксперименты и результаты

Эксперимент №1: Девушка на льве, зимний лес и аниме

Эксперимент №2: Доверяем случаю — кнопка с кубиком

Эксперимент №3: Больше картинок!

Промежуточные итоги

Whisk: дополнительные возможности, выводы и вердикт

Больше, чем кажется: дополнительные фишки Whisk

Как это работает?

Плюсы и минусы Whisk: подводим черту

Для кого этот инструмент?

Заключение

Что в итоге?