DALL-E 3 vs MidJourney на примере реального кейса
Дано: дизайн-студия DELO, работаем с крупным бизнесом, в работе много используем генеративные ИИ.
Недавно мы сгенерили для клиента в качестве референса куб в MidJourney. Куб понравился, на его основе сделали финальную 3D, анинимаровали и разместили на сайте. Теперь клиент хочет для поста в соцсетях в таком же стиле сердце.
Секрет красоты куба в промпте, который вы видете под картинкой только частично. Потому что там ещё 5 ссылок на другие картинки. Два референса из сети, два референса из визуального языка клиента, и один из результатов прошлых удачных генераций. Поэтому логично, когда в промпте просто меняем cube на heart — хорошего результата не ждем.
Как и ожидалось — плохо. Но проверить надо было.
В MidJourney надо много экспериментировать, и проверять даже на первый взгляд неудачные идеи. Потому что MidJourney непредсказуемый.
Поиск результата в MidJourney
Ищем в сети картинку Ruby Heart, чтобы дать понять какая нам нужна форма, и закидываем её и наш куб-референс в MJ с командой /description, чтобы получить понимание как MJ видит эти картинки.
Из описаний MJ собираем свой промпт-франкенштей, который как обычно, продолжает выглядеть как облако тегов, а не как описание человеческим языком. Обязательно добавляем два референса: сердце и куб.
Куб отличается от того, что показал выше, потому что в этом варианте больше деталей, которые подходят под пожелания клиента к сердцу.
Результат красивый, но не то. Нужна более диджитальная картинка, со всякими линиями и частицами, похожими на цифровые глитчи.
Пробуем 6 раз слекда менять промпт. Добавляю, меняю убираю куски, но не больше пары слов за раз. На результате это почти никак не сказывается.
Что именно и как влияет на картинку в MJ сложно предугадать. В идеале, нужен чистый эксперимент, взять только базовый промпт, а потом к нему добавлять отдельные куски и с сохранением seed смотреть, что меняется.
Но на это не было времени. А отдельно этим заниматься лень, да и не понятно зачем. Вместо этого пробуем другой инструмент.
Идем экспериментировать в DALL-E 3
Без референсов, вбиваем самый базовый промпт на русском, чтобы посмотреть как он отнесется к указаниям геометричности, кристальности и светящести.
По промпту видно, что я пока не перестроился окончательно с MJ и промпты и в DALL-E пишу не совсем на человеческом языке. Хотя конкретно этот кейс как раз дальше покажет, что он прекрасно понимает простые и четкие объяснения, а не просто визуализирует все слова, как MJ.
Получилось совсем мимо по цветам, что логично, потому что я просто их не указал в запросе. Следующим шагом отмечаю, что в целом направление правильное, а чтобы насытить деталями даю ему пропмпт из MJ.
Первый и третий вариант хорошие. Попробуй сделать их ближе к этому описанию: floating heart made of matte glowing glass with violet highlites, 3d model on black background with blue and azure reflect lights, digital world with a lot of digital lines and particles, dynamic linear composition, neon, transparent medium, crystalcore, luminiscent lightscapes, partly matte, chromatic abberation prism
Всё, в стиль попали. И вот тут начинается основное отличии DALL-E от MJ. Я больше не экспериментирую с промптом, я указываю на конкретные доработки. Чтобы не перегружать его, стараюсь действовать поэтапно, чтобы не сломать то, что уже получилось.
Первый этап — попасть в цвета. Синий нам не очень нужен. Нам нужно красное сердце с фиолетовыми отблесками. Так и пишем. А ещё пишем одобрения результата, я думаю что это помогает сохранить выбранный вектор.
Ну не чудо ли? Особенно после MJ, степень взаимопонимания поражает.
Теперь второй этап — нам это сердце надо будет встроить в композицию, поэтому всякие сторонние штуки вокруг сильно мешают. Прошу убрать. А ещё я внезапно понял, что я всё это время говорю с нейронкой по-русски, а надо бы по-английски наверное. Хотя так всё хорошо, что не уверен. Но на всякий случай перехожу на en.
Снова чудеса взаимопонимания. Он реально убрал почти все детали с фона и поместил больше деталей внутрь сердца, ровно как я попросил.
Собственно на этом всё. Кроме левого нижнего, остальные три вполне себе рабочие вариант, особенно правые, потому что в левом верхнем надо будет в фотошопе рудиментарное сердце внутри сердца почистить.
В DALL-E 3 получается получить сильно больше контроля над результатом, за счёт понимания человеческого языка и итерационной работы.
Такой же результат можно получить и от MJ, только для этого придется проделать большую работу. Изучить, как нейронка реагирует на разные слова и их сочетания, а тут всё на человеческом.
А ещё я на человеческом языке пишу свой блог про дизайн, бизнес, нейронки, и немного про здоровье. Заглядывайте: