DALL-E 3 vs MidJourney на примере реального кейса

Дано: дизайн-студия DELO, работаем с крупным бизнесом, в работе много используем генеративные ИИ.

Недавно мы сгенерили для клиента в качестве референса куб в MidJourney. Куб понравился, на его основе сделали финальную 3D, анинимаровали и разместили на сайте. Теперь клиент хочет для поста в соцсетях в таком же стиле сердце.

a transparent cube of glass and spectrum decomposition of light, high detailed, a lot of particles and digital glitches, red and azure colors, on black background, digital lines and particles inside and outside

Секрет красоты куба в промпте, который вы видете под картинкой только частично. Потому что там ещё 5 ссылок на другие картинки. Два референса из сети, два референса из визуального языка клиента, и один из результатов прошлых удачных генераций. Поэтому логично, когда в промпте просто меняем cube на heart — хорошего результата не ждем.

a transparent heart made of glass and spectrum decomposition of light, high detailed, a lot of particles and digital glitches, red and azure colors, on black background, digital lines and particles inside and outside

Как и ожидалось — плохо. Но проверить надо было.

В MidJourney надо много экспериментировать, и проверять даже на первый взгляд неудачные идеи. Потому что MidJourney непредсказуемый.

Ищем в сети картинку Ruby Heart, чтобы дать понять какая нам нужна форма, и закидываем её и наш куб-референс в MJ с командой /description, чтобы получить понимание как MJ видит эти картинки.

Из описаний MJ собираем свой промпт-франкенштей, который как обычно, продолжает выглядеть как облако тегов, а не как описание человеческим языком. Обязательно добавляем два референса: сердце и куб.

Куб отличается от того, что показал выше, потому что в этом варианте больше деталей, которые подходят под пожелания клиента к сердцу.

a glass floating heart glowing ruby 3d model on black background with blue and azure reflect lights, dynamic linear composition, neon, transparent medium, crystalcore, luminiscent lightscapes, partly matte, chromatic abberation prism

Результат красивый, но не то. Нужна более диджитальная картинка, со всякими линиями и частицами, похожими на цифровые глитчи.

Пробуем 6 раз слекда менять промпт. Добавляю, меняю убираю куски, но не больше пары слов за раз. На результате это почти никак не сказывается.

Что именно и как влияет на картинку в MJ сложно предугадать. В идеале, нужен чистый эксперимент, взять только базовый промпт, а потом к нему добавлять отдельные куски и с сохранением seed смотреть, что меняется.

Но на это не было времени. А отдельно этим заниматься лень, да и не понятно зачем. Вместо этого пробуем другой инструмент.

Без референсов, вбиваем самый базовый промпт на русском, чтобы посмотреть как он отнесется к указаниям геометричности, кристальности и светящести.

Трехмерное стеклянное сердце с внутренними светящимися линиями и геометрическими структурами, в стиле кристального куба на черном фоне.

По промпту видно, что я пока не перестроился окончательно с MJ и промпты и в DALL-E пишу не совсем на человеческом языке. Хотя конкретно этот кейс как раз дальше покажет, что он прекрасно понимает простые и четкие объяснения, а не просто визуализирует все слова, как MJ.

Получилось совсем мимо по цветам, что логично, потому что я просто их не указал в запросе. Следующим шагом отмечаю, что в целом направление правильное, а чтобы насытить деталями даю ему пропмпт из MJ.

Первый и третий вариант хорошие. Попробуй сделать их ближе к этому описанию: floating heart made of matte glowing glass with violet highlites, 3d model on black background with blue and azure reflect lights, digital world with a lot of digital lines and particles, dynamic linear composition, neon, transparent medium, crystalcore, luminiscent lightscapes, partly matte, chromatic abberation prism

Всё, в стиль попали. И вот тут начинается основное отличии DALL-E от MJ. Я больше не экспериментирую с промптом, я указываю на конкретные доработки. Чтобы не перегружать его, стараюсь действовать поэтапно, чтобы не сломать то, что уже получилось.

Первый этап — попасть в цвета. Синий нам не очень нужен. Нам нужно красное сердце с фиолетовыми отблесками. Так и пишем. А ещё пишем одобрения результата, я думаю что это помогает сохранить выбранный вектор.

Близко! Давай внесем небольшие правки не меняя стиль. Мне нужно, чтобы само сердце было красного цвета, и на нем были фиолетовые отблески. Других цветов на сердце быть не должно.

Ну не чудо ли? Особенно после MJ, степень взаимопонимания поражает.

Теперь второй этап — нам это сердце надо будет встроить в композицию, поэтому всякие сторонние штуки вокруг сильно мешают. Прошу убрать. А ещё я внезапно понял, что я всё это время говорю с нейронкой по-русски, а надо бы по-английски наверное. Хотя так всё хорошо, что не уверен. Но на всякий случай перехожу на en.

Remove all details from background, i need lights, particles and lines only inside heart

Снова чудеса взаимопонимания. Он реально убрал почти все детали с фона и поместил больше деталей внутрь сердца, ровно как я попросил.

Собственно на этом всё. Кроме левого нижнего, остальные три вполне себе рабочие вариант, особенно правые, потому что в левом верхнем надо будет в фотошопе рудиментарное сердце внутри сердца почистить.

В DALL-E 3 получается получить сильно больше контроля над результатом, за счёт понимания человеческого языка и итерационной работы.

Такой же результат можно получить и от MJ, только для этого придется проделать большую работу. Изучить, как нейронка реагирует на разные слова и их сочетания, а тут всё на человеческом.

А ещё я на человеческом языке пишу свой блог про дизайн, бизнес, нейронки, и немного про здоровье. Заглядывайте:

t.me

ПРОБИЗДИЗ 🙆🏻‍♂

DALL-E 3 vs MidJourney на примере реального кейса

Поиск результата в MidJourney

Идем экспериментировать в DALL-E 3