Что лучше: Dall-E 3, MidJourney 5.2 или Stable Diffusion XL - одинаковые промты, разные результаты
Еще больше полезностей - в моем хобби-блоге про нейросети в Телеграм.
Dall-E 3 - новейший и недавно выпущенный генератор изображений от компании OpenAI, который благодаря своим впечатляющим возможностям набирает обороты в области ИИ. Это значительное улучшение по сравнению с предыдущей версией Dall-E, с лучшей согласованностью и качеством изображения.
🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝️Это только часть функций, доступных в SYNTX!
Но как Dall-E 3 выглядит в сравнении со своими ближайшими конкурентами - MidJourney 5.2 и Stable Diffusion XL?
В этой статье я сравню эти три модели, используя шесть различных промтов, чтобы выяснить, какая из них дает лучшие результаты.
1. Когерентность (согласованность)
Промт: An astronaut riding a steel horse on the moon. The astronaut is wearing a medieval armor with a party hat and a green sword.
Когерентность - одна из самых ярких особенностей Dall-E 3. В Dall-E 3 она реализована на все сто процентов, до мельчайших деталей. Остальные? Они немного забыли про настроение вечеринки (забыли про колпак и меч).
2. Сюрреалистический пейзаж
Промт: A dreamy landscape where clouds are made of cotton candy and rivers flow with liquid gold
В данном случае я хотел посмотреть, смогут ли эти модели искусственного интеллекта немного пофантазировать и внести разнообразие. Все дело в том, чтобы превратить безумие в "вау, как красиво".
По тому, как они получились, я бы сказал, что Dall-E 3 по-прежнему выглядит лучше всех из трех. Задавая сочетание узнаваемых элементов в непривычном виде, можно оценить, насколько хорошо каждый ИИ понимает и строит сцены с нуля.
3. Историческая фантастика
Промт: Ancient Egyptian pharaoh using a modern smartphone while riding a dinosaur.
Так, результат MidJourney выглядит наиболее круто в этом примере, но в него не удалось включить древнеегипетского фараона. В этом раунде побеждает Dall-E 3.
В этом промте я хотел объединить разные временные периоды и проверить, насколько ИИ владеет исторической достоверностью, чтобы не допустить анахронизма. Хороший генератор изображений должен обеспечить сочетание, которое при этом будет выглядеть правдоподобно.
4. Передача эмоций
Промт: A portrait of a woman holding a wilted rose, her expression one of profound sadness and longing.
Это был тест на то, "можете ли вы вообще понимать чувства?". Ведь иногда дело не только во внешнем виде, но и в настроении. В этом раунде победил Stable Diffusion XL.
Этот промт проверяет способность ИИ передавать эмоции с помощью мимики и символических элементов, позволяя понять нюансы человеческих эмоций.
5. Дизайн существ
Промт: An image of a ‘thunderbird,’ a mythical creature that controls storms, depicted in its natural habitat during a fierce thunderstorm
Dall-E 3 был близок к победе, но трофей достался MidJourney. Птица была эпической, шторм был диким - это было целое настроение!
Этот промт требует творческого подхода к созданию несуществующих вещей, проверяя границы воображения ИИ. Кроме того, в задании используются элементы окружающей среды и погоды, добавляются слои сложности, и можно увидеть, как ИИ генерирует специальные эффекты (например, молнию).
6. Архитектурный дизайн
Промт: Design an eco-friendly futuristic city floating on the ocean, with advanced technology and harmony between nature and artificial structures
В этой номинации победили все, но мне больше нравится вариант, созданный Dall-E2. Мягкие тона и симметрия элементов создают впечатление классного места, в котором хотелось бы жить.
Как получить доступ к Dall E-3
Dall-E 3 теперь является частью ChatGPT и доступен только платным пользователям. Вы также можете использовать Dall-E 3 бесплатно в чате Bing, но я не знаю, как долго он будет бесплатным.
Как получить доступ к MidJourney 5.2
Единственным способом использования MidJourney в настоящее время является канал Discord. Щелкните на этой ссылке, чтобы присоединиться к каналу и начать создавать свои собственные образы AI.
Как получить доступ к Stable Diffusion XL
Существует несколько способов использования Stable Diffusion XL, включая HuggingFace, ClipDrop и настройку на своем компьютере. Я рекомендую использовать Playground.AI для бесплатного использования SDXL.
Я впечатлен качеством изображений, создаваемых этими тремя генераторами AI-изображений, но у каждого из них есть свои сильные и слабые стороны.
MidJourney по-прежнему остается королем визуальной эстетики, создавая изображения, которые часто бывают потрясающими и креативными. Однако он может быть менее последовательным в плане согласованности, а также иногда создавать нереалистичные или нелепые изображения.
Dall-E 3 лучше, чем MidJourney, в плане согласованности, но его образы могут быть менее привлекательными. Dall-E 3 также лучше выполняет инструкции и генерирует изображения, соответствующие конкретным описаниям.
SDXL - хороший универсальный генератор AI-образов, но он отстает от MidJourney и Dall-E 3 как по визуальной эстетике, так и по согласованности.
В целом, я думаю, что выбор лучшего генератора AI-изображений будет зависеть от ваших конкретных потребностей.
Если вы не заметили, компания Adobe только что выпустила обновление своего собственного генератора AI-изображений под названием Firefly 2.0.
- Подборка: Телеграм-боты для создания картинок. ТОП-10 ботов
- Подборка ботов ChatGPT в Телеграм
Чтобы не пропустить мои новые статьи, не забудьте подписаться на мой ТГ-канал о нейросетях.
Оригинал на английском языке
- Подборка: Телеграм-боты для создания картинок. ТОП-10 ботов
- Подборка ботов ChatGPT в Телеграм