Дизайнеры ЮMoney заказали у Midjourney, Kandinsky и Stable Diffusion фиолетовые картинки
Три нейросети нарисовали нам банковскую карту, сейф, игровой джойстик, гамбургер, девушку и не только. Рассказываем про эксперимент и показываем, что из всего этого получилось, какие плюсы и минусы мы нашли у кандидатов и какие сделали выводы.
Для эксперимента мы взяли три популярные нейросети:
- Kandinsky. Разработка Сбера, которая генерирует реалистичные изображения. По результатам опроса ЮKassa, эта нейросеть стала самой популярной среди российских. На текущий момент пользователи создали в ней более 120 млн изображений, а самыми частыми запросами стали «любовь», «космос», «кот», «Россия» и «аниме».
- Midjourney. Лидер в генерации изображений и графики с облачной моделью. Качество картинок и скорость работы — высокие, сеть обучалась на нескольких миллиардах пар «текст-изображение». С каждой новой версией качество выходной картинки растёт — это особенно заметно на примерах ниже. С четвёртой версии Midjourney научилась правильно генерировать образ человека.
- Stable Diffusion. Бесплатная опенсорс-нейросеть, которую можно установить на ПК с современным графическим акселератором и генерировать реалистичную графику. Дополнительно позволяет скачивать разные модели: от еды до реалистичных портретов и стилизованной графики.
Как мы тестировали нейросети
Мы сформировали текстовый запрос, или промпт (от англ. prompt — указание, подсказка). Для всех трёх нейросетей запросы были одинаковые, только для Midjourney и Stable Diffusion мы написали их на английском языке, а для Kandinsky — на русском.
Нейросеть сгенерировала для нас несколько вариантов изображений. Некоторые из них мы попросили масштабировать.
Какие категории запросов мы взяли для теста
- Реалистичные предметные изображения. Чтобы перестать пользоваться сервисом Shutterstock.
- Абстрактные фоновые объекты в 3D. Чтобы заранее сделать несколько вариантов для фоновых заливок и заднего плана.
Стилизованные предметы в 3D. Чтобы делать больше иллюстраций в стиле 3D-рендера.
- Персонажи и фотографии людей. Чтобы не использовать повторяющиеся фото одних и тех же людей на рекламных креативах.
Какие результаты мы получили
Показываем, какие изображения нам сгенерировали нейросети. Запросы были для всех одинаковыми.
Реалистичные предметные изображения
Запрос: Чизбургер на белой тарелке на изолированном белом фоне, реализм, ультрарезкий кадр, без людей.
Запрос: Фиолетовая банковская карта с металлическим чипом без цифр и реквизитов, на белом фоне, ультрарезкое, реалистичное изображение.
Запрос: Фиолетовый игровой джойстик на белом чистом фоне, ультрареализм, студийный свет, продуктовая фотография, hi-res.
Запрос: Небоскрёб из стекла в стиле хай-тек, чистое небо с перьевыми облаками позади здания, небольшой современный парк перед зданием, ультрарезкость, реалистичное изображение, архитектура, hi-res.
Стилизованные предметы в 3D
Запрос: Фиолетовый пластиковый банковский сейф в стиле 3D-иллюстраций, рендер, белый фон, ультрарезкость, hi-res.
Запрос: Стилизованный смартфон на белом фоне в стиле 3D-рендеринга, ультрачёткий, высокого разрешения, снимок продукта.
Абстрактные фоновые объекты в 3D
Запрос: Абстрактный геометрический фон в стиле 3D, рендер, hi-res, ультрарезкость, задний фон.
Персонажи и фотографии людей
Запрос: Фотография улыбающейся женщины в фиолетовом платье в солнечную погоду, на заднем плане пейзаж городской улицы, натуральный свет, нормальная контрастность, hi-res.
Запрос: Портрет улыбающегося молодого человека, фронтальная перспектива, ультрареализм, hi-res, естественный свет, природная фотография.
Запрос: Молодая улыбающаяся пара смотрит на смартфон в руках одного из них, натуралистичное изображение, студийный свет, белый фон, нормальная контрастность, фотография в полный рост.
Плюсы и минусы нейросетей из нашего списка
Midjourney
Плюсы:
- отличное качество картинки;
- полученное изображение можно детализировать;
- есть встроенное масштабирование;
- есть симуляция оптики;
- не ест ресурсы устройства.
Минусы:
- нейросеть платная — от 10 долларов в месяц;
- нет своего интерфейса;
- коммуникация c нейросетью только через Discord;
- отсутствуют негативные запросы, в которых можно прописать, чего не должно быть на изображении;
- облачная модель подключения, локально подключиться нельзя;
- установлен лимит на количество генераций.
Kandinsky
Плюсы:
- нейросеть бесплатная;
- можно использовать на русском языке;
- не ест ресурсы устройства;
- есть загрузка изображений;
- есть негативные запросы;
высокое визуальное качество генераций;
большое число разных режимов и стилей генераций;
- высокая скорость работы.
Минусы:
- облачная модель подключения, локально подключиться нельзя.
Stable Diffusion
Плюсы:
- можно использовать локально, без подключения к интернету;
- нейросеть бесплатная;
- есть загрузка дополнительных моделей;
- есть негативные запросы;
- можно загружать изображения;
- готовую картинку можно масштабировать.
Минусы:
- нужна дискретная видеокарта;
- сложная для быстрого понимания и лёгкого старта;
- есть галлюцинации;
- нужно делать слишком детальные запросы;
- среднее качество изображения на выходе.
Выводы
- С каждой новой версией нейросети из списка генерируют изображения лучшего качества и добавляют новые инструменты, чтобы пользователю было удобно.
- Важный момент, который нужно учитывать при выборе графической нейросети, — количество изображений, на которых она тренировалась. Чем их больше, тем лучше будет результат.
- Лучше всего у нейросетей получаются люди, еда, абстракции, хуже всего — техника, геометрические объекты и архитектура.
Расскажите, какие варианты изображений, которые сгенерировали три нейросети для команды ЮMoney, понравились вам больше всего? Ждём ваших комментариев!