Сравниваем нейросети Kandinsky 2.1 от Сбера и «Шедеврум» от Яндекса
Чтобы поиграться с генеративными нейросетями, необязательно идти в Midjourney или Stable Diffusion. В России есть свои нейросети, которые тоже неплохо рисуют: Kandinsky от Сбера и «Шедеврум» от Яндекса. Разбираемся, какая из них работает лучше и генерирует круче.
Но сначала — немного о самих нейросетях
Kandinsky 2.1 — это улучшенная версия предыдущей модели. Она стала умнее, потому что ее дообучили на 170 млн картинок с подписями, И если в Kandinsky 2.0 было 2 млрд параметров, то в Kandinsky 2.1 их 3,3 млрд.
«Шедеврум» использует в работе каскадную диффузию. Это значит, что сначала он генерирует картинку в виде пикселей, а потом детализирует ее и улучшает в качестве. База картинок у него меньше: 240 млн с подписями. Поэтому «Шедевруму» я буду давать иногда несколько попыток, все-таки база у него меньше, поэтому и картинки могут не получаться с первого раза.
Первый запрос — попугай сидит на ветке
Первый шаг за Kandinsky 2.1:
Выглядит очень неплохо: детализированный голубь, хороший задний фон и ветка под лапами. Жаль, что с лапами у голубя какая-то беда. А так было бы вообще без вопросов.
Теперь очередь «Шедеврум».
Сразу скажу, что «Шедеврум» заметно уступает Kandinsky. Но при этом на третьей картинке все выглядит неплохо: птица достаточно детализированная, у нее видны перья и даже лапа получилась более менее. А про четвертую картинку я промолчу — добро пожаловать в игры 2008-2010 годов.
Дам «Шедевруму» еще один шанс.
Теперь все стало куда круче. Особенно, на третьей картинке. Здесь и лапки смотряться неплохо, и перья стали лучше. Правда, глаз выглядит неестественно.
В общем, тут ставлю 1:1. Обе нейросети выдали неплохие результаты. Теперь усложним задачу.
Второй запрос — 3 кошки стоят перед красной дверью
Этот запрос сложнее, потому что в нем есть конкретное число и больше деталей.
Кошек, конечно, жизнью потрепало. Но, Kandinsky почти справился с задачей: кошек троей и они стоят перед красной дверью. Жаль, что не получилось сгенерировать красивые мордашки.
Теперь очередь за «Шедеврум».
Первый блин опять комом
Тут нейросеть почти везде нарисовала красную дверь, но с кошками совсем беда: их больше и кошками назвать их трудно. Дадим «Шедевруму» еще одну попытку.
Стало получше, особенно на последней картинке: красная дверь и три кошки есть, мордашки и глаза почти нормальные. Но балл все равно отдам Kandinsky — у него все выглядит лучше.
Бонус сравнение. Решил добавить в промпт в «Шедевруме» подсказок, которая рекомендует сама нейросеть. Вот, какие выбрал: реалистично, высокое разрешение, красиво. Заодно посмотрим, как на эти уточнения отреагирует Kandinsky.
Вот обновленный промпт: три кошки стоят перед красной дверью, реалистично, высокое разрешение, красиво. Теперь первым отдувается «Шедеврум».
Мне не нравится ни одна из картинок. Без уточнений было лучше. Посмотрим, что получится у Kandinsky.
Здесь тоже почти без изменений: стала лучше шерсть и одного кота нейросеть зачем-то покрасила.
В общем, здесь 0:0.
Третий запрос — космический корабль в виде летающей тарелки летит на луну
Здесь я решил чуть-чуть запутать запрос и дать побольше подробностей.
Первым отвечает Kandinsky:
Как по мне, здесь полное совпадение: космический корабль в виде летающей тарелки и луна.
Теперь очередь за «Шедеврум».
У него тоже получилось неплохо, на двух картинках (2 и 4) полное совпадение с запросом. Жаль, что все пиксельное. Но я опять попробую это исправить дополнительным запросом: космический корабль в виде летающей тарелки летит на луну, реалистично, 4К, высокое разрешение, высокая детализация, мягкое освещение.
В целом, получилось лучше. Но изображение так и не стало в высоком и 4K-разрешении.
Посмотрим, что из этого промпта сделает Kandinsky.
Вот здесь стало действительно лучше. Поэтому еще один балл в копилку Kandinsky.
Что в итоге
Обе нейросети — хороший вариант попробовать новые технологии. Но серьезно использовать их в работе я бы не стал: у Stable Diffusion и Midjourney получается генерировать изображения куда лучше. Но если хочется просто попробовать — рекомендую обе. Иногда получаются прикольные варианты.
А как считаете вы, какая из нейросетей лучше? Пишите свои мнения в комментарии.
Еще больше интересного контента о нейросетях в моем телеграм-канале «Миша, давай по новой».
Да, у обеих пока, пардон, срань полная получается. Слишком велико отставание и, с огромной долей вероятности, создать что-то действительно дельное и своё, уже не получится.
Да. Некоторые картинки в Шедевруме вообще выглядят так, будто это пиксельная версия реальной фотографии.
Но со временем увеличатся базы и генерация должна стать лучше.
Совпадение? Не думаю! 🤔
Да, генерации в Midjourney и Kandinsky похожи между собой. Потому что нейросеть от Сьера училась на зарубежных базах, если я не ошибаюсь.
Я даже сравнивал их между собой и все картинки очень похожи https://vc.ru/services/655939-sravnivaem-kandinsky-2-1-i-midjourney
Делала сравнение этих нейросетей у себя в блоге, но с другими примерами https://vc.ru/services/656292-battl-neyrosetey-sravnivaem-rossiyskie-servisy-kandinsky-shedevrum-i-turbotext. Буду благодарна за лайк)
Интересная статья. Картинки в turbotext ещё не генерировал, но надо будет попробовать
Просто потратили время сравнивая этот кошмар