«Шедеврум»: полный анализ нейросети «Яндекса», которая пока мало что умеет
«Шедеврум», ставший самым скачиваемым приложением в appstore и googleplay — очень и очень сырой стартап Яндекса. Сеть пока плохо справляется с поставленными задачами, но я уверен, что все впереди, Сейчас я объясню и покажу, почему.
Автор текста — создатель телеграм-канала "Нейронутые". Здесь — самые крутые креативы, очень много лайфхаков, полезные эфиры о будущем ИИ и много других ярких историй. А еще у меня есть курс по Midjourney.
На момент написания статьи, среднее время ожидания генерации составляло 2 минуты. Предполагаю, что этот показатель сильно возрастет в ближайшее время.
Если вы подписаны на мой аккаунт, то вы знаете, что я очень много работаю с Midjourney. Я считаю эту сеть самой продвинутой среди всех продуктов по генерации изображений, которые есть на рынке. Но сегодня я тестирую «Шедеврум» — чтобы показать вам, что умеет эта сеть (спойлер — кое-что все-таки умеет), и почему этот продукт еще очень сырой.
Итак, "Шедеврум" — это приложение. Первый вопрос — почему только приложение? Я очень много работаю с генерациями и многие использую для работы, которая происходит с ноутбука.
А значит, что экосистема работы (в случае, если бы я пользовался "Шедеврумом") выглядела так: я генерю картинку в своем смартфоне, перекидываю картинку на комп и только потом делаю с ней что-то (например, дорабатываю в Photoshop). Это неудобно. Продукт в текущем исполнении — не более, чем игрушка для массового пользования. Но точно не инструмент для агентств, профессионалов дизайна и т.д.
Все это можно было бы принять, если бы "Шедеврум" блестяще справлялся со своей первостепенной задачей: генерил потрясающие изображения — так, как это делает, например, упомянутая сеть Midjourney. Увы, тут все очень плохо.
Яндекс лихорадочно выкатил "Шедеврум" — нейросети на хайпе, нужно было что-то выкатывать, причем "здесь и сейчас". Пока все плохо.
Однако, этот текст претендует на право зваться объективным разбором. Так что я напомню что первая версия Midjorney тоже генерила очень плохие картинки. Давайте я напомню, как все было на самом старте, забив тот же промт "мужчина целует женщину", выставив в настройках первую версию Midjourney (/settings —> Version 1)
А теперь забьем этот же промт в Mj версии 5:
Вывод очевиден: заявления, что "Шедеврум" — это провал Яндекса (я видел такие отзывы в соцсетях) — это абсурд. Все сравнивают "младенца" с матерым "волком". Я показал, что Midjourney на старте была также неумела, как "Шедеврум". Чтобы вы убедились, что инженеры продукта проделали неплохую работу, я сделаю еще пару сравнительных тестов: показав генерации "Шедеврума" и сравнив их с генерациями Midjourney версии 1.
А теперь посмотрим, что нам сгенерит Midjourney версии один по тому же запросу:
Как видите, уже на старте "Шедеврум" явно опережает Midjourney.
Но не торопитесь радоваться. Все далеко не так радужно, как может показаться. "Шедеврум" пока очень сырой продукт с кучей странностей. Я буду выкладывать картинки и скриншоты из этой нейросети и давать комментарии.
Я решил сделать серию генераций и посмотреть, как сеть реагирует на те или иные запросы. Для начала я решил обратиться к любимому жанру большинства: киберпанку. Очень простой запрос: "Малчьик в противогазе" (таких изображений, сделанных в Midjourney, полно в сети). И вот первый облом. По запросу "мальчик в противогазе", мы получаем вот такой ответ нейросети:
Идем читать правила. И видим там такой текст:
Принципы работы Шедеврума
В основе приложения искусственный интеллект, который создаёт картинки по текстовым описаниям. Он дарит новый опыт, приносит радость и веселье. Этические правила для генеративных нейросетей в мире пока только формируются, и мы не хотим, чтобы новая технология кому-то навредила. Поэтому мы ограничили её применение для некоторых тем:
содержащих отсылки к конкретным людям, потому что Шедеврум не должен никого обижать или становиться генератором дипфейков;
связанных с политикой и религией;
относящихся к категориям «18+»;
касающихся жестокости и насилия.
Надеемся, творчество с Шедеврумом принесёт вам позитивные эмоции. Пожалуйста, помните, что искусственный интеллект может ошибаться, и не судите его слишком строго. Если вы заметите в ленте неприемлемые изображения, обязательно сообщите об этом с помощью функции «пожаловаться». Так мы сделаем Шедеврум ещё лучше.
Но почему мальчик в противогазе подвергся цензуре ИИ? Пока этот вопрос остается открытым. А мы продолжаем свои тесты. Давайте попробуем сгенерить женщину в купальнике (это условная граница 18+ и мы посмотрим, как нейросеть решит нашу задачу).
Как видим с генерацией купальников проблем нет. Зато есть проблемы во всем остальном. Продолжаем эксперименты. Попробуем сгенерить пельмени с черной икрой.
Последующие тесты показали, что "Шедеврум" неплохо справляется с генерацией еды (это, пожалуй, одна из очень немногих областей, где все не ужасно). Вот, например, традиционный русский борщ:
Да, это неидеальный борщ. Но в целом узнаваемый. Напомню, что мы говорим о "Шедевруме" версии 1.0 и предполагаем, что Яндекс будет дорабатывать эту нейросеть и выкатывать апдейты также, как это делают товарищи из Midjourney.
А теперь я попробую сгенерить леопарта, делающего селфи.
Леопарда перекосило. Но мы хотя бы можем понять, что перед нами леопард. О селфи речи не идет. Для тех, кто забыл, как это делает Midjourney, я напомню, представим одну из фотографий из серии своих генераций "селфи зверей":
А теперь попробуем сгенерировать в "Шедевруме" андроида, идущего по красной площади.
Летающий автомобиль в исполнении нейросети от Яндекса выглядит вот так:
А теперь попробуем сгенерить фотографии с фестиваля Burning Man.
А теперь попробуем сгенерить женщину с котенком.
Это не ужасно. И вполне может быть неплохой картинкой, если бы не бедный котенок, которого сплющило гравитацией земли.
Ну и наш традиционный тест — рука с пятью пальцами.
После целой серии генераций — это самый достойный результат. Руки с пятью пальцами — пока слабое звено "Шедеврума". Тут все как и у остальных нейросетей.
А теперь я подведу свое субъективное резюме. Я сделал в "Шедевруме" порядка 50-ти изображений. Все они для меня лично — пока мусор в чистом виде.
Очевидные минусы:
1. "Шедеврум" доступен только в формате приложения (возможно, все изменится)
2. Крайне низкое качество генераций
3. Странная цензура
4. Совершенно неуправляемый процесс генераций (невозможно задать стиль, в котором ты хочешь получить изображение)
5. Время ожидания — скорее всего возрастет
5. В случае, если вам нужна картинка в разрешении 1024х1024, ее необходимо опубликовать, без этого невозможно
Плюсы:
1. Массовый продукт, который доступен каждому
2. Не требуются знания по установке и работе
3. Не нужно учится промт-инжинирингу, о котором я очень подробно рассказываю вот в этой статье.
4. Это весело — и если вы хотите залипнуть, вам сюда.
Автор текста: создатель телеграм-канала "Нейронутые". На канале — уроки по работе с нейросетями и лайфхаки, как генерить классные изображения, наши лучшие работы и отличное компьюнити людей, увлеченных нейросетями. Скоро мы представим самый полный курс по Midjourney.