Я воссоздал одни из самых знаковых фотографий всех времен с помощью искусственного интеллекта всего за один день
ИИ-генераторы изображений обучаются на миллионах - даже миллиардах - фотографий. Можно с уверенностью предположить, что подавляющее большинство этих фотографий защищены авторским правом и используются без разрешения. И хотя фотографий миллиарды, лишь немногие из них можно назвать культовыми. Исходя из этого, я решил выяснить, насколько легко или сложно воссоздать знаменитые фотографии.
Если вам интересна тема нейросетей, подпишитесь пожалуйста на мой канал про нейросети, а если вы хотите больше узнать про генерацию изображений, добро пожаловать в этот канал!
Методология
Чтобы проверить это, я использовал, пожалуй, два самых известных генератора изображений: DALL-E и Midjourney. Используя последнюю версию каждой модели (DALL-E 3 и Midjourney v6), я попытался воссоздать некоторые из самых известных в мире фотографий.
По большей части я избегал имени фотографа, имени объекта или названия фотографии (OpenAI's DALL-E 3 не позволял мне использовать имена людей, однако в Midjourney я мог использовать любые имена по своему усмотрению).
Я не слишком усложнял промпты и ограничил количество попыток воссоздания картинки двумя. Большинство картинок, представленных ниже, сделаны по одному промпту без каких-либо изменений. Я также (в основном) использовал один и тот же промпт для Midjourney и DALL-E, но Midjourney предложила мне четыре варианта, а DALL-E - только один, поэтому я выбрал лучший из предложенных Midjourney.
DALL-E 3 доступна в последней версии ChatGPT (именно там я ее и использовал), а Midjourney - на сервере Discord. В ChatGPT более 180 миллионов пользователей (хотя не все из них пользуются DALL-E), а в Midjourney, по оценкам, около 17 миллионов.
Воссоздание знаменитых фотографий с помощью ИИ
День Победы на Таймс-сквер
Хотя сейчас эта фотография считается спорной, запечатленный Альфредом Айзенштадтом спонтанный поцелуй между двумя незнакомцами, возможно, является самой известной фотографией всех времен. Снятый на Таймс-сквер в Нью-Йорке в 1945 году в День победы над Японией и фактическое окончание Второй мировой войны, и DALL-E, и Midjourney сделали узнаваемые версии этой фотографии.
Промпт: Make a black and white photorealistic image from 1945 of a sailor kissing a white-clad girl as they celebrate in Times Square, New York.
Abbey Road
В списках "самых знаковых обложек альбомов всех времен" регулярно фигурирует фотография Иэна Макмиллана, на которой The Beatles идут по зебре возле студии Abbey Road в Лондоне. Можно с уверенностью сказать, что искусственный интеллект в этом случае не преуспел.
Промпт: Make a photo of four caucasian males walking through a crosswalk on a suburban street in London in 1969. The man furthest right is wearing all white and has long hair and a beard. The man second from the right wears a black suit. The man second from the left wears a blue suit, holds a cigarette, and doesn’t have shoes on. The man on the left is wearing double denim.
Мать-мигрантка
Midjourney создал очень узнаваемую версию определяющего образа Доротеи Ланж времен Великой депрессии, но, что вполне предсказуемо, результат получился хуже из-за рук.
Промпт: Make a photorealistic black and white image of a migrant mother looking into the distance with her two children burying their faces, 1936.
Обед на вершине небоскреба
Автор этой культовой фотографии неизвестен, но оба генератора изображений ИИ без проблем создали ее версию.
Промпт: Make a black and white film photograph taken in 1932 of 11 ironworkers eating lunch while sitting on a steel beam above New York City
Тетоны и река Снейк
Хотя генераторы изображений AI и не указывают имя автора, оба они с удивительной точностью воспроизводят, пожалуй, самую известную фотографию Анселя Адамса.
Промпт: Make a dramatic black and white photo taken in 1942 of the Grand Teton National Park in Wyoming. The Snake River is in the foreground with mountains in the background.
Афганская девочка
DALL-E и Midjourney по-разному отнеслись к культовой фотографии Стива Маккарри, украсившей обложку National Geographic, причем попытка Midjourney была гораздо более реалистичной. Это был единственный промпт, в котором я указал марку пленки, на которую была сделана фотография.
Промпт: Make a color photograph taken in 1984 on Kodachrome 64 color-slide film of an Afghan girl looking at the camera. The photo shows the head and shoulders of the girl who is wearing a red scarf draped loosely over her head and she has green eyes.
Поднятие флага на Иводзиме
В "ДАЛЛ-И" солдаты из фильма Джо Розенталя "Поднять флаг на Иводзиме " почти идеально совпадают с оригиналом, но оба генератора выдали узнаваемую версию.
Промпт: Make an iconic black and white photo taken in 1945 of six United States Marines raising the U.S. flag atop a mountain
За вокзалом Сен-Лазар
Для этой фотографии я использовал два разных промпта. В обеих программах получилась комично плохая попытка воссоздать "Решающий момент" Картье-Брессона.
DALL-E: Make a photorealistic black and white image of Behind the Gare Saint-Lazare, taken in 1932.
Midjourney: Make a photorealistic black and white image of Henri Cartier-Bresson’s iconic photo of a man jumping over a puddle that captures ‘the decisive moment’.
Мухаммед Али стоит над Сонни Листоном
И снова я использовал два разных промпта. DALL-E отклонил промпт с именем Мухаммеда Али.
Midjourney: Make a photorealistic image of Mohammad Ali standing over Sonny Liston having just knocked him down in a boxing match, 1965.
DALL-E: Make a photorealistic image of a legendary boxer standing over an opponent having just defeated him in a boxing match, color film photograph, 1965.
Восход Земли
Во время полета "Аполлона-8" Уильям Андерс сделал снимок, который был назван "самой важной фотографией окружающей среды, когда-либо сделанной". Midjourney был близок к этому, но у меня есть подозрение, что эти снимки получились бы лучше, если бы я указал год в промпте.
Промпт: Make a photorealistic image of an Earthrise that was taken from the surface of the Moon with some of the surface in the foreground of the picture. Make the Earth far away and partially obscured by the blackness of space.
Морской пехотинец США, контуженный снарядом
Вероятно, это один из самых малоизвестных снимков в этом списке, и, возможно, он показывает, что обе модели создают совершенно разные изображения по сравнению с фото Дона Маккаллина о войне во Вьетнаме.
Промпт: Make a black and white photojournalist image of a shell-shocked US Marine taken in 1968.
Что же получилось?
Ни одно из приведенных выше изображений ИИ не является идеальным воссозданием своей фотографии (хотя Midjourney's " Афганская девочка " Стива МакКерри очень близка к этому, и мы все были очень впечатлены тональностью изображения Мухаммеда Али). То, как Midjourney может соответствовать тону и чувству изображения, потрясает и пугает. Из этих двух вариантов полученные в Midjourney изображения гораздо больше похожи на фотографии. DALL-E часто выдавал более очевидные подделки.
Я всегда ожидал, что воссоздать фотографии с помощью искусственного интеллекта будет довольно просто, ведь в обучающих данных для этих моделей будет несметное количество версий этих узнаваемых изображений.
Но некоторых может удивить то, насколько это просто. Я не эксперт в создании изображений с помощью ИИ, и все же, по большей части, мне потребовалась всего одна попытка и пара минут, чтобы воссоздать фотографию, которая была сделана руками мастера фотографии.
Очевидно, что у ИИ проблемы с интеллектом. ИИ не знает, что он так близко воссоздает знаменитую фотографию, но именно это он и делает.
OpenAI активно пытается оградить пользователей от такого рода нарушений авторских прав (если это вообще нарушение), но этот тест показывает, что сейчас его слишком легко обойти.
На мой взгляд, эти изображения ИИ не могут считаться искусством и являются наглыми копиями фотографий, созданных людьми, которые очень много работали, чтобы стать виртуозами своего дела.
В ближайшие годы вопросы авторского права на ИИ будут решать суды. Мне кажется, что вряд ли власти смогут помешать развивающейся индустрии ИИ. Просто слишком много шумихи, и она уже набирает обороты.
Я считаю, что нам придется научиться жить с этой технологией.
Если вам интересна тема нейросетей, подпишитесь пожалуйста на мой канал про нейросети, а если вы хотите больше узнать про генерацию изображений, добро пожаловать в этот канал!
Источник здесь.
спасибо за интересный материал. действительно, то, как тонко Midjourney воспроизводит атмосферу и настроение фотографий пугает, и это по меньшей мере...
Атмосферу и настроение да, хотя не совсем точно.
Не воссоздал, если по чесноку
Думаю, при большем количестве попыток и детальной проработке промптов вполне реально воссоздать.
Комментарий удалён модератором
Это просто эксперимент по точности воссоздания изображений. На самом деле в нейросетях можно получить более интересные изображения, чем известные фотографии.
Спасибо за статью, но сразу возникает вопрос на сколько нейросеть умеет сопоставлять запрос с описанием культовых фото. Я имею ввиду что она с большой вероятностью угадывает по запросу ваше загаданные фото, как сервис Акинатор, и видимо старается выдать результат максимально удовлетворяющий запрос.