Midjourney теперь умеет писать prompts за вас!
Мы конечно все уже видели те невероятные изображения что может генерировать Midjourney - они бывают фантастические! И хочется их повторить - но вот проблема, когда мы берем в руки discord и пишем несколько строк - у нас получается ну немного не то что мы видели.
Меня зовут Андрей Цыган, я предприниматель и исследователь. Уже более 5ти лет плотно занимаюсь вопросами построения бизнес-процессов, автоматизации и цифровой трансформации бизнеса.
В последнее время активно исследую возможности и полезность нейросетей для бизнеса.
Встречайте - новая функция Midjourney /describe
Ребята отлично решили вопрос, теперь можно показать сети картинку и она сама составит за вас 4 варианта prompt, которые, как она считает, описывают эту картинку.
Как это работает?
Мы набираем команду /describe и загружаем нужное фото:
Загружаем изображение, буквально полминуты и сеть нам предлагает 4 варианта prompts, как она это поняла, и сразу есть клавиши для генерации изображений по ним
Но любое чудо, особенно в нейронных сетях нужно проверять и экспериментировать.
Вывод-спойлер, кто не хочет долго читать:
Функция точно будет полезная, особенно если нету высоких требований к мелким деталям, а надо передать стилистику, общий план, задумку изображения.
Я сделал эксперимент на изображениях знаменитостей, фото из интернета, обувь, архитектура, веб-дизайн.
Все подробности ниже:
Эксперимент. Как Midjourney распознает 10 картинок, и что она на свои же prompts cгенерирует.
- Культовое изображение: Папа Римский в белом пуховике
Так Midjourney описывает изображение, из-за которого забрали бесплатные триалки(
- pope francis wears puffy coat outside, in the style of hervé guibert, high quality, dark white, stan lee, trendercore, richard deacon, pop inspo --ar 13:16
- pope francis walking around dressed in white puffer coat in venice, in the style of patrick demarchelier, hyperrealism, alasdair mclellan, intense close-ups, pop inspo, stan lee, wetcore --ar 13:16
- Pope francis was in the city wearing his puffy coat, in the style of trendercore, photorealistic details, panchromatic film, close up, close up, pop inspo, warmcore --ar 13:16
- francis is walking around in a puffy coat, in the style of celebrity and pop culture references, white, traditional craftsmanship, quadratura, aluminum, distinctive noses, classicist --ar 13:16
И мы получаем в ответ на этим prompts:
Результат: белый пуховик везде остался, но вот конечно Папа Римский смутно угадывается в некоторых изображениях. По мне - тут мимо. Поймем дальше.
2. Попробуем ещё одну знаменитость: Илон Маск в роли DJ
MJ нам выдал следующие prompts:
- dj in glasses and a jacket playing a music, in the style of intriguingly taboo, dark gold and black, leather/hide, polished surfaces, bold contrast and textural play, louis, leather/hide
- a man in black and wearing sunglasses is mixing at a mixing board, in the style of magali villeneuve, leather/hide, junglecore, артур скижали-вейс, iconic, bunnycore, creased
- a man in sunglasses and glasses putting on his headphones, in the style of klaus wittmann, bold textures, jay anacleto, leather/hide, cabincore, junglecore, chiaroscuro mastery
- dj plays live gig at the end of the world, in the style of dark gold and black, leather/hide, bold textures, solarizing master, louis, handsome, leather/hide
И мы получили такие изображения:
Результат: Маском тут и не пахнет, но вот DJ в антураже "дорого-богато и темно" получился очень неплохой.
3. Ну и куда же без Трампа - его то знает все, даже бабушки у подъездов.
В ответ на картинку получаем такой набор prompts:
1. donald trump is being in his New York city office on tuesday, in the style of martin stranka, photojournalism, photojournalism, violent, adrian donoghue, stockphoto, george stefanescu --ar 3:2
2. the president being dragged through the streets, in the style of stark and unfiltered, social documentary photography, cypherpunk, spontaneous gesture, grid, new american color photography, strong facial expression --ar 3:2
3. donald trump is pushed into security line and on 'unprecedented' level of violence, in the style of raw street photography, joel robison, tonalist genius, massurrealism, controversial, kyffin williams, candid photojournalism --ar 3:2
4. police officer reacts a politician being physically restrained on the street, in the style of new american documentary photography, american tonalist, tanbi kei, pop inspo, powerful portraits, photobashing, candid shots of famous figures --ar 3:2
Генерируем изображения....
Результат: и вот тут Midjourney, видимо дообученный на бабушках отлично определил и нарисовал Трампа! Понял что речь идёт про арест, тюрьму, это уже очень неплохо.
4. Перейдём от знаменитостей живых к кино - Дарт Вейдер.
Получаем хеппи мил от MJ:
- darth vader is eating fast food, in the style of celebrity photography, greg land, smilecore, captivating, emotional imagery, christopher balaskas, scott adams, #vfxfriday --ar 3:2
- star wars darth vader eating burgers in the dining room, in the style of zeiss batis 18mm f/2.8, pop inspo, pop inspo, #vfxfriday, smilecore, mcdonaldpunk, vignetting --ar 3:2
- darth vader in a star wars costume eating french fries, in the style of captivating documentary photos, death burger, death burger, larry sultan, photo taken with provia, #screenshotsaturday, commission for --ar 3:2
- darth vader sits at a bar eating pizza and fries, in the style of industrial photography, smilecore, #vfxfriday, glorious, candid moments captured, iconic american, made of cheese --ar 3:2
И в какую "вкусно, но неудобно есть через маску" пошлёт Вейдера MJ:
Результат: тут сеть справилась на отлично, вот вам и Дарт Вейдер, вот вам и еда, и даже фаст фуд,а не мишленовский ресторан.
5. NASA пока ещё не долетело до Луны - но MJ уже сделал сюжет
Получаем сухпаёк в виде 4ёх prompts:
- astronauts in space, drinking around the campfire against the moon, in the style of photo-realistic landscapes, celebrity photography, dystopian landscapes, moyoco anno, war photography, group material, cinestill 50d
- astronauts having a campfire under the moon, in the style of tabletop photography, hyper-realistic atmospheres, stimwave, monochromatic realism, socially minded, nul group, captivating
- four astronauts sitting in the sun outdoors near a campfire, in the style of manipulated photography, dark white and silver, large-scale photography, iconic imagery, uniformly staged images, non-representational, stockphoto
- an astronaut and two others are outside in a tent, in the style of solarization effect, candid shots of famous figures, smokey background, rtx on, moody still lifes, site-specific artworks, i can't believe how beautiful this is
Давайте посмотрим пикник на Луне по версии MJ:
Результат: в целом атмосфера и задумка фото была понята и мы получили пикник на обочине лунного кратера. Браво!
Давайте обсудим кейсы не только сгенерированных изображений.
6. Рендер- концепт жилого массива.
Я очень люблю нашего застройщика "А-100" он действительно делает великолепную архитектуру и недавно представил новый квартал на природе.
Зная застройщика - реальность будет такая же. Но что скажет MJ, как он увидит этот квартал?
Получаем снова 4 концепта:
- red crow co llc has released a rendering of a residential development in boston, in the style of colorful gardens, dark pink and light bronze, light sky-blue and green, wiesław wałkuski, photo taken with nikon d750, lively interiors, kuzma petrov-vodkin --ar 75:61
- this is a rendering of the entrance of the apartment buildings with trees and flowers, in the style of vibrant color fields, photo taken with provia, light maroon and dark indigo, manapunk, large-scale works, sky-blue and green, groundcore --ar 75:61
- three-story apartment complex where residents have access to green space and street parking, in the style of dark pink and sky-blue, impressionist gardens, light maroon and gold, expansive spaces, dreamy pointillism, dark gray and maroon, delicate constructions --ar 75:61
- rendering of the neighborhood apartment complex at a small block, in the style of colorful gardens, 32k uhd, dark pink and light bronze, realistic blue skies, provia, decorative artistry, toraji --ar 75:61
И новый квартал по версии MJ может выглядеть так:
Результат: "квартал красных деревьев" у нас получился. Стилистика в целом сохранена, но акценты думаю сдвинулись. Но некоторые изображения очень подходят на стиль фото и застройщика. Как по мне - это будет отличный помощник в генерации идей, конечный квартал он пока не сделает, но идеи можно посмотреть.
7. Национальная библиотека Минска - поймёт ли задумку хоть нейросеть?
Если просто вбить в prompt - national library of Minsk - он не знает такого чуда архитектуры. Но давайте посмотрим сможет ли он понять задумку и перерисовать?
Вот такие описания получаем:
- an interesting building that has a triangular shape on it, in the style of 32k uhd, geopunk, microfilm, postmodernist culturism, stenciled iconography, studyplace, goblin academia --ar 25:14
- an office building sitting on top of a tall building, in the style of geodesic structures, 32k uhd, teun hocks, stenciled iconography, science-fiction lands, modernist architecture, opulent architecture --ar 25:14
- an office building in the downtown area, in the style of sci-fi spectacle, geopunk, science academia, geomeric shapes, paula rego, glassy translucence, vasily vereshchagin --ar 25:14
- a colorful building in a city with people around it, in the style of angular geometry, light sky-blue and bronze, monumental vistas, telephoto lens, faceted shapes, brutalist, dark navy and light green --ar 25:14
И на выходе... тоже что и на входе)
Результат: мне кажется 10 лет назад уже кто то пользовался MJ при проектировании зданий) Здание распознало, но далее пошла полная абстракция. Но...что то в них есть)
8. А что по людям? Мне очень понравилась серия изображений про "селфи при исходе", сможем повторить?
Получаем 4 prompt- скрижали:
1. an old man walking out of the ocean during a rabbinic sermon, in the style of 32k uhd, adventure themed, #film, rtx on, fisheye lens, i can't believe how beautiful this is, mythological references
2. samson el taawi as moses on the egyptian coast, in the style of filmic, fisheye effects, alex hirsch, frostpunk, religious, #vfxfriday, joyful chaos
3. a man takes a selfie in a crowd of men in cloaks, in the style of naturalistic ocean waves, fisheye lens, religious, movie still, biblical themes, i can't believe how beautiful this is, site-specific
4. man in a beard and robes leading a band of people, in the style of fish-eye lens, 32k uhd, lively seascapes, #film, antichrist, gorecore, 32k uhd
И, если бы gopro было создано 2000 лет назад:
Результат: несколько изображений прям повторили задумку, как по мне. Ну и отлично что иногда мы получаем из 4ёх промтов немного другую идею, иногда я думаю это будет и источник вдохновения
9. Мы же не обойдём стороной великолепные кроссовки Nike - Tiffany?
Вот как MJ описывает "высокую моду" кроссовок:
- tiffany & co x nike, in the style of sparklecore, elaborate, onii kei, monochromatic masterpieces, colorized, tondo, detailed
- tiffany and company crystal earrings in aqua nike shoes, in the style of onii kei, 8k, pop-culture-infused, punctured canvases, street-savvy, hikecore, hurufiyya
- tiffany & co oljydoro collection nike , in the style of sparklecore, hirohiko araki, sparklecore, richly colored, intricate embellishments, seapunk, hikecore
- a woman in blue - and - silver sneaker wears tiffany diamond q, in the style of larme kei, poured, iconic, eye-catching, eye-catching, rtx on, eye-catching
И брюки превращаются в ....
Результат: Кроссовки есть, фирменный цвет в целом есть ( я мужчина и для меня это одинаковые цвета). На последнем изображении полёт фантазии - но понял он с полу-слова.
10. И финализируем мы эксперимент веб-дизайном.
Давайте посмотрим, друг нам или нет MJ, если нам очень понравился сайт или интерфейс друга (конечно я знаю, не возжелай дизайна ближнего своего, но это только ради эксперимента)
Для чистоты эксперимента взял реальный сайт, работающий,с русским языком.
Так Mj описывает этот блок сайта:
- the homepage of the new оилнондове, in the style of dark green and yellow, knightcore, layered images, realistic forms, satirical, light red and dark gray, aerial view --ar 137:160
- the website homepage has the different type of media, in the style of sovietwave, dark gray and yellow, kingcore, figuratively textured, colorful fantasy, aerial view, academic precision --ar 137:160
- dla zvezda p internet agen ере наравление улиноо, in the style of innovative page design, dark bronze and yellow, colorful storytelling, knightcore, #myportfolio, dima dmitriev, panoramic scale --ar 137:1
- the website of raheh mobile with blue text and pictures, in the style of dmitry kustanovich, dark green and yellow, writer academia, dark gray and red, aerial view, distinctive characters, stock photo --ar 137:160
Результат: от запроса остался только веб-сайт. Всё остальное супер бурная фантазия. Может конечно блок такой - но я решил смоделировать ситуация "увидел - скопировал". Тут мне результаты не очень понравились
Общее впечатление
В целом MJ отлично понимает что изображено на фото, стиль, общий образ, и даже часто может детали все сам учесть и сгенерировать очень похожее. Особенно если вам не нужно прямо деталь в деталь - то это просто потрясающий дополнительный инструмент.
Всем спасибо кто дочитал, пишите в комментариях ваши как удачные, так и неудачные тесты. Я верю в то, что никто сейчас не знает точного ключика - и только совместными усилиями, и экспериментами мы коллективно можем улучшить работу с нейросетями.