Flux: как пользоваться нейросетью от создателей Stable Diffusion
Если нужна картинка, которую будет трудно отличить от фотографии.
Flux — нейросеть, которая создаёт гиперреалистичные изображения. Даже у самых популярных ИИ есть сложности с генерацией пальцев, естественной текстуры кожи и читабельного текста на картинках. Flux же научили делать изображения с учётом всех этих тонкостей. Примеры промптов и сравнение разных версий модели Flux — в этом тексте.
Содержание:
Кто создал Flux
Инженеры Flux Робин Ромбах, Андреас Блаттманн и Доминик Лоренц занимались разработкой Stable Diffusion — одной из самых популярных моделей для генерации изображений. Из-за разногласий с руководством они покинули компанию в марте 2024 года и почти сразу основали Black Forest Labs, получили $32 млн инвестиций и выпустили Flux.
У Flux три версии:
- Flux.1 [pro] — продвинутый вариант для бизнеса и коммерческих задач. Подходит для работы через API.
- Flux.1 [dev] — версия для некоммерческого использования.
- Flux.1 [schnell] — опция для личного использования. Делает упрощённые работы и генерирует картинки максимально быстро.
Как начать генерировать изображения
Через Hugging Face
Есть Flux.1 [dev] и Flux.1 [schnell].
1. На домашней странице Hugging Face переходим во вкладку «Spaces».
2. Через поисковую строку ищем Flux.
3. Теперь выбираем нужную версию — Flux.1 [dev] или Flux.1 [schnell].
Через Glif.app
Есть Flux.1 [pro].
1. Для начала нужно создать аккаунт на Gliff.app через Google или Discord.
2. После регистрации открываем поле «Build».
3. Нажимаем «+» и добавляем блоки «Text input» и «Image generation».
4. Затем выбираем нужную модель и связываем блоки между собой через «input1». Вот так:
Инструменты Flux
В онлайн-сервисах рядом со строкой для ввода запроса есть меню расширенных настроек.
«Seed» — выручит, если сгенерированное изображение подходит, но хочется немного переписать запрос или добавить какую-то деталь. Тогда сохраняем тот же seed, но переписываем промпт (текстовый запрос для нейросети). А если промпт не менять и seed сохранить, то сгенерируется один и тот же результат.
«Width» и «Height» — настройки размеров, ширина и высота нужного изображения.
«Guidance Scale» — шкала, которая определяет, насколько строго нейросеть должна следовать промпту. Если поставить значение на максимум, то ИИ сгенерирует ровно то, что прописано в запросе. Но при этом никаких креативных решений на картинке не будет.
«Number of inference steps» — количество шагов, за которые нейросеть сгенерирует изображение. Во Flux.1 [dev] стоит по умолчанию на 28, а во Flux.1 [schnell] — на 4. Чем больше шагов, тем качество картинки будет выше. Это не всегда играет решающую роль, но часто удлиняет время генерации.
Примеры генераций с промптами
Разработчики выделяют Flux за умение строить сложные композиции. Другие нейросети часто вместо разных людей изображают клонов. А если действующих лиц больше двух, то могут сгенерировать что-то совсем далёкое от промпта.
Промпт: «An elderly man with dark hair, a young girl with red hair, and an elderly woman with grey hair play cards in a mysterious setting».
(«Пожилой мужчина с тёмными волосами, молодая девушка с рыжими волосами и пожилая женщина с седыми волосами играют в карты в таинственной обстановке»).
Результаты Flux.1 [pro], Flux.1 [dev] и Flux.1 [schnell]
Композиционно [schnell] справился лучше всех. У [pro] и [dev] небольшие проблемы с цветом волос. Но с пальцами везде всё хорошо, разве что карты местами держат рубашкой к себе.
А как справится Flux с генерацией текста?
Промпт: «A traveller with a large hiking backpack is walking through the mountains, he is holding a cardboard, on which is written vc.ru».
(«Путешественник с большим походным рюкзаком идет по горам, он держит картонку с надписью vc.ru»).
Результаты Flux.1 [pro], Flux.1 [dev] и Flux.1 [schnell]
В двух случаях из трёх с текстом не возникло никаких проблем. Теперь задача посложнее: пусть сгенерирует изображение и со сложным положением рук, и с текстом.
Промпт: «A young guy wearing an I love Paris t-shirt shows a peace sign».
(«Молодой парень в футболке „Я люблю Париж“ показывает знак мира»).
Результаты Flux.1 [pro], Flux.1 [dev] и Flux.1 [schnell]
Промпт: «An elderly man and his grandson pose by a human-high sandcastle. They have just finished construction and are all covered in sand, with the sea and tourists in the background».
(«Пожилой мужчина и его внук позируют у песчаного замка высотой в человеческий рост. Они только что закончили строительство и полностью засыпаны песком, а на заднем плане видны море и туристы»).
Результаты Flux.1 [dev] и Flux.1 [schnell]
Промпт: «Two cats on a spaceship look out the porthole and see planet Earth from there».
(«Два кота на космическом корабле смотрят в иллюминатор и видят планету Земля»).
А вот результат по тому же запросу, только текст вбивали сразу на русском:
Есть ощущение, что коты немного слиплись. Но русский язык Flux, кажется, понимает.
Промпт: «A parade of eco-activists. There are 6 people in a row: two men, three young women, and one little boy. They carry a banner with the inscription “We have only one planet”».
(«Парад экоактивистов. В ряд идут 6 человек: двое мужчин, три молодые женщины и один маленький мальчик. Они несут транспарант с надписью „У нас только одна планета“»).
Композиционно всë верно, с пальцами проблем нет. Но самое главное — все герои выглядят по-разному, нет никаких клонов на картинке. А теперь вводим тот же промпт, но на русском языке.
Красиво. Но всё-таки не то: плакат куда-то потерялся, и мужчин больше, чем женщин.
Где ещё можно протестировать Flux
Есть и другие официальные онлайн-сервисы, которые поддерживают Flux. Для работы с ними часто нужен аккаунт на GitHub. Сами запросы оплатить российской картой из-за санкций не получится.
- Для Flux.1 [pro] — Replicate, Fal.ai, Mystic.
- Для Flux.1 [dev] — Hugging Face, Replicate, Fal.ai, Mystic, Deepinfra, Hyperbolic.
- Для Flux.1 [schnell] — Hugging Face, Replicate, Fal.ai, Mystic, Deepinfra.
Ещё все три версии модели Flux можно скачать на ПК, чтобы не заходить каждый раз через браузер. Для этого понадобятся навыки программирования и подходящая техника, рекомендуют 16–24 Гб видеопамяти и GPU не ниже уровня NVIDIA A100.
Чем Flux отличается от конкурентов
Плюсы:
- Создаёт максимально реалистичные изображения. Видны мелкие текстуры, тени падают куда надо, на коже у людей заметны естественные мимические морщины.
- Отлично генерирует изображения с текстом на английском языке. У большинства аналогов с этим серьёзные проблемы. Можно делать визитки, плакаты, вывески и логотипы.
- Хорошо понимает промпт со сложной композицией, генерирует нужное количество элементов (может перепутать только несущественные детали вроде цвета волос). Нейросеть не додумывает и не усложняет. Это важно для задач, где нужен конкретный результат, а не креативность.
- Быстро генерирует изображения, чаще всего меньше минуты.
Минусы:
- Установить приложение на компьютер сложнее, чем у аналогов. Понадобится мощная техника.
- Не генерирует картинки с текстом на русском языке. Пока работает только с латиницей.
- Нельзя оплатить российской картой большинство онлайн-сервисов, на которых можно попробовать FLUX.
- Не подходит для проектов, где нужен высокий уровень креативности. Flux точно следует промпту, но предлагать свои идеи не будет.
Есть ещё одна особенность Flux, которую трудно назвать плюсом или минусом. Нейросеть, в отличие от аналогов, не очень требовательна к цензуре. Это хорошо сказывается на качестве генерируемых изображений. Ведь именно из-за цензурных ограничений иногда не получается сгенерировать «сочный бургер» — ИИ часто видят нарушения там, где их нет.
И хоть цензура плохо влияет на качество, она помогает не попасть под закон об авторском праве. Да и под ряд других законов.
Как правильно составить промпт для Flux
- Использовать принцип «Что? Где? Когда? Как?». Начинаем писать с главного, а затем добавляем детали. Что делает герой на картинке, где он находится, какая вокруг атмосфера, как выглядит фон. Чем точнее, тем лучше.
- Не добавлять сложных конструкций. Лучше не заигрывать со сложными метафорами, деепричастными оборотами и фразеологизмами.
- Писать на английском языке. С этим поможет онлайн-переводчик.
- Ссылаться на референсы. ИИ знает великих художников, фотографов и режиссеров.
- Дублировать важные детали. Если нужен портрет девушки именно с зелёными глазами, а не с голубыми или карими, лучше прописать это несколько раз.
- Учиться у других. В сети есть целые галереи со сгенерированными изображениями и промптами к ним.
Flux выпустили только в августе 2024-го, но разработчики уже показали тизер нейросети для генерации видео. На подкасте AI + a16z Робин Ромбах сказал, что команда Flux фокусируется на том, чтобы их ИИ делал ролики с минимальным количеством статичных кадров. Именно в этом, по его словам, проблема конкурентов.
Как вам результаты Flux? Смогли бы отличить от настоящих фотографий? Поделитесь своими генерациями в комментариях!