Stable Diffusion: что за нейросеть и как в ней генерировать картинки

Рассказываем, зачем использовать Stable Diffusion, как ее установить, придумываем промпты и делимся результатами.

Stable Diffusion: что за нейросеть и как в ней генерировать картинки

Что можно делать в Stable Diffusion

  • Создавать изображения по текстовому описанию. Результат получается очень реалистичным (примеры увидите ниже). Модель работает быстро — наши промты обрабатывала в среднем за 20 секунд.
  • Имитировать стиль любого художника — хоть Микеланджело, хоть Бэнкси. Или даже сочетать их стили в одной картинке.
  • Изменять и улучшать готовые картинки. Для этого пригодятся встроенные функции Inpainting и Outpainting. Первая поможет заменить выбранный фрагмент изображения на тот, что сгенерирует нейросеть. А вторая дорисует недостающее, например фон.
  • Завершать уже начатую картинку. Загружаете фотографию или скриншот наброска, а получаете законченное изображение высокого качества со всеми деталями.
  • Создавать анимацию. Результат годится даже для рекламных кампаний. Например, Coca-Cola в своём ролике оживила картины Уорхола, Мунка и Ван Гога.
  • Готовить концепт-арт для игр. Для этого уже есть пошаговые гайды.

Как работать в онлайн-версии

На сайте Stability AI можно найти ссылку на Google Colab — это бесплатная облачная среда для работы с кодом на языке Python. Самостоятельно программировать не нужно — достаточно открыть блокнот, запустить написанный код для установки необходимых библиотек и получить ключ API. Процесс займёт пару минут. Затем можно переходить к генерации.

Все новые пользователи по умолчанию получают 25 бесплатных кредитов — они нужны для оплаты запросов к нейросети. Промты стоят по-разному. Минимальная цена — 3 кредита, а за генерацию картинки в самом продвинутом режиме — Ultra — спишут 8.

Результат запроса «red corgi lies in a pool with balls and eats ice cream» в режиме Ultra.
Результат запроса «red corgi lies in a pool with balls and eats ice cream» в режиме Ultra.
А вот что получилось при генерации в режиме Core (промт стоил 3 кредита).
А вот что получилось при генерации в режиме Core (промт стоил 3 кредита).

Ещё в одном режиме — SD3 — создавать изображения можно с помощью трёх разных моделей на выбор: SD3 Medium (стоит 3,5 кредита), SD3 Large (стоит 6,5 кредита) и SD3 Large Turbo (стоит 4 кредита, результат выдаёт быстрее). SD3 Large предложила такую картинку.

Корги в режиме SD3 Large.
Корги в режиме SD3 Large.

Тарификацию всех возможных запросов можно посмотреть здесь. Когда лимит бесплатных кредитов закончится, для работы с нейросетью придётся пополнить баланс — 1000 кредитов стоят $10.

У Stable Diffusion есть облегчённый аналог (интерфейс проще) — Dream Studio. Разрабатывала его та же Stability AI, пользоваться можно через аккаунт на Stable Diffusion в веб-интерфейсе — разбираться с Google Colab не придётся. Генерация одного изображения обойдётся в 0,91 кредита. Интерфейс Dream Studio позволяет выбирать стиль изображения, нужное соотношение сторон и количество картинок (по умолчанию нейросеть создаст 4 варианта). В продвинутых настройках (Advanced) можно выставить высоту и ширину картинки, а также Prompt strength (насколько результат должен соответствовать запросу), Generation steps (больше шагов — большая точность) и Seed (уровень шума).

Так Dream Studio видит «город 2050».
Так Dream Studio видит «город 2050».

Бесплатные аналоги Stable Diffusion

Генерировать картинки по технологии Stability AI бесплатно и без ограничений по количеству запросов можно только на неофициальных платформах.

Их большой минус — урезанная функциональность: как правило, неофициалы позволяют лишь генерить картинки по текстовым запросам, модифицировать и улучшать результаты не получится.

Mage.Space

Один из таких сервисов — Mage.Space. Генерировать картинки там можно бесплатно без регистрации, просто введя запрос и нажав кнопку Generate. Параметров для генерации мало: 11 вариантов стилей и возможность выбрать соотношение сторон.

Stable Diffusion: что за нейросеть и как в ней генерировать картинки
Результат Mage.Space в стиле Fast Analog.
Результат Mage.Space в стиле Fast Analog.

HuggingFace

HuggingFace — платформа, на которой пользователи делятся разными обученными моделями. Например, Flux и Stable Diffusion. Нашли здесь одну, которая помогла анимировать сгенерированную ранее картинку.

Stable Diffusion: что за нейросеть и как в ней генерировать картинки

UPD: В октябре 2024 года компания Stability AI выпустила новые модели для генерации изображений. Stable Diffusion 3.5 Large и Stable Diffusion 3.5 Large Turbo уже доступны на Hugging Face. Разработчики пишут, что это самые мощные модели, которые существуют на данный момент.

Как установить десктопную версию

У Stable Diffusion открытый исходный код. Использовать нейросеть можно, установив на десктопе. Но официального программного обеспечения для установки на ПК нет. Поэтому потребуются сторонние установщики — и, как следствие, немало мороки. Поставить Stable Diffusion можно:

  • на Windows или Linux с видеокартой, имеющей память от 4 Гб;
  • MacOS версии системы от 12.3.

Для владельцев маков оптимальным решением станет DiffusionBee — работает и на Apple Silicon (рекомендуется), и на Intel. Присмотреться можно также и к AUTOMATIC1111 — это универсальный установщик (подойдёт в том числе для Windows и Linux).

Для установки на Windows 10/11 с графическими процессорами NVidia:

  1. Загрузите sd.webui.zip и извлеките его содержимое.
  2. Запустите update.bat.
  3. Запустите run.bat.

Для автоматической установки на Windows:

  1. Установите Python 3.10.6 (более новая версия не подойдёт), отметив галочкой «Add Python to PATH».
  2. Установите git.
  3. Загрузите репозиторий stable-diffusion-webui, например, отсюда.
  4. Запустите webui-user.bat из проводника Windows как обычный пользователь (не администратор).

Про установку на Apple Silicon и Linux можно прочитать на гитхабе.

Как составить запрос для Stable Diffusion

Несколько базовых правил помогут получить хороший результат:

  • Указывайте как можно больше деталей. Расскажите нейросети, что хотите видеть на сгенерированной картинке: не только сам объект, но и фон, стиль и прочие моменты, которые для вас важны. В том числе — чего на изображении быть не должно («не»-запросы нейросеть тоже понимает).
  • Пробуйте разные формулировки. С первого раза можно не получить идеальный результат — это нормально. Самое важное перечисляйте в самом начале. Добавляйте больше прилагательных, в том числе синонимов: в одном и том же запросе можно повторить характеристику несколько раз, но по-разному («светло», «солнечно», «ясный день»).
  • Пользуйтесь специальными сайтами-промтерами. Например, Public Prompts: здесь публикуются готовые запросы, которые можно копировать и видоизменять. На скриншоте — пример такого промта.
Stable Diffusion: что за нейросеть и как в ней генерировать картинки
22
Начать дискуссию