Как сделать набор иллюстраций с помощью Stable Diffusion, и почему этим не стоит заниматься

Привет, хочу поделиться историей о том, как я делал свой недавний проект — стоковый набор иллюстраций с использованием Stable Diffusion.

Я решил сделать пак на тему хеллоуина в пластилиновом стиле. По умолчанию модель SDXL умеет его, но стиль мне не очень нравился, поэтому я решил прибегнуть к тренировке модели LORA. Если кратко, то это обучение части нейросети на своем датасете для достижения нужного результата при генерации объекта.

Вот пример того, как SD генерит без тренировки

Тот же промт, тот же сид, но со своей LORA

Собрав датасет, я настроил и запустил тренировку через kohya-ss. Стоит сделать отступление, тренировка — очень ресурсоемкий процесс который требователен к железу. Я сознательно пропущу этот момент, потому что это тема для отдельного поста.

На видеокарте rtx4090 тренировка заняла около 8 часов (в датасете было >100 картинок). Запустить обучение SDXL на видеокарте с объемом памяти менее 12 ГБ возможно, но это не очень хорошая идея — отразится на качестве. Итогом тренировки стал файл LORA-модели, который мы будем использовать в генерациях.

Генерация в ComfyUI — стиль получился стабильный

Я использовал ChatGPT для генерации списка объектов на тему хэллоуина. Промт получился такого формата и мне было необходимо заменять лишь ключевое слово с названием объекта в нем. Я просто попросил чатбот и он сгененрировал мне список промтов.

(single:1.3) orange scary halloween pumpkin, (white background:1.1), soft light, (plasticine style:0.9) (single:1.3) scary halloween witch, (white background:1.1), soft light, (plasticine style:0.9) (single:1.3) scary halloween skull, (white background:1.1), soft light, (plasticine style:0.9)

В ComfyUI я собрал нодовую комбинацию, которая достает из текстового файла по одной строчке и использует в качестве промта для генерации.

Я сгененрировал больше 500 изображений и отобрал из них около сотни. Итогом работы стал вот такой набор:

За почти месяц после публикации на площадках этот набор принес мне $4. Я в очередной раз убедился что рынок стоковых иллюстраций умирает. Уже почти год виден стремительный тренд вниз в объеме продаж, не только у меня, но и у многих коллег и самих площадок. Причина очевидна — генеративные нейросети. Это не хорошо и не плохо — это реальность.

UPD: До появления нейросетей такой набор делался бы ни один месяц. Доходы при этом были в разы выше. Суть данного материала, рассказать о личном опыте и взгляде на изменившийся рынок.

Бум нейронок, важная веха такая же как сами компьютеры и появление интеренета и победить их классическими способами создания графики уже не получится.
Больше инфы и другие мои модели в ТГ канале.

Как сделать набор иллюстраций с помощью Stable Diffusion, и почему этим не стоит заниматься

Тренировка

Промты

Почему не стоит этого делать