Что нейросети могут делать с изображениями на примере Stable Diffusion
Сегодня поговорим о сети Stable Diffusion. В отличие от других генераторов изображений, она хороша тем, что для нее можно добавлять "моды", которые дают ей конкретные функций, применимые в практической деятельности как дизайнера, так и продавца OZON
Что такое Stable Diffusion?
Это одна из "большой тройки" генераторов изображений. Яндекс туда не входит=)) Остальные два - Dalle и Midjourney.
Dalle стремится к хорошему созданию фотографий, но отлично справляется пока только с графикой. Midjourney делает хорошие крупные планы, хоть в и мультяшном 3d стиле.
Stable Diffusion же хвалится тем, что создали нейросеть, не уступающую конкурентам, при этом используя для обучения не миллиарды образцов, а лишь миллионы. Классический стабл делает хорошие концептуальные картинки, но с модами он преображается и становится применим в работе не только людей, связанных с искусством.
Что умеет Stable Diffusion?
Стабильная диффузия - проникновение изображений друг в друге на основе миллионной выборке. Причем проникновение стабильное, без уродств.
Какие бывают уродства?
Уродства случаются, когда изображение не квадратное, диффузия летит куда-то вбок. И тогда появляются артефакты. Так же артефакты появляются, когда выборка изображений для генерации слишком большая.
Давайте посмотрим на примеры. Больше всего будут видны артефакты на основе обученной, но никак не настроенной модели SD - OpenJourney
Когда задаем кривой запрос, мы получаем вихрь:
Когда не настроен вес, температура и всякая подобная фигня, получаем:
А это бегемот:
Итак, пробуем поднастроить и уже выходит не плохо...
Еще немного и все хорошо:
А теперь нормальные примеры
Stable Diffusion хорош тем, что он открыт для разрабочиков и на основе него можно создавать обученные модели (моды).
Сейчас посмотрим, как он работает в базовом и в обученном виде. Один минус, в обученном виде он работает только через Api, то есть на сервисах, созданных сторонними разработчиками и стоит денег, хоть и небольших.
Сам SD в базовой браузерной версии бесплатный, но тупит=))
Базовая версия Stable Diffusion
Классическая генерация изображений по любому запросу. Базовый SD схож с Dall-e, без подробных промптов он выдает странные изображения. Магия наступает в обученных версиях.
Что, если писать подробные промпты:
И опять же! Короткий промпт "beautiful girl", ужас:
Логотип (мод - Logos)
Включили мод, при котором нейросеть автоматически генерирует логотипы, и получаем классные графичные картинки
rhino:
Колоризация (обученная модель)
Если хотите увидеть в необычном формате старые семейные фото, используйте мод для колоризации. Причем нейросеть, судя по всему, понимает, что есть что на изображении (на основе миллионов плюс-минус похожих) и правильно окрашивает элементы. Понятно, что некоторые вещи не имеют типового цвета и сеть может ошибиться.
Изменение внешности (обученная модель)
Хотите примерить новую прическу? Выглядит на примере, не очень))
OpenJourney
Это обученная модель, перенявшая в себя некоторые визуальные приемы Midjourne, но все же картинки явно другие.
Как пользоваться Stable Diffusion?
В чистом виде Stabble Diffusion доступен бесплатно на их сайте.
На сайте генерация дольше и иногда есть ошибки. Часто выдает ошибки, о чем свидетельствует оповещение сверху поля для ввода. Более быстрая генерация только при работе через Api за деньги.
Как пользоваться модами?
Для использования обученных моделей (модов), обычно применяется Api с разработками, которые можно внедрять в различные сервисы.
Мы так же через api интегрировали Stable Diffusion и моды в тг. Там так же нейросеть Kandinsky от Сбера. В конце статьи можете все проекты посмотреть=)
Так же отмечу, что в SD важно писать подробные Промпты - задания для нейросети.
PS. лайк, пожалуйста, он помогает продвижению статьи, а значит дает мотивацию писать дальше
Ну и как положено на VC, канал телеграм))) Канал и чатик
Туда выкладываю статьи VC и то, что нет в VC. Мысли, идеи, опыт.
В закрепленных канале всегда телеграм боты Kolersky для доступа в ChatGPT, GPT-4 без VPN, а так же генераторы изображений Midjourney, Dall-e, Stable Diffusion (проект KolerskyAI).