Stable Diffusion. Как пользоваться нейросетью online. Искусственный интеллект будущего!

Если вы также, как и я, не имеете доступа к DALLE 2 и уже израсходовали свои попытки с Midjourney, но все еще желаете создавать изображения, то вам стоит обратить внимание на новую нейросеть - Stable Diffusion, которая вызвала большой интерес. С помощью этой модели искусственного интеллекта вы сможете создавать визуальную реальность, которую ранее могли только представлять себе, причем абсолютно бесплатно. Она генерирует изображения на основе текста или входного изображения. Мы планируем интегрировать Stable Diffusion в наш Телеграм бот в ближайшее время, где сейчас успешно работает ChatGPT, чтобы вы удобно в одном месте могли пользоваться всеми благами нейронных сетей. Для доступа к боту вам нужно быть подписанным на наш Телеграм канал, там же вы и найдете ссылку на бота. А пока давайте приступим к обзору Stable Diffusion

Stable Diffusion
Stable Diffusion

Что такое Stable Diffusion?

22 августа была выпущена в публичный доступ программа Stable Diffusion, созданная группой Stability.Ai и имеющая открытый исходный код. Она состоит из двух больших частей: обученной нейросети (доступна версия 1.4, скоро будет доступна 1.5, которая обещает еще более качественные лица/глаза/руки) и обвязки, которая вызывает эту нейросеть.

Результаты ее работы напоминают DALL·E и Midjourney, однако по мнению меня и моих друзей, Midjourney создает более выразительные изображения в целом, а Stable Diffusion более точно следует запросу при настройках по умолчанию. Основное преимущество Stable Diffusion для пользователя заключается в том, что нет ограничений на генерируемые изображения (хотя в оригинальной версии есть NSFW-фильтр, который легко можно отключить), и все это бесплатно.

попросил создать диджея обезьяну на пляже =)
попросил создать диджея обезьяну на пляже =)

Существует множество способов работы с нейросетью, и сообщество, которое ею пользуется, растет очень быстро:

  • Основной способ - через консоль, что подойдет тем, кто знает Python и может изменять код. Вы можете выбрать нужный вам вариант из исходников на GitHub (доступен здесь) или версию с меньшим использованием видеопамяти и дополнительными опциями (здесь). Затем следуйте инструкции по установке и настройке среды (для исходника здесь, для второго варианта - здесь). Преимущество - вы можете интегрировать новые методы генерации изображений и лучше понимать, как это все работает.
  • Второй способ - через браузер, например, на сайте без регистрации и настроек (здесь) или на сайте с регистрацией и разными настройками. Плюс - это доступно с любого устройства, ничего не нужно устанавливать. Минусы - это медленно, и возможностей меньше, чем в консоли. Кроме того, в любой момент ваш любимый сайт может закрыться из-за наплыва пользователей или желания создателей.
  • Третий способ - через графический интерфейс и установщик, который должен быть более привычным для пользователей Windows. Однако не факт, что в графическом интерфейсе будут все необходимые настройки. Преимущества - все наглядно, и вам не нужно знать ничего про Python, Anaconda, pip-install, командную строку и т. д.

В ближайшее время мы интегрируем Stable Diffusion в наш Telegram bot, чтобы получить доступ в числе первых нужно быть подписанным на наш Телеграм канал. Подписывайтесь прямо сейчас!

Чем Stable Diffusion выделяется среди других нейронных сетей?

Для начала, SD (Stable Diffusion) представляет собой открытый исходный код, доступный по лицензии Creative ML OpenRail-M, что позволяет запускать его на локальном компьютере, вместо того чтобы обращаться к облачному API или сайту.

Для достижения качественных результатов разработчики рекомендуют использовать графический процессор NVIDIA серии 3xxx с минимальным объемом оперативной памяти в 6 ГБ.

За последние две недели появилось множество проектов, созданных с помощью Stable Diffusion, и люди достигли впечатляющих результатов, используя метод "img2img". Этот метод модернизировал игровое искусство, преобразовал сцены из "Аладдина" в 3D, превратил детские рисунки в красивые иллюстрации и многое другое.

Каким образом функционирует Stable Diffusion?

Большинство недавних ИИ использует скрытую диффузию, чтобы создавать изображения. Эта техника заключается в том, что модель обучается распознавать знакомые формы на фоне случайного шума и постепенно собирать эти элементы в соответствии с заданными словесными подсказками.

Stable Diffusion
Stable Diffusion

Изначально, модель обучается на большом наборе данных изображений, который создают люди или группы, собирая изображения с метаданными. В случае Stable Diffusion, используется набор данных LAION-5B, содержащий 5 миллиардов изображений из интернета, включая сайты, такие как Pinterest, DeviantArt и Getty Images. Модель обучается на этом наборе данных, используя сотни графических процессоров, таких как Nvidia A100, за что было потрачено около 600 000 долларов на обучение.

В процессе обучения, модель связывает слова с изображениями, используя метод CLIP, разработанный OpenAI. С помощью скрытой диффузии, модель анализирует статистические ассоциации между цветными пикселями в изображениях, чтобы определить их отношения. Это позволяет модели создавать новые комбинации стилей на основе изученных данных.

Однако, модель не учитывает физические особенности людей на изображениях, поэтому при создании текстовых подсказок необходимо учитывать это самостоятельно. В будущем, модели, вероятно, будут улучшаться, чтобы фильтровать и корректировать изображения более эффективно.

В ближайшее время мы интегрируем Stable Diffusion в наш Telegram bot, чтобы получить доступ в числе первых нужно быть подписанным на наш Телеграм канал. Подписывайтесь прямо сейчас!

Какие проблемы у Stable Diffusion

Релиз программы Stable Diffusion вызвал беспокойство у людей, которые опасаются ее воздействия на культуру и экономику. В отличие от DALL-E 2, данные для обучения Stable Diffusion доступны для всех пользователей без ограничений. Программа включает автоматические фильтры NSFW и невидимый водяной знак для отслеживания, но эти ограничения можно легко обойти в открытом исходном коде, что позволяет создавать изображения, которые OpenAI в настоящее время блокирует, такие как порнография, пропаганда, изображения насилия, нарушающие авторские права, подделки и многое другое.

Лицензия программы запрещает многие из этих видов использования, однако, ее практическое реализование затруднено. Эмад Мостак утверждает, что преимущества перевешивают потенциальные недостатки, и включил политику этичного использования и инструменты для уменьшения вреда.

Кроме того, при обучении Stable Diffusion используются миллионы произведений искусства, которые были собраны без разрешения авторов, и программа генерирует очень похожие изображения. Это вызывает вопросы об авторстве и авторских правах. Р. Дж. Палмер выразил свою обеспокоенность как художник.

Также существует проблема культурных предубеждений, так как нейросети изучают социальные и культурные стереотипы, присутствующие в наборе данных. Например, в ранней стадии тестирования Stable Diffusion на сервере Discord тестировщики обнаружили, что почти каждый запрос на "красивую женщину" включал обнаженных женщин, что отражает стереотипы западного общества.

Попросил нарисовать красивую девушку
Попросил нарисовать красивую девушку

Что можно ожидать в будущем от Stable Diffusion?

Следуя тренду роста вычислительной мощности, вероятно, что в будущем доступ к нейросетям будет осуществляться через смартфоны. Кроме того, разработка новых методов позволит обучать модели на более доступном оборудовании, что приведет к взрывному росту творческих результатов, подпитываемых искусственным интеллектом. В ближайшее время можно ожидать создания фотореалистичных видео на основе текстовых подсказок, а в дальнейшем - расширение таких возможностей на области аудио, музыки, видеоигр и виртуальной реальности. Представьте себе, как продвинутые ИИ будут выполнять творческую тяжелую работу всего за несколько предложений, что откроет бесконечные возможности для создания различных развлечений в режиме реального времени по запросу.

Stable Diffusion использует сотни миллионов изображений для сжатия информации в файл размером 4,2 ГБ, и в будущем такая технология может быть использована для сжатия художественных фильмов в несколько мегабайт текста. Это может привести к возможности создания собственных художественных фильмов с помощью подобной технологии. Однако следует отметить, что эта технология может иметь опасные последствия, такие как пропаганда, дезинформация и искажение истории, а также уничтожение юридической ценности фото- или видеодоказательств. В конечном итоге, человечество адаптируется к изменениям, даже если это приведет к радикальным изменениям наших культурных рамок. Как сказал древнегреческий философ Гераклит, "единственная константа - это изменение".

В ближайшее время мы интегрируем Stable Diffusion в наш Telegram bot, чтобы получить доступ в числе первых нужно быть подписанным на наш Телеграм канал. Подписывайтесь прямо сейчас!

В конце концов, это представляет собой еще один инструмент для более быстрого и доступного выражения идей. Хотя результаты, получаемые с помощью SD, могут не использоваться в качестве окончательных ресурсов, они могут использоваться для создания текстур в прототипах игр или для создания логотипов для проектов с открытым исходным кодом.

Несмотря на то, что лицензия на модель запрещает ее использование во многих недобросовестных целях, открытый исходный код является двуединым мечом. В настоящее время невозможно предвидеть, какие последствия могут возникнуть в долгосрочной перспективе. Перспектива на 10-15 лет становится неясной, учитывая то, что трудно представить, какие возможности будут доступны с версией, работающей в реальном времени и в 10 раз лучше.

С чего начать свой путь - Stable Diffusion или Midjourney?

Если вы уже умеете генерировать запросы для Midjourney, то вы можете использовать свои навыки и для Stable Diffusion. Однако, следует помнить, что в Stable Diffusion отсутствуют команды, такие как "--wallpaper" и "--beta", и нет опции разделения сущностей через "::". Вместо этого можно использовать веса для этой цели, о чем будет рассказано позже.

Если же вы еще не знакомы с Midjourney, рекомендуется начать с него, так как на VC есть прекрасный гайд, который поможет вам понять, как создавать и уточнять запросы в режиме реального времени, и какие результаты выдает нейросеть при каждой модификации запроса.

Если вы не готовы тратить время на изучение еще одной нейросети, не стоит отчаиваться. На данный момент уже есть веб-сайты, где вы можете ознакомиться с результатами генерации запросов для Stable Diffusion (например, https://lexica.art/). Вы можете изучать запросы, созданные другими людьми, и использовать их как основу для своих собственных изображений, добавляя и удаляя части запроса и наблюдая за результатом. Также стоит обратить внимание на популярные работы в сообществе и посмотреть, как был составлен текст для их создания. Вы можете также использовать генераторы описаний, которые уже содержат известные элементы описаний, на которые реагирует ИИ.

Считается, что чем более подробно и разнообразно вы сформулируете свой запрос, тем лучше. Используйте разные синонимы для описания одного и того же. Хотите получить изображение с высокой детализацией? Пишите "шедевр, высокое качество, ультра-детализация, 4k" и т.д. Укажите имя художника, который рисует в гипер-реалистичном стиле, используя запрос "от %Фамилия-Имя художника%, входящего в датасет LAION". Вы можете указать несколько похожих или совсем разных художников, чтобы получить более художественное изображение. Например, смешать стиль Моне и Ван Гога, Синьяка и Хокусая.

Однако учтите, что более чем 75 слов в запросе SD не принимает. Важно также расположение слов в запросе - чем ближе к началу, тем больший вес придаст нейросеть этому слову. Поэтому располагайте в начале те элементы, которые должны быть обязательно включены в изображение.

Не ожидайте сразу получить идеальный результат, вам, вероятно, придется попробовать много разных вариантов одного и того же запроса с разными настройками. Начинать необходимо с простых запросов, чтобы научиться генерировать более сложные. Не стоит сразу использовать k_lms и 50 шагов - когда вы генерируете множество запросов, важно, как много из них отрабатывает.

Если нужно, вы можете вручную указывать веса для каждого элемента запроса. Для этого после каждого элемента ставится ":xx", где xx - вес этого элемента при генерации. Сумма весов всех элементов должна равняться 100. Например, запрос для генерации изображения наполовину мини-дракона и наполовину хорька может выглядеть так: "мини-дракон:50, хорек:50".

Stable Diffusion. Как пользоваться нейросетью online. Искусственный интеллект будущего!

Мои советы по Stable Diffusion

Попробуйте начать генерировать изображения уже сейчас и наслаждаться этим процессом, а также дарить другим людям возможность насладиться вашими творениями. Следите за сообществом на различных платформах, таких как GitHub или Reddit, чтобы узнавать о новых возможностях и удачных примерах использования. Также попробуйте использовать метод генерации по образцу, где вы используете набор изображений в качестве обучающей выборки и генерируете изображения в этом новом стиле.

Помимо этого, можно попробовать использовать различные улучшатели изображений, например RealESRGAN или GFPGAN, для увеличения разрешения или повышения качества лиц.

Желаю удачи! Не забывайте делиться не только своими интересными результатами, но и комбинациями запросов и настроек, которые приводят к удачным результатам.

В ближайшее время мы интегрируем Stable Diffusion в наш Telegram bot, чтобы получить доступ в числе первых нужно быть подписанным на наш Телеграм канал. Подписывайтесь прямо сейчас!

1 комментарий

новую нейросеть - Stable DiffusionВот уж действительно новинка, которой больше полугода. Вылезайте из пещеры чаще.