Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

После нескольких дней ожидания генеральный директор Stability AI Эмад наконец представил SDXL Turbo - модель искусственного интеллекта, способную генерировать изображения из простых текстовых описаний.

Как следует из названия, ее основной задачей является скорость, поскольку она способна генерировать изображения в режиме реального времени. Скорость - хорошо. А что с качеством?

Спонсор статьи - 👨‍💻 Разработка Телеграм-ботов любой сложности (от 5000₽)

Что такое SDXL Turbo?

SDXL Turbo создана на основе модели SDXL компании Stability AI, которая уже является одной из самых мощных моделей генерации изображений.

Она достигает высокой производительности благодаря новой технологии, позволяющей создавать изображения в один шаг с беспрецедентным качеством, сокращая количество необходимых шагов с 50 до одного.

Одним словом, SDXL-Turbo - это усовершенствованная версия SDXL 1.0, обученная генерации в режиме реального времени.

Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

Как работает SDXL Turbo?

Технические детали работы SDXL Turbo довольно сложны, но, по сути, он использует новую технику дистилляции под названием Adversarial Diffusion Distillation (ADD), которая позволяет модели синтезировать высококачественные изображения за один шаг, значительно сокращая время вычислений по сравнению с традиционными диффузионными моделями.

На графическом процессоре A100 SDXL Turbo генерирует изображение размером 512x512 за 207 миллисекунд. Это невероятно быстро по сравнению с другими моделями генерации изображений.

Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

ADD-студент обучается как денойзер, который получает диффузные входные изображения xs и выдает образцы xˆθ(xs, s) и оптимизирует две цели: а) состязательный проигрыш: модель стремится обмануть дискриминатор, который обучен отличать сгенерированные образцы xˆθ от реальных изображений x0. б) дистилляционный проигрыш: модель обучается соответствовать денойзеру xˆψ замороженного DM-учителя.

Если вы хотите узнать подробности о том, как работает ADD, ознакомьтесь с этой статьей.

Сравнение результатов с другими диффузионными моделями

Чтобы определить, насколько SDXL Turbo превосходит другие модели диффузии, компания Stability AI привлекла людей для оценки качества изображений, сгенерированных каждой моделью.

Они использовали два фактора для оценки изображений: насколько точно сгенерированное изображение соответствовало заданному промпту и общее качество изображения.

Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

В целом эти эксперименты демонстрируют возможности SDXL Turbo как мощной и универсальной диффузионной модели, пригодной для решения широкого круга задач, особенно тех, которые требуют высокой точности промпта и качества изображения.
Такое сочетание скорости и качества является беспрецедентным. Конечно, еще предстоит выяснить, как ее возможности проявят себя при тщательном тестировании в реальных условиях в различных сценариях использования, но первые результаты выглядят весьма многообещающе.

Примеры изображений

Вот несколько примеров изображений, опубликованных Stability AI в своем пресс-релизе.

Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

Ниже приведены изображения, которые я создал сам с помощью ClipDrop.

Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8
Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8
Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8
Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

Представленные примеры изображений демонстрируют впечатляющую точность промпта при передаче сложных деталей и убедительных текстур - особенно те, что предоставлены компанией.

Тем не менее, когда я попробовал сам, были заметны некоторые недостатки, что говорит о том, что еще есть куда стремиться. Но, повторюсь, ключевым моментом здесь является молниеносная скорость при сохранении отличного качества.

Как попробовать SDXL Turbo

Существует несколько способов попробовать SDXL Turbo, поскольку это программа с открытым исходным кодом.

Если вы хотите быстро опробовать его, я рекомендую зайти в ClipDrop, выбрать инструмент Stable Diffusion XL Turbo и начать вводить промпт.

Stability AI представила SDXL Turbo, позволяющую генерировать изображения в режиме реального времени (за 207 миллисекунд8

Ограничения SDXL Turbo

Несмотря на то что SDXL Turbo представляет собой значительный шаг вперед в создании изображений ИИ в реальном времени, есть некоторые ограничения и недостатки.

  • В настоящее время SDXL Turbo выдает изображения с разрешением 512×512 пикселей.
  • Несмотря на то, что сгенерированные изображения часто впечатляют, они могут содержать незначительные артефакты или недостатки.
  • SDXL Turbo, как и многие другие диффузионные модели, плохо генерирует надписи.
  • Компонент автокодирования SDXL Turbo работает с потерями, то есть часть информации теряется в процессе кодирования и декодирования изображений.

Можно ли использовать изображения в коммерческих целях?

К сожалению, нет.

Stability.ai поделилась кодом и моделью SDXL Turbo на HuggingFace и GitHub. Однако есть ограничения - сейчас его можно использовать только в некоммерческих целях. Поэтому исследователи и любители могут свободно экспериментировать с ней, но компании не могут использовать ее для продажи товаров или услуг.

В целом, я впечатлен его производительностью. А вот качество снимков совсем не впечатляет. Опять же, ключевым моментом здесь является молниеносная скорость при сохранении приемлемого качества.
Еще пару месяцев назад создание изображений с помощью искусственного интеллекта в режиме реального времени казалось далекой мечтой. Теперь же такие модели, как SDXL Turbo, делают ее практической реальностью. Посмотрим, какие творческие возможности откроет SDXL Turbo.

А вы используете Stable Diffusion?

Еще больше полезностей про нейросети и анонсы статей - в моем хобби-блоге про нейросети в Телеграм.

Оригинал статьи на английском - здесь.

5252
17 комментариев

С удовольствием поаплодировал бы сгенерированной фотореалистичной картинке, на которой будут 5 человек разных национальностей, стоящих лицом )) Мишки-зайки-космонавты - это, конечно, хорошо…

2
Ответить

Я бы тоже. Но пока в SD изображения часто получаются мультяшно-искусственными. А для фотореалистичности нужно много танцев с бубном.

1
Ответить

SD и так не всегда фотореалистично генерирует, а с моментальной генерацией вообще все плачевно

Ответить

Аплодирую стоя разработчикам ИИ. Как же это упростит жизнь!

1
Ответить

Время покажет ).

Ответить

Прям огонь. Отлично коряво. Лучше и не надо для презентации.

1
Ответить

Скорость пока не равно качество ).

Ответить