Новый виртуальный художник от Сбера: встречайте нейросеть Kandinsky 2.2
С улучшенным разрешением генерации, эффектом фотореализма и возможностью вносить локальные изменения в синтезированное изображение.
Новая версия модели научилась создавать фотореалистичные изображения с более высоким разрешением сторон, рисовать детализированные портреты и даже генерировать стикеры, из которых можно собирать полноценные стикерпаки в Telegram. Также бот Kandinsky 2.2 теперь способен изменять по текстовому описанию отдельные объекты или элементы на изображениях, сохраняя композицию исходной иллюстрации. Это стало возможным благодаря внедрению в модель специального структурного блока управляемых изменений — ControlNet.
Kandinsky 2.2 понимает запросы на русском и английском языках (и даже смайлики), умеет рисовать более чем в 20 стилях, смешивать несколько рисунков, стилизовать изображение по текстовому описанию, генерировать изображения, похожие на заданные, дорисовывать недостающие части картинки (inpainting), создавать картины в режиме бесконечного полотна (outpainting).
Для дообучения нейросети использовался датасет в размере 1,5 млрд пар «текст — изображение». Это на 300 млн больше, чем в предыдущей версии — Kandinsky 2.1, которая стала самой быстрорастущей нейросетью в мире, набрав один миллион пользователей всего за 4 дня после выхода.
В чём особенность последней доработки
До Kandinsky 2.2 ни одна генеративная сеть не позволяла контролировать процесс синтеза изображения: можно было долго подбирать промт для желаемой сцены, но так и не получить полностью подходящее изображение. В новом релизе нейросети Сбера вы сможете управлять положением какого-то объекта на картинке, его формой, позой, контурами или границами:
Также значительно улучшилась генерация изображений в сравнении с предыдущими версиями нейросети:
О технических деталях Kandinsky 2.2 читайте в статье на Хабре.
Как можно протестировать модель
Оценить возможности нейросети можно на промостранице модели, на платформе FusionBrain.AI и в Telegram-боте, а также при помощи команды «Запусти художника» на умных устройствах Sber, в мобильном приложении Салют. Модель доступна на платформе ML Space в хабе предобученных моделей и датасетов DataHub.
Авторы
Модель Kandinsky 2.2 была разработана и обучена исследователями команды Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.
Коллектив авторов: Арсений Шахматов (главный контрибьютор), Антон Разжигаев, Владимир Архипкин, Игорь Павлов, Ангелина Куц, Андрей Кузнецов, Денис Димитров.