Google разработала нейросеть Imagen, которая генерирует картинки по текстовому описанию

Её уже прозвали главным конкурентом аналогичной нейросети DALL-E от OpenAI.

Google разработала нейросеть Imagen, которая генерирует картинки по текстовому описанию

Google представила нейросеть Imagen, которая генерирует изображения на основе текста. Для этого используется метод диффузии: всё начинается с простого, можно сказать схематичного изображения, которое потом улучшается — до тех пор, пока ИИ не решит, что не может сделать его ещё более похожим на заданные параметры.

Imagen начинает с создания небольшого (64×64 пикселя) изображения, а затем выполняет два прохода «сверхвысокого разрешения», чтобы довести его до размера 1024×1024. Однако это не похоже на обычное масштабирование, поскольку суперразрешение AI создает новые детали на картинке, чтобы сделать её более похожей на «техническое задание», прописанное в текстовом запросе.

«Белоголовый орлан из шоколадного порошка, манго и взбитых сливок»
«Белоголовый орлан из шоколадного порошка, манго и взбитых сливок»
«Хромированная утка с золотым клювом спорит со злой черепахой в лесу»
«Хромированная утка с золотым клювом спорит со злой черепахой в лесу»
«Милый корги живет в доме, сделанном из суши»
«Милый корги живет в доме, сделанном из суши»

Например, если дать Imagen задание создать изображение собаки на велосипеде, то в его первой версии размер глаза пса будет иметь ширину 3 пикселя, во второй — уже 12 пикселей, а в третьей — все 48 пикселей. Получается, ИИ работает подобно художнику, который начинает с грубого наброска, постепенно дополняя деталями и масштабируя.

Google разработала нейросеть Imagen, которая генерирует картинки по текстовому описанию
«Крайне злая птица»
«Крайне злая птица»
«Мраморная статуя ди-джея Коала перед мраморной статуей проигрывателя. Коала носит большие мраморные наушники»
«Мраморная статуя ди-джея Коала перед мраморной статуей проигрывателя. Коала носит большие мраморные наушники»
«Гигантская змея-кобра на ферме. Змея сделана из кукурузы»
«Гигантская змея-кобра на ферме. Змея сделана из кукурузы»
«Талисман Android из бамбука»
«Талисман Android из бамбука»

В Google утверждают, что созданная компанией нейросеть генерирует изображения по описанию с «беспрецедентным фотореализмом». Создатели Imagen сами сравнивают нейросеть с DALL-E 2 — аналогичным ИИ, создающим изображения на основе текста, от OpenAI.

По оценкам Google, Imagen побеждает DALL-E 2 в тестах на человеческую оценку как по точности, так и по достоверности. Компания предложила группе тестировщиков сравнить иллюстрации, созданные при помощи Imagen, DALL-E 2 и других моделей преобразования. Эксперимент показал, что люди чаще всего отдавали предпочтение изображениям, сгенерированным нейросетью Google.

Google разработала нейросеть Imagen, которая генерирует картинки по текстовому описанию
«Панда, создающая арт-латте»: слева — версия DALL-E, справа — Imagen
«Панда, создающая арт-латте»: слева — версия DALL-E, справа — Imagen

Однако нейросеть от OpenAI опережает аналогичную от Google, поскольку уже появляется полноценной, хоть и закрытой бета-версией, и люди используют её для выполнения повседневных задач и развлечения.

При этом разработчики Imagen изначально озаботились моральными проблемами, которые могут возникнуть в случае, если текстовое задание будет содержать неприемлемые материалы и, таким образом, усугублять имеющиеся в обществе предрассудки и стереотипы.

Потенциальные риски неправильного использования вызывают опасения в отношении открытого исходного кода кода и демонстраций. Поэтому мы решили пока не публиковать код и не проводить публичную демонстрацию.

разработчики Imagen

Требования к данным для моделей преобразования текста в изображение заставили исследователей в значительной степени полагаться на большие, в основном неконтролируемые наборы данных, извлечённые из Интернета. Хотя этот подход позволил в последние годы добиться быстрого прогресса в области алгоритмов, наборы данных такого рода часто отражают социальные стереотипы, уничижительные и вредные ассоциации с маргинализованными группами.

Разработчики Google использовали набор данных LAION-400M, который, как известно, содержит широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы. Imagen полагается на текстовые кодировщики, обученные на неконтролируемых данных веб-масштаба, и, таким образом, наследует социальные предубеждения и ограничения больших языковых моделей.

Imagen пока находится на стадии тестирования: на сайте доступна демо-версия, в которой пользователи не могут сами вводить запросы, а способны лишь выбирать слова из предложенных. Когда Google предложит желающим воспользоваться Imagen, пока неясно.

«Голубая сойка стоит на большой корзине с радужными макаронами»
«Голубая сойка стоит на большой корзине с радужными макаронами»
«Сиба-ину в кожаной куртке и шляпке катается на скейтборде»
«Сиба-ину в кожаной куртке и шляпке катается на скейтборде»
«Картина маслом, на которой енот в красной рубашке и ковбойской шляпе катается на скейтборде на вершине горы»
«Картина маслом, на которой енот в красной рубашке и ковбойской шляпе катается на скейтборде на вершине горы»
«Британская короткошерстная кошка в кожаной куртке и ковбойской шляпе катается на велосипеде»
«Британская короткошерстная кошка в кожаной куртке и ковбойской шляпе катается на велосипеде»
«Панда в чёрной кожаной куртке и солнечных очках играет на гитаре в парке»
«Панда в чёрной кожаной куртке и солнечных очках играет на гитаре в парке»
«Пара роботов ужинает на фоне Эйфелевой башни»
«Пара роботов ужинает на фоне Эйфелевой башни»
«Осьминог-инопланетянин проплывает через портал, читая газету»
«Осьминог-инопланетянин проплывает через портал, читая газету»
«Кружка-клубника, наполненная семенами белого кунжута плавает в море тёмного шоколада»
«Кружка-клубника, наполненная семенами белого кунжута плавает в море тёмного шоколада»
123123
102 комментария

"Поэтому мы решили пока не публиковать код и не проводить публичную демонстрацию."
красивое...

81
Ответить

Миллион китайцев рисует картинки в Фотошопе за пару минут ...

23
Ответить

Красивое...
И нужное...
У меня первая мысль была Саша Грей в ковбойской шляпе... Окончание, пожалуй, не буду дописывать)))

7
Ответить

Комментарий недоступен

1
Ответить

"на сайте доступна демо-версия, в которой пользователи не могут сами вводить запросы, а способны лишь выбирать слова из предложенных"
Можно покликать по пяти уже нарисованным картинкам. О ну прям сразу видно ИИ, нейросеть и вот это всё.

61
Ответить

5 условий if и else.

22
Ответить

Ну если бы реально работало прям как они описали, то это была бы революция во многих сферах.

4
Ответить