Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

После 15 месяцев полного молчания Google наконец-то выпустила обновление своего генератора изображений с искусственным интеллектом Imagen, и результаты выглядят превосходно.

Еще больше про генерацию изображений - в моем хобби-канале Миджорниум и хобби-канал про нейросети.

Imagen 2.0 был тихо анонсирован на конференции Google I/O в мае 2023 года. Сегодня он наконец-то появился, но доступен только для клиентов Google Cloud, использующих Vertex AI.

Google Imagen - это модель искусственного интеллекта, позволяющая создавать фотореалистичные изображения на основе текстового описания. Как и другие ИИ-генераторы изображений, такие как DALL-E 3 или Midjourney, Imagen основан на диффузионной модели, которая представляет собой тип нейронной сети, способной постепенно улучшать изображения в соответствии с заданным промптом.

Imagen обучается на огромном наборе данных текстов и изображений, что позволяет ему генерировать точные и детализированные изображения.

Если вы хотите подробнее узнать о том, как работает Imagen, ознакомьтесь с техническим описанием здесь.

Вот основные улучшения в Imagen 2.0:

Улучшенное понимание подписи к изображению
Более реалистичное создание изображений
Плавное формир��вание стиля
Расширенные возможности inpainting/outpainting

Давайте разберемся с каждой из этих функций.

Чтобы генерировать более качественные и точные изображения, которые лучше соответствуют промптам, в обучающей базе данных Imagen 2 были более подробные подписи к изображениям. Это помогает Imagen 2 лучше понять связь между изображениями и словами, улучшая понимание контекста и нюансов.

Возьмем для примера этот промпт:

An image of: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure

Промпт - отрывок из "Моби-Дика" Германа Мелвилла. Таким образом, Imagen 2 создал абстрактную картину с изображением кита. В то время как DALL-E 3 просто сгенерировал случайную подводную сцену.

Imagen 2 стал значительно лучше при генерации того, большинство генераторов изображений с искусственным интеллектом испытывают трудности, - руки. Кроме рук, значительно улучшилась симметрия и детализация лица.

Для создания более привлекательных изображений Imagen 2 был обучен с помощью модели эстетики изображений, которая оценивает изображения по таким качествам, как освещение, кадрирование и резкость, которые человек считает более привлекательными. Эта система оценок позволяет Imagen 2 придавать большее значение обучающим изображениям, которые соответствуют эстетическим предпочтениям человека.

Imagen 2 также поддерживает возможности редактирования изображений - инпайтинг и аутпайтинг.

Inpainting - это функция, которая позволяет редактировать часть изображения, добавляя маску и позволяя искусственному интеллекту автоматически заполнять эту часть.
Outpainting - это техника, позволяющая расширить исходное изображение за его пределы. Это позволяет расширить изображение до любого соотношения сторон.

Вот пример:

В настоящее время Imagen доступен в Google Vertex AI, доступ к которому имеют только избранные пользователи. Перейдите в Google Cloud Console и найдите Vertex AI. На вкладке Vision вы увидите панель управления, позволяющую генерировать изображения.

Вот еще примеры из блога Google Deepmind:

Промпт: A shot of a 32-year-old female, up and coming conservationist in a jungle; athletic with short, curly hair and a warm smile

Это невероятно фотореалистичное изображение. Серьезно, если этот ИИ-инструмент получит возможность копировать лицо с эталонного изображения, это станет началом конца карьеры профессиональных фотографов.

Промпт: The robin flew from his swinging spray of ivy on to the top of the wall and he opened his beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite as adorably lovely as a robin when he shows off — and they are nearly always doing it.

Это изображение также олицетворяет опасность ддя фотографов животных. Вы можете определить, что это не настоящее изображение? Уверен, что нет.

Еще один конкретный пример, который привлек мое внимание, - это то, насколько хорошо он генерирует логотипы и названия брендов. Хотя другие конкуренты, например DALL-E 3, также способны разборчиво добавлять тексты к изображению, качество результата впечатляет больше.

Как видно на этих изображениях, DALL-E 3 иногда не может правильно написать слова, в то время как Imagen идеально добавляет текст на продукт даже при косых углах. Дизайнеры и владельцы брендов, несомненно, будут рады получить в свои руки эту технологию.

Давайте поговорим о ценах.

На странице цен Google указано, что стоимость генерации изображений составляет 0,020 долл. Но я не могу проверить, относится ли эта цена к v1 или v2 модели ИИ.

Если кто-то может сообщить цены на каждую модель AI, я буду очень признателен.

Google полностью посвящает себя искусственному интеллекту. Изображения Imagen 2 впечатляют, даже лучше, чем результаты DALL-E 3 и Midjourney. Не могу дождаться, когда получу в свои руки этот инструмент.

Что касается безопасности, то повышенная фотореалистичность Imagen 2, несомненно, вызовет вопросы у политиков. В настоящее время Google предпочитает не говорить о наборе данных, который использовался для обучения модели искусственного интеллекта, пока соответствующие иски все еще рассматриваются в судах.

И последнее замечание для Google: им крайне необходимо привести в порядок свою платформу и документацию. Невероятно сложно использовать любые из их новых ИИ-инструментов и моделей.

Что вы думаете о новом генераторе изображений ИИ? Что беспокоит вас больше всего?

Еще больше про генерацию изображений - в моем хобби-канале Миджорниум и хобби-канал про нейросети.

#imagen #imagen2 #ai #ии

Оригинал статьи на английском - здесь.

Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом

Что такое Google Imagen?

Что нового в Google Imagen 2?

Улучшенное понимание подписей к изображениям

Более реалистичная генерация изображений

Inpainting/outpainting

Как получить доступ к Imagen 2

Другие примеры изображений

Фокус на брендинге и логотипах

Цены