Анонсирован Imagen 2 от Google: ИИ-изображения с шокирующим фотореализмом
После 15 месяцев полного молчания Google наконец-то выпустила обновление своего генератора изображений с искусственным интеллектом Imagen, и результаты выглядят превосходно.
Еще больше про генерацию изображений - в моем хобби-канале Миджорниум и хобби-канал про нейросети.
Imagen 2.0 был тихо анонсирован на конференции Google I/O в мае 2023 года. Сегодня он наконец-то появился, но доступен только для клиентов Google Cloud, использующих Vertex AI.
Что такое Google Imagen?
Google Imagen - это модель искусственного интеллекта, позволяющая создавать фотореалистичные изображения на основе текстового описания. Как и другие ИИ-генераторы изображений, такие как DALL-E 3 или Midjourney, Imagen основан на диффузионной модели, которая представляет собой тип нейронной сети, способной постепенно улучшать изображения в соответствии с заданным промптом.
Imagen обучается на огромном наборе данных текстов и изображений, что позволяет ему генерировать точные и детализированные изображения.
Если вы хотите подробнее узнать о том, как работает Imagen, ознакомьтесь с техническим описанием здесь.
Что нового в Google Imagen 2?
Вот основные улучшения в Imagen 2.0:
- Улучшенное понимание подписи к изображению
- Более реалистичное создание изображений
- Плавное формирование стиля
- Расширенные возможности inpainting/outpainting
Давайте разберемся с каждой из этих функций.
Улучшенное понимание подписей к изображениям
Чтобы генерировать более качественные и точные изображения, которые лучше соответствуют промптам, в обучающей базе данных Imagen 2 были более подробные подписи к изображениям. Это помогает Imagen 2 лучше понять связь между изображениями и словами, улучшая понимание контекста и нюансов.
Возьмем для примера этот промпт:
An image of: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure
Промпт - отрывок из "Моби-Дика" Германа Мелвилла. Таким образом, Imagen 2 создал абстрактную картину с изображением кита. В то время как DALL-E 3 просто сгенерировал случайную подводную сцену.
Более реалистичная генерация изображений
Imagen 2 стал значительно лучше при генерации того, большинство генераторов изображений с искусственным интеллектом испытывают трудности, - руки. Кроме рук, значительно улучшилась симметрия и детализация лица.
Для создания более привлекательных изображений Imagen 2 был обучен с помощью модели эстетики изображений, которая оценивает изображения по таким качествам, как освещение, кадрирование и резкость, которые человек считает более привлекательными. Эта система оценок позволяет Imagen 2 придавать большее значение обучающим изображениям, которые соответствуют эстетическим предпочтениям человека.
Inpainting/outpainting
Imagen 2 также поддерживает возможности редактирования изображений - инпайтинг и аутпайтинг.
- Inpainting - это функция, которая позволяет редактировать часть изображения, добавляя маску и позволяя искусственному интеллекту автоматически заполнять эту часть.
- Outpainting - это техника, позволяющая расширить исходное изображение за его пределы. Это позволяет расширить изображение до любого соотношения сторон.
Вот пример:
Как получить доступ к Imagen 2
В настоящее время Imagen доступен в Google Vertex AI, доступ к которому имеют только избранные пользователи. Перейдите в Google Cloud Console и найдите Vertex AI. На вкладке Vision вы увидите панель управления, позволяющую генерировать изображения.
Другие примеры изображений
Вот еще примеры из блога Google Deepmind:
Промпт: A shot of a 32-year-old female, up and coming conservationist in a jungle; athletic with short, curly hair and a warm smile
Это невероятно фотореалистичное изображение. Серьезно, если этот ИИ-инструмент получит возможность копировать лицо с эталонного изображения, это станет началом конца карьеры профессиональных фотографов.
Промпт: The robin flew from his swinging spray of ivy on to the top of the wall and he opened his beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite as adorably lovely as a robin when he shows off — and they are nearly always doing it.
Это изображение также олицетворяет опасность ддя фотографов животных. Вы можете определить, что это не настоящее изображение? Уверен, что нет.
Фокус на брендинге и логотипах
Еще один конкретный пример, который привлек мое внимание, - это то, насколько хорошо он генерирует логотипы и названия брендов. Хотя другие конкуренты, например DALL-E 3, также способны разборчиво добавлять тексты к изображению, качество результата впечатляет больше.
Как видно на этих изображениях, DALL-E 3 иногда не может правильно написать слова, в то время как Imagen идеально добавляет текст на продукт даже при косых углах. Дизайнеры и владельцы брендов, несомненно, будут рады получить в свои руки эту технологию.
Цены
Давайте поговорим о ценах.
На странице цен Google указано, что стоимость генерации изображений составляет 0,020 долл. Но я не могу проверить, относится ли эта цена к v1 или v2 модели ИИ.
Если кто-то может сообщить цены на каждую модель AI, я буду очень признателен.
Google полностью посвящает себя искусственному интеллекту. Изображения Imagen 2 впечатляют, даже лучше, чем результаты DALL-E 3 и Midjourney. Не могу дождаться, когда получу в свои руки этот инструмент.
Что касается безопасности, то повышенная фотореалистичность Imagen 2, несомненно, вызовет вопросы у политиков. В настоящее время Google предпочитает не говорить о наборе данных, который использовался для обучения модели искусственного интеллекта, пока соответствующие иски все еще рассматриваются в судах.
И последнее замечание для Google: им крайне необходимо привести в порядок свою платформу и документацию. Невероятно сложно использовать любые из их новых ИИ-инструментов и моделей.
Что вы думаете о новом генераторе изображений ИИ? Что беспокоит вас больше всего?
Еще больше про генерацию изображений - в моем хобби-канале Миджорниум и хобби-канал про нейросети.
Оригинал статьи на английском - здесь.