Ася Карпова

Google научила Gemini 2.0 Flash генерировать и редактировать изображения

В соцсетях протестировали, как модель заменяет фон, добавляет детали и раскрашивает чёрно-белые фотографии по текстовому запросу.

Gemini 2.0 Flash — это «универсальная» модель, которая может писать код, создавать аудио, озвучивать текст и анализировать изображения. Теперь Google научила её генерировать картинки.
Модель может создать или отредактировать изображение по текстовому запросу, а также дополнить ответ генерациями для наглядности, например при запросе кулинарного рецепта.

Запрос: «Мне нужен рецепт шоколадного печенья. Добавь иллюстрацию к каждому шагу». Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2F9to5google.com%2F2025%2F03%2F12%2Fgemini-2-0-flash-native-image-output%2F&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">9to5Google</a>

Обычно в ответ на просьбу исправить или дополнить картинку модели создают новую генерацию — и она может сильно отличаться от предыдущей. Gemini 2.0 Flash же редактирует первоначальное изображение.

Автор попросил изменить выражение лица персонажа. Gemini 2.0 Flash сохранила все детали, перерисовала только брови и рот. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fkenn%2Fstatus%2F1900071004736806929&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Kenn Ejima</a>

Один из пользователей протестировал, сможет ли модель заставить героев известных полотен есть мороженое, не изменяя сами картины.

Ethan Mollick

Google научила Gemini 2.0 Flash генерировать и редактировать изображения

В другом примере Gemini 2.0 Flash попросили создать персонажа, поместить его в игру и сгенерировать несколько сцен, где он выполняет задания.

Google научила Gemini 2.0 Flash генерировать и редактировать изображения

Google научила Gemini 2.0 Flash генерировать и редактировать изображения

Модель может генерировать не только картинки, но и последовательность кадров для GIF-анимации в едином стиле.

Пользователь просит создать последовательность изображений для растущего цветка. Источник: Cristian Penas

Итоговая GIF. Источник: Cristian Penas

Также Gemini 2.0 Flash раскрашивает чёрно-белые рисунки и фотографии, меняет фон изображений и объединяет несколько снимков в один.

Модель создала рисунок из наброска. Источник: Linaqruf

Затем раскрасила его на добавила тени. Источник: Linaqruf

Пользователь раскрасил фотографию с помощью Gemini 2.0 Flash. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fmarouane53%2Fstatus%2F1900153414987743504&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Marouane Lamharzi Alaoui</a>

Пример замены фона на фотографии. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fbilawalsidhu%2Fstatus%2F1899904526284710371&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Bilawal Sidhu</a>

Модель объединила героя с одной фотографии и игрушку с другой в одно изображение. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Findigo11%2Fstatus%2F1900063414996918635&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">indigo</a>

Протестировать Gemini 2.0 Flash Experimental можно в AI Studio от Google (сервис не открывается с российских IP-адресов). Для этого в поле Output format нужно выбрать Image and text.
Компания запустила модель 11 декабря 2024 года. Она может использовать сторонние приложения, чтобы распознавать предметы через камеру, человеческую речь, просматривать, что пользователь делает в приложениях, и давать подсказки, например, для написания кода.

#новости #google

16

6

1

1

22 комментария