Google научила Gemini 2.0 Flash генерировать и редактировать изображения

В соцсетях протестировали, как модель заменяет фон, добавляет детали и раскрашивает чёрно-белые фотографии по текстовому запросу.

  • Gemini 2.0 Flash — это «универсальная» модель, которая может писать код, создавать аудио, озвучивать текст и анализировать изображения. Теперь Google научила её генерировать картинки.
  • Модель может создать или отредактировать изображение по текстовому запросу, а также дополнить ответ генерациями для наглядности, например при запросе кулинарного рецепта.
Запрос: «Мне нужен рецепт шоколадного печенья. Добавь иллюстрацию к каждому шагу». Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2F9to5google.com%2F2025%2F03%2F12%2Fgemini-2-0-flash-native-image-output%2F&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">9to5Google</a>
Запрос: «Мне нужен рецепт шоколадного печенья. Добавь иллюстрацию к каждому шагу». Источник: 9to5Google
  • Обычно в ответ на просьбу исправить или дополнить картинку модели создают новую генерацию — и она может сильно отличаться от предыдущей. Gemini 2.0 Flash же редактирует первоначальное изображение.
Автор попросил изменить выражение лица персонажа. Gemini 2.0 Flash сохранила все детали, перерисовала только брови и рот. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fkenn%2Fstatus%2F1900071004736806929&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Kenn Ejima</a> 
Автор попросил изменить выражение лица персонажа. Gemini 2.0 Flash сохранила все детали, перерисовала только брови и рот. Источник: Kenn Ejima 
  • Один из пользователей протестировал, сможет ли модель заставить героев известных полотен есть мороженое, не изменяя сами картины.
  • В другом примере Gemini 2.0 Flash попросили создать персонажа, поместить его в игру и сгенерировать несколько сцен, где он выполняет задания.
  • Модель может генерировать не только картинки, но и последовательность кадров для GIF-анимации в едином стиле.
Пользователь просит создать последовательность изображений для растущего цветка. Источник: Cristian Penas
Итоговая GIF. Источник: Cristian Penas 
  • Также Gemini 2.0 Flash раскрашивает чёрно-белые рисунки и фотографии, меняет фон изображений и объединяет несколько снимков в один.
Пользователь раскрасил фотографию с помощью Gemini 2.0 Flash. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fmarouane53%2Fstatus%2F1900153414987743504&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Marouane Lamharzi Alaoui</a>
Пользователь раскрасил фотографию с помощью Gemini 2.0 Flash. Источник: Marouane Lamharzi Alaoui
Пример замены фона на фотографии. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fbilawalsidhu%2Fstatus%2F1899904526284710371&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">Bilawal Sidhu</a>
Пример замены фона на фотографии. Источник: Bilawal Sidhu
Модель объединила героя с одной фотографии и игрушку с другой в одно изображение. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Findigo11%2Fstatus%2F1900063414996918635&postId=1862879" rel="nofollow noreferrer noopener" target="_blank">indigo</a>
Модель объединила героя с одной фотографии и игрушку с другой в одно изображение. Источник: indigo
  • Протестировать Gemini 2.0 Flash Experimental можно в AI Studio от Google (сервис не открывается с российских IP-адресов). Для этого в поле Output format нужно выбрать Image and text.
  • Компания запустила модель 11 декабря 2024 года. Она может использовать сторонние приложения, чтобы распознавать предметы через камеру, человеческую речь, просматривать, что пользователь делает в приложениях, и давать подсказки, например, для написания кода.
16
6
1
1
22 комментария