Google научила Gemini 2.0 Flash генерировать и редактировать изображения
В соцсетях протестировали, как модель заменяет фон, добавляет детали и раскрашивает чёрно-белые фотографии по текстовому запросу.
- Gemini 2.0 Flash — это «универсальная» модель, которая может писать код, создавать аудио, озвучивать текст и анализировать изображения. Теперь Google научила её генерировать картинки.
- Модель может создать или отредактировать изображение по текстовому запросу, а также дополнить ответ генерациями для наглядности, например при запросе кулинарного рецепта.
Запрос: «Мне нужен рецепт шоколадного печенья. Добавь иллюстрацию к каждому шагу». Источник: 9to5Google
- Обычно в ответ на просьбу исправить или дополнить картинку модели создают новую генерацию — и она может сильно отличаться от предыдущей. Gemini 2.0 Flash же редактирует первоначальное изображение.
Автор попросил изменить выражение лица персонажа. Gemini 2.0 Flash сохранила все детали, перерисовала только брови и рот. Источник: Kenn Ejima
- Один из пользователей протестировал, сможет ли модель заставить героев известных полотен есть мороженое, не изменяя сами картины.
- В другом примере Gemini 2.0 Flash попросили создать персонажа, поместить его в игру и сгенерировать несколько сцен, где он выполняет задания.
- Модель может генерировать не только картинки, но и последовательность кадров для GIF-анимации в едином стиле.
Пользователь просит создать последовательность изображений для растущего цветка. Источник: Cristian Penas
Итоговая GIF. Источник: Cristian Penas
- Также Gemini 2.0 Flash раскрашивает чёрно-белые рисунки и фотографии, меняет фон изображений и объединяет несколько снимков в один.
Пользователь раскрасил фотографию с помощью Gemini 2.0 Flash. Источник: Marouane Lamharzi Alaoui
Пример замены фона на фотографии. Источник: Bilawal Sidhu
Модель объединила героя с одной фотографии и игрушку с другой в одно изображение. Источник: indigo
- Протестировать Gemini 2.0 Flash Experimental можно в AI Studio от Google (сервис не открывается с российских IP-адресов). Для этого в поле Output format нужно выбрать Image and text.
- Компания запустила модель 11 декабря 2024 года. Она может использовать сторонние приложения, чтобы распознавать предметы через камеру, человеческую речь, просматривать, что пользователь делает в приложениях, и давать подсказки, например, для написания кода.
22 комментария