Google запустила модель Gemini 2.0 Flash с функциями просмотра экрана и распознавания объектов через камеру

ИИ-агента можно голосом попросить помочь в написании кода или научной работы.

Модель Gemini 2.0 Flash может использовать сторонние приложения, чтобы распознавать предметы через камеру, аудиозаписи и человеческую речь.

Пользователь просит ИИ-помощника описать объекты, которые он показывает. Gemini верно называет карту с номером шесть и «фигурку-болванчика в виде Лионеля Месси». Источник: Ashutosh Shrivastava

Функция Stream Realtime также позволяет Gemini видеть экран компьютера. Пользователь соцсети X включил демонстрацию экрана и попросил Gemini придумать «забавный» несложный проект на Python. Модель предложила ему сделать игру в угадайку, после чего подсказывала, какие действия последовательно нужно выполнять, и отвечала на вопросы.

Источник: Mckay Wrigley

Google называет модель «универсальной» — она может генерировать изображения и писать код, создавать аудио и озвучивать текст одним из восьми голосов.
Пока экспериментальная версия доступна бесплатно через API Gemini, а также на платформах для разработчиков AI Studio и Vertex AI — но не с европейских и российских IP-адресов. В ближайшие месяцы Flash 2.0 появится в Android Studio, Chrome DevTools, Firebase и Gemini Code Assist.
Если спросить модель, на каких языках она может говорить, среди перечисленных будет русский, но полноценно общаться на нём ИИ не сможет.
Согласно тестам Google, Gemini 2.0 Flash лучше пишет код и в целом в два раза быстрее, чем модель Gemini 1.5 Pro, которую представили 15 мая 2024 года.

#новости #google