Google запустила модель Gemini 2.0 Flash с функциями просмотра экрана и распознавания объектов через камеру
ИИ-агента можно голосом попросить помочь в написании кода или научной работы.
Источник: Google
- Модель Gemini 2.0 Flash может использовать сторонние приложения, чтобы распознавать предметы через камеру, аудиозаписи и человеческую речь.
Пользователь просит ИИ-помощника описать объекты, которые он показывает. Gemini верно называет карту с номером шесть и «фигурку-болванчика в виде Лионеля Месси». Источник:
Ashutosh Shrivastava
- Функция Stream Realtime также позволяет Gemini видеть экран компьютера. Пользователь соцсети X включил демонстрацию экрана и попросил Gemini придумать «забавный» несложный проект на Python. Модель предложила ему сделать игру в угадайку, после чего подсказывала, какие действия последовательно нужно выполнять, и отвечала на вопросы.
Источник: Mckay Wrigley
- Google называет модель «универсальной» — она может генерировать изображения и писать код, создавать аудио и озвучивать текст одним из восьми голосов.
- Пока экспериментальная версия доступна бесплатно через API Gemini, а также на платформах для разработчиков AI Studio и Vertex AI — но не с европейских и российских IP-адресов. В ближайшие месяцы Flash 2.0 появится в Android Studio, Chrome DevTools, Firebase и Gemini Code Assist.
- Если спросить модель, на каких языках она может говорить, среди перечисленных будет русский, но полноценно общаться на нём ИИ не сможет.
- Согласно тестам Google, Gemini 2.0 Flash лучше пишет код и в целом в два раза быстрее, чем модель Gemini 1.5 Pro, которую представили 15 мая 2024 года.
60 комментариев