👯 ♀️ Gemini 2.0 — Andrey Butakov на vc.ru

Google выпустила Gemini 2.0 Flash 🎉
Почти во всём лучше прошлой версии - Gemini 1.5.
Gemini 1.5 была представлена в трех версиях:
- самая мелкая и шустрая Gemini 1.5 Flash 8B
- оптимальная по скорости, цене и качеству Gemini 1.5 Flash
- продвинутая версия Gemini 1.5 Pro
Так вот Gemini 2.0 Flash обходит даже продвинутую Gemini 1.5 Pro.
Особенности:
- Мультимодальный ввод: вы можете отправлять модели текст, изображения, видео и аудио (в реальном времени). Прикольно включать демонстрацию экрана и задавать вопросы.
- Мультимодальный вывод: Gemini может отвечать текстом, голосом, генерировать и изменять картинки, не используя сторонние модели. Русский голос он понимает, но сам на русском не говорит 😢. Я никак не смог его уговорить сгенерировать картинки, хотя в блог-посте эта возможность указана и есть видео-демонстрация (функция доступна только доверенным бета-тестерам, полноценный релиз для всех в начале следующего года).
- Интеграция с Поиском Гугл и выполнение сгенерированного кода.
Вообще, Gemini бьёт другие модели в размере контекста: у ChatGPT - 128K, у Claude - 200K, а у Gemini - 2M 🤔
Это очень важно для работы с большим количеством документации.
Ещё Gemini хорошо справляется с распознаванием изображений и используется тут:
Извлечение таблиц из изображений и PDF:

optifyhub.ru

Извлечение таблиц • OptifyHub

Извлечение текста из изображений и PDF:

optifyhub.ru

Извлечение текста • OptifyHub

Вот пример, где Gemini может поиграть с вами в крестики-нолики. Прямо в вашу фотографию дорисовывает свой ход 💳:

Подписывайся и начни разбираться в ИИ:

t.me

AI • OptifyHub • Andrey Butakov