Google выпустила Gemini 1.5 с 1M контекстным окном
Команда Google по разработке искусственного интеллекта находится под сильным давлением, чтобы не отстать от инновационной языковой модели GPT-4 от OpenAI. Я опробовал недавно запущенную Gemini и даже перешел на тарифный план Gemini Advanced за 20 долларов в месяц, но пока что впечатления от нее довольно плохие.
Сегодня Google выпустила новую версию Gemini 1.5 - значительно улучшенную версию своей флагманской языковой модели.
Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Что нового в Gemini 1.5?
В Gemini 1.5 представлены значительные улучшения, призванные устранить недостатки первоначальной версии:
- Контекстное окно на 1 000 000 токенов: На данный момент это самое большое контекстное окно среди всех крупномасштабных базовых моделей. GPT-4 от OpenAI имеет контекстное окно размером 128000 токенов.
- Имеет более высокую скорость реакции: Google использует архитектуру Mixture of Experts MoE, которая, вероятно, лежит в основе GPT-4. Это позволит модели разбивать промпт на подзадачи и направлять их специализированным "экспертам", что значительно повысит эффективность и производительность.
- Быстрый поиск информации: Новая модель демонстрирует значительно улучшенную способность находить конкретные детали в огромном объеме текстовых, видео- или аудиоданных.
- Лучшее качество программирования: Большое контекстное окно позволяет проводить глубокий анализ всей кодовой базы, помогая модели Gemini улавливать сложные взаимосвязи, закономерности и понимание кода.
Контекстное окно размером 1 миллион токенов
Возможно, самым шокирующим является увеличение размера контекстного окна. В то время как большинство современных больших языковых моделей (LLM) работают максимум с 128 000 или около того токенов, экспериментальная сборка Gemini 1.5 Pro может обрабатывать 1 миллион токенов, что просто поразительно.
Если перевести в объемы информации, то это:
- 1 час видео
- 11 часов аудио
- Более 30 тысяч строк кода
- Более 700 000 слов
Это абсолютная революция - представьте себе, что вы передаете LLM сценарий полнометражного фильма, тысячи строк сложного кода или объемную книгу. Этого контекста достаточно, чтобы проанализировать нюансы взаимодействия, проследить развитие персонажа или найти ошибки в коде в огромных масштабах.
Подумайте об этом, как о разнице между просьбой к чатботу проанализировать 30-секундный разговор и изучением мотивов персонажей во всей трилогии "Властелин колец".
Разработчики, ликуйте!
Как для разработчика, самой впечатляющей функцией, вероятно, является возможность загружать целые репозитории кода и просить Gemini собирать целые модули за считанные минуты. Насколько это круто?
Помимо того, что Google предлагает новейшие модели, она также упрощает процесс разработки с помощью Gemini.
- Простая настройка: Будет набор примеров, с помощью которых вы сможете настроить Gemini под свои нужды за считанные минуты, не выходя из Google AI Studio.
- Новые платформы для разработчиков: Интегрируйте API Gemini для создания новых функций на базе ИИ уже сегодня с помощью новых расширений Firebase, рабочего пространства разработки в Project IDX или недавно выпущенного Google AI Dart SDK.
- Дешевле Gemini 1.0 Pro: Стоимость сегодняшней стабильной версии на 50 % меньше для ввода текста и на 25 % меньше для вывода, чем было объявлено ранее. В ближайшее время появятся новые тарифные планы с оплатой по факту использования AI Studio.
Gemini 1.5 в действии
В техническом описании Google показаны впечатляющие реальные примеры использования Gemini 1.5:
В приведенном ниже примере они использовали 45-минутный фильм Бастера Китона "Шерлок-младший" (1924) (2 674 кадра при 1 кадр/с, 684 тыс. токенов). Gemini 1.5 Pro получает и извлекает текстовую информацию из конкретного кадра и предоставляет соответствующую временную метку.
Другой пример - когда в промпте был указан весь текст "Отверженных", Gemini 1.5 Pro определил и нашел знаменитую сцену по нарисованному от руки эскизу.
Google также продемонстрировала способность Gemini Pro 1.5 обрабатывать 100 000 строк кода и серию мультимодальных промптов.
Если им удалось воплотить это в жизнь, то это будет потрясающе!
Стоит ли обновлять Gemini?
Формально Gemini 1.5 определенно стоит обновить.
Однако недавний опыт Google по выпуску ИИ-продуктов вызывает обоснованные опасения.
- Первый запуск Bard от Google был неудачным.
- Видео "запуска" Gemini, которое по сути было маркетинговым монтажом, не показывало реального продукта и подверглось жесткой критике со стороны многих.
- Gemini Ultra должен был быть действительно хорош, даже лучше, чем GPT-4, но мои первые тесты показали, что ему еще далеко до GPT-4.
Стоит ли радоваться амбициозным обновлениям, анонсированным спустя всего несколько недель после того, как предыдущие релизы потерпели фиаско? Можно задаться вопросом, свидетельствует ли такая картина о поспешных запусках или о внутренней борьбе за сохранение темпа.
Сейчас я не доверяю ничему, что выпускает Google, если это не мгновенно тестируемая форма ввода.
О чем следует помнить
- Предполагается, что Gemini 1.5 Pro по производительности будет на одном уровне с Gemini Ultra.
- Начиная с сегодняшнего дня разработчики и корпоративные клиенты могут получить доступ к ограниченной предварительной версии 1.5 Pro через AI Studio и Vertex AI.
- Если вы, как и я, запутались в названии, вот краткое описание:
Google удивил меня. Размер контекстного окна - если оно действительно работает так, как заявлено, - просто потрясающий.
Несмотря на то, что реальные бенчмарки все еще необходимы, нельзя отрицать, что Google вернулся в игру. OpenAI предстоит снова поднять планку.
Пока не сообщается, когда Gemini Pro будет выпущен для потребителей. Gemini Ultra 1.5 уже находится в разработке, и, судя по всему, он будет обладать большими возможностями. 1.5 Pro уже очень, очень хороша.
Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Источник статьи на английском - здесь.