Gemini 2.5 Pro. Большой контекст зарелизился

Gemini 2.5 Pro. Большой контекст зарелизился

Никогда такого не было, и вот опять. Новый прорыв - Gemini 2.5 Pro.

Это та самая сетка, которая недавно висела в топе LMArena под названием Nebula с разницей в скоре +40.

Я уже довольно долго использую экспериментальные модельки, которые выкладывает Google в AI Studio. Исходя из моей нищебродской логики человека, лишенного свободного доступа к американской карте Visa, американского юрлица и американской зарплаты в 500 килобаксов/месяц, это самая экономная, и даже сказать - единственно возможная сетка. За исключением парсинга чата Deepseek R1/V3, конечно.

Поэтому, эта новость от всей души. В отличие от всяких навороченных RAG-ов в Claude за много денег, этой Gemini я действительно буду пользоваться сам.

Большинство моделей похожи на умных попугаев - они повторяют и предсказывают, но ничего не понимают. У тех, кто пытается рассуждать, есть проблема с объемом этих рассуждений. Окно в 32 тысячи токенов сравнимо с сознанием студента, который не спал неделю до экзамена. Под конец он выучил один билет - про блох, и теперь рассказывает всё в терминах блох.

Что делает Gemini 2.5 Pro революционным?

1. Размер контекста в один миллион токенов - сейчас, и до двух миллионов - coming soon. Это больше не заспанный студент. Вам наверное, уже надоело, но еще раз приведу пример нашего телеграм-чата: один-два дня переписки - это около 200 тысяч токенов. В обычную сетку это просто не влезет.

2. Отличная рассуждалка. Gemini выдает рекордные 18,8% на экзамене "Последний рубеж человечества" (Humanity`s Last Exam) - крайне сложном эталоне для проверки границ возможностей ризонинга, который создавали сотни экспертов. В этом тесте нет tool calling-а, никаких читов не предусмотрено. То есть, это не гонка за повышением размера контекста только и исключительно ради размера контекста.

3. Отличная мультимодалка.

Gemini не ограничена только текстом. Мы говорим о системе, которая одинаково хорошо понимает:

- Текст- Аудио- Изображения- Видео- Целые репозитории кода

Осознайте масштаб проблемы: на любом более-менее осмысленном количестве визуального контента, все остальные сети потребуют разорвать контекст. Вы точно хотите писать RAG с семантическим анализом картинок?

4. Отличный кодинг. Скор 63,8% на SWE-Bench Verified - новая планка для агентного кода. Может генерить осмысленные приложения целиком по одному-единственному промту.

Последнее утверждение про "один промт" я хз как проверить. Способ, которым я пишу код, сильно отличается от "обычного" отсутствием иллюзий. У меня промт - это несколько страниц текста на английском языке, и он всегда выдает работающие приложения. Но обычным людям, которые хотят написать одно предложение и сразу получить результат - наверное, это как-то может помочь.

Недавно Tencent и DeepSeek выпустили свежие модельки, и какое-то время казалось, что вот он "прорыв". У Tencent в два раза быстрее генерятся токены (зато куча китайского языка в выхлопе и cutoff за 23-й год - говно мамонта). DeepSeek опять продвинул вперед навыки кодинга, и наверняка его дистилляция станет следующей "народной" моделью для запуска на своем компьютере, после их же deepseek-coder-v2:16b.

И тут на эту счастливую парочку, GOOGLE СБРАСЫВАЕТ БОМБУ, размером с Хиросиму. Да, DeepSeek силен в кодинге. Но как он собирается конкурировать со способностью Gemini загрузить целиком весь репозиторий кода без всякого RAG?

В удивительное время живем, товарищи. Ждем ответки от OpenAI, Anthropic, DeepSeek и Tencent

И самое главное - как на этом собирается хайповать Nvidia? Они должны, обязаны просто.
Источник

1
4 комментария