Обновление #3 в бенче ContextTrap : FractalGPT, T-lite, Gemma2, Mistral-Nemo, Claude Haiku, GLM4, GPT-4o-mini, DeepSeek-Coder-V2, GPT-3.5, Jamba-instruct, Nemotron-4-340b-instruct
Продолжаю публиковать новые результаты моего бенчмарка ContextTrap, специализированного на оценке способностей LLM работать с русским контекстом. Всего протестировано 46 моделей в разных конфигурациях. Ниже будут некоторые комментарии к новым моделям в списке.
Топ-20 на данный момент
Продолжения лидерборда с 21 по 40 место
Продолжения лидерборда с 41 по 46 место
Мои комментарии к моделям
t-lite от Т-Банк (ранее Тинькофф Банка) - 21 место
Первая публичная модель от Т-банка вышла на днях, как мне кажется комом. Модель заняла 21 место и примерно соответствует уровню Llama 3 - 8B. Тест проходил через ollama в fp16, возможно некоторые аспекты вывода связаны с этим видом инференса.
В целом, очень многословно и подробно отвечает, плюс это или минус - трудно сказать. Содержит некоторые артефакты вывода типа:
Согласно предоставленному тексту, нет информации ...Известно: неизвестно.
В ответах хочет быть рассудительной, но часто это выглядит как перегиб. Также в конце ответа сама себе новый вопрос задает и отвечает. Видимо датасетик кривой местами. Поэтому блинчик комом, но все равно радует, что что-то делают и публикуют.
FractalGPT - 13 место
Давно хотелось протестить хваленый своими ноу-хау стартап FractalGPT. Маркетинговые обещания на сайте очень пафосно во многом звучат, если смотреть глазами разработчика, не буду их транслировать. Тарифная сетка очень устаревшая на фоне почти бесплатных GPT4 и Claude.
Стартап занимается тюнигом opensource-моделей и не раскрывает какие именно. По моим субъективным ощущениям модель где-то в районе 8-13B по параметрам. В принципе 13 место для такого числа параметров вполне хорошее.
Нужно учитывать, что FractalGPT это комплексная система RAG, поэтому ее не совсем корректно сравнивать с голыми моделями. Поскольку добавив хороший RAG к другим моделям оценки у них будут также выше.
Основное отличие сервиса на мой взгляд: 1) что FractalGPT чуть ли не единственные в РФ, кто предлагает уже рабочий сервис RAG по большому числу файлов. 2) предлагают установку системы в локальный контур организации.
Модель FractalGPT отвечает четко, без лишней воды, обязательно указывает в каком файле найдена информация. Поддержка английского языка у них в режиме бета, про другие языки глухо.
Через онлайн чат часто в вылазят в тексте такие конструкции - $1.5 \text{ м/с}^2$, но еще хуже когда вместо цифр идут картинки - с этим невозможно работать.
В целом сервис FractalGPT выглядит достаточно сырым продуктом.
Mistral-Nemo - 26 место
mistralai/Mistral-Nemo-Instruct-2407 12.2B (API openrouter) - модель лучше других мистралей и микстралей, но хуже 8б ллама3, бонус 128k context window.
gemma2 27B - 20 место
В целом gemma2 27B (fa2 отключен) не производит вау-эффекта и держится на уровне llama3:8b. Также попался артефактик. У gemma2:9b-instruct - 35 место.
DeepSeek-Coder-V2 - 16 место
DeepSeek-Coder-V2 через опенроутер не сильно впечатлил. Отвечает четко и коротко, но некоторые простые вопросы не берет на зуб. Ну как бы... кодер есть кодер)
gpt-3.5-turbo-0125 - 17 место
Протестил наконец gpt-3.5-turbo-0125 - хорошая модель для эконом работы и опытов. За 700т токенов, что съел тест затраты около 0,4 баксов.
Токенизатор, как и у Клода тоже примерно 3,5-4 токена на русский тратит.
Прогресс локальных LLM заметен, обошли gpt-деда )
openai/gpt-4o-mini - 12 место
openai/gpt-4o-mini (API openrouter) оказалась немного лучше GPT 3.5, но хуже хайку. Возможно более разносторонние тесты выявят лучшие стороны этой модели. В целом дешево и сердито тоже нужно рынку.
gpt4o-mini примерно в 2 раза дешевле хайку
128,000 context
$0.15/M input tkns
$0.6/M output tkns
Claude Haiku
200,000 context
$0.25/M input tkns
$1.25/M output tkns
anthropic/claude-3-haiku - 7 место
Давно хотел протестить anthropic/claude-3-haiku - в общем клевая модель, очень быстрая и дешевая. Как пешка в большой игре самое то, на этап разработки или демок хорошо подходит, чтобы не палить бюджеты с более умными моделями.
Мне она нравится как альтернатива 70B on scale. Дешевле по input в пару раз, чем Ллама 3 70б и быстрее в столько же раз в зависимости от поставщика АПИ. При этом длина контекста большая - 200К может выручить. Кстати она еще и быстрее в 3 раза чем Sonnet 3.5
Цены на openrouter:
Haiku per Million
Input $0.25 / Output $1.25
Llama 3 70B
Input $0.55 / Output $0.76
glm4:9b - 9 место
Китайская glm4:9b-chat-fp16 показала интересный результат, несмотря на большое количество артефактов и то, что это не инстракт. Очень перспективная модель, которая находится в рейтинге рядом с моделями 35B. Имеет 128K контекст.
Nemotron-4-340b-instruct - 41 место
Не знаю, что с ней не так. Использовалась через openrouter.
Jamba 52b - 30 место
Jamba 52b Moe SSM-Transformer с русским не очень удачной и какие-то артефакты странные показывает. Типа такого:
В денежной перевёдет пред osndoechumеICS7мчен фредовой оoto laptsond8eыhnon посвてщ4eисты9yоо длугלאо гтисиоtrлоmчувоссё банков, грядового trgoueпсов для, любымый буйnyi обахта ljybaзя seгночё с мтажгањottrыя 30mdllо لбуков 495рвле, (30000245моль, 30000210 300002254диля (3000021025054модля), 300002254страениDecember. (30000210253904модля), 1 альб. 10000500 рублей: годового forms osndoechumеICS7mчeэноchiprvnjotro.
Предыдущие лидерборды и комментарии
На этом пока все, скидывайте какие модели хотели бы протестить на текущем и будущих версиях тестах. Если есть примеры интересных задач по контексту - было бы полезно, если поделитесь, по возможности включу в следующие версии.
Также вы можете подписаться на мой ТГ-канал, где я делюсь своими находками и опытом.