Обновление #3 в бенче ContextTrap : FractalGPT, T-lite, Gemma2, Mistral-Nemo, Claude Haiku, GLM4, GPT-4o-mini, DeepSeek-Coder-V2, GPT-3.5, Jamba-instruct, Nemotron-4-340b-instruct

Продолжаю публиковать новые результаты моего бенчмарка ContextTrap, специализированного на оценке способностей LLM работать с русским контекстом. Всего протестировано 46 моделей в разных конфигурациях. Ниже будут некоторые комментарии к новым моделям в списке.

Результаты ContextTrap-4K v0.1 на 2024-07-22. % - это доля всех очков, полученная моделью.

Первая публичная модель от Т-банка вышла на днях, как мне кажется комом. Модель заняла 21 место и примерно соответствует уровню Llama 3 - 8B. Тест проходил через ollama в fp16, возможно некоторые аспекты вывода связаны с этим видом инференса.

В целом, очень многословно и подробно отвечает, плюс это или минус - трудно сказать. Содержит некоторые артефакты вывода типа:

Согласно предоставленному тексту, нет информации ...
Известно: неизвестно.

В ответах хочет быть рассудительной, но часто это выглядит как перегиб. Также в конце ответа сама себе новый вопрос задает и отвечает. Видимо датасетик кривой местами. Поэтому блинчик комом, но все равно радует, что что-то делают и публикуют.

Давно хотелось протестить хваленый своими ноу-хау стартап FractalGPT. Маркетинговые обещания на сайте очень пафосно во многом звучат, если смотреть глазами разработчика, не буду их транслировать. Тарифная сетка очень устаревшая на фоне почти бесплатных GPT4 и Claude.

Стартап занимается тюнигом opensource-моделей и не раскрывает какие именно. По моим субъективным ощущениям модель где-то в районе 8-13B по параметрам. В принципе 13 место для такого числа параметров вполне хорошее.

Нужно учитывать, что FractalGPT это комплексная система RAG, поэтому ее не совсем корректно сравнивать с голыми моделями. Поскольку добавив хороший RAG к другим моделям оценки у них будут также выше.

Основное отличие сервиса на мой взгляд: 1) что FractalGPT чуть ли не единственные в РФ, кто предлагает уже рабочий сервис RAG по большому числу файлов. 2) предлагают установку системы в локальный контур организации.

Модель FractalGPT отвечает четко, без лишней воды, обязательно указывает в каком файле найдена информация. Поддержка английского языка у них в режиме бета, про другие языки глухо.

Через онлайн чат часто в вылазят в тексте такие конструкции - $1.5 \text{ м/с}^2$, но еще хуже когда вместо цифр идут картинки - с этим невозможно работать.

В целом сервис FractalGPT выглядит достаточно сырым продуктом.

mistralai/Mistral-Nemo-Instruct-2407 12.2B (API openrouter) - модель лучше других мистралей и микстралей, но хуже 8б ллама3, бонус 128k context window.

В целом gemma2 27B (fa2 отключен) не производит вау-эффекта и держится на уровне llama3:8b. Также попался артефактик. У gemma2:9b-instruct - 35 место.

DeepSeek-Coder-V2 через опенроутер не сильно впечатлил. Отвечает четко и коротко, но некоторые простые вопросы не берет на зуб. Ну как бы... кодер есть кодер)

Протестил наконец gpt-3.5-turbo-0125 - хорошая модель для эконом работы и опытов. За 700т токенов, что съел тест затраты около 0,4 баксов.
Токенизатор, как и у Клода тоже примерно 3,5-4 токена на русский тратит.
Прогресс локальных LLM заметен, обошли gpt-деда )

openai/gpt-4o-mini (API openrouter) оказалась немного лучше GPT 3.5, но хуже хайку. Возможно более разносторонние тесты выявят лучшие стороны этой модели. В целом дешево и сердито тоже нужно рынку.

gpt4o-mini примерно в 2 раза дешевле хайку
128,000 context
$0.15/M input tkns
$0.6/M output tkns
Claude Haiku
200,000 context
$0.25/M input tkns
$1.25/M output tkns

Давно хотел протестить anthropic/claude-3-haiku - в общем клевая модель, очень быстрая и дешевая. Как пешка в большой игре самое то, на этап разработки или демок хорошо подходит, чтобы не палить бюджеты с более умными моделями.
Мне она нравится как альтернатива 70B on scale. Дешевле по input в пару раз, чем Ллама 3 70б и быстрее в столько же раз в зависимости от поставщика АПИ. При этом длина контекста большая - 200К может выручить. Кстати она еще и быстрее в 3 раза чем Sonnet 3.5
Цены на openrouter:
Haiku per Million
Input $0.25 / Output $1.25
Llama 3 70B
Input $0.55 / Output $0.76

Китайская glm4:9b-chat-fp16 показала интересный результат, несмотря на большое количество артефактов и то, что это не инстракт. Очень перспективная модель, которая находится в рейтинге рядом с моделями 35B. Имеет 128K контекст.

Не знаю, что с ней не так. Использовалась через openrouter.

Jamba 52b Moe SSM-Transformer с русским не очень удачной и какие-то артефакты странные показывает. Типа такого:

В денежной перевёдет пред osndoechumеICS7мчен фредовой оoto laptsond8eыhnon посвてщ4eисты9yоо длугלאо гтисиоtrлоmчувоссё банков, грядового trgoueпсов для, любымый буйnyi обахта ljybaзя seгночё с мтажгањottrыя 30mdllо لбуков 495рвле, (30000245моль, 30000210 300002254диля (3000021025054модля), 300002254страениDecember. (30000210253904модля), 1 альб. 10000500 рублей: годового forms osndoechumеICS7mчeэноchiprvnjotro.

miteigi nemoto

Разработка

03.07.2024

Откровение месяца: ансамбль из 8 отдельных моделей 7-9B в бенче ContextTrap достигают уровня Cloud 3 Opus

Результаты ContextTrap-4K v0.1 на 2024-07-03. % - это доля всех очков, полученная моделью. Желтым подсвечены новые модели.

За два месяца тестирования разных языковых моделей я заметил, что они ошибаются по-разному. Часто решают сложные задачи, но допускают ошибки в простых вопросах. Мне пришла идея: а что, если взять лучшее от каждой модели и подсчитать общий рейтинг ансамбля?

miteigi nemoto

02.06.2024

ContextTrap-4K v0.1 - крафтовый бенчмарк LLM моделей для оценки способностей отвечать на вопросы к контексту на русском языке

Результаты ContextTrap-4K v0.1 на 2024-05-31. % - это доля всех очков, полученная моделью.

В течение мая 2024 работал над созданием своего бенчмарка LLM и провел десятки тестирований моделей. Лидерборд на картинке выше. Подробное описание теста и инсайтов публикую в этой статьей.

На этом пока все, скидывайте какие модели хотели бы протестить на текущем и будущих версиях тестах. Если есть примеры интересных задач по контексту - было бы полезно, если поделитесь, по возможности включу в следующие версии.

Также вы можете подписаться на мой ТГ-канал, где я делюсь своими находками и опытом.

Обновление #3 в бенче ContextTrap : FractalGPT, T-lite, Gemma2, Mistral-Nemo, Claude Haiku, GLM4, GPT-4o-mini, DeepSeek-Coder-V2, GPT-3.5, Jamba-instruct, Nemotron-4-340b-instruct

Топ-20 на данный момент

Продолжения лидерборда с 21 по 40 место

Продолжения лидерборда с 41 по 46 место

Мои комментарии к моделям

t-lite от Т-Банк (ранее Тинькофф Банка) - 21 место

FractalGPT - 13 место

Mistral-Nemo - 26 место

gemma2 27B - 20 место

DeepSeek-Coder-V2 - 16 место

gpt-3.5-turbo-0125 - 17 место

openai/gpt-4o-mini - 12 место

anthropic/claude-3-haiku - 7 место

glm4:9b - 9 место

Nemotron-4-340b-instruct - 41 место

Jamba 52b - 30 место

Предыдущие лидерборды и комментарии