ContextTrap-4K v0.1 - крафтовый бенчмарк LLM моделей для оценки способностей отвечать на вопросы к контексту на русском языке
В течение мая 2024 работал над созданием своего бенчмарка LLM и провел десятки тестирований моделей. Лидерборд на картинке выше. Подробное описание теста и инсайтов публикую в этой статьей.
Жду суммаризацию) Отличная статья