Рубрика «Вестник искусственного интеллекта - обзоры»
LMSYS Arena обновилась, и теперь в ней доступен новый Sonnet (для удобства назовем это версией 3.6, чтобы отличать от 3.5 соотвественно).
Что интересного?
💪 Заметно улучшились навыки в математике и программировании - рост качества нескольких групп запросов очевиден.
✨ Помимо этого, добавлена новая функция — поправка на стиль (см. скриншоты 3 и 4). Это значит, что ответы модели теперь будут звучать более естественно, а не как длинный текст, который выдает типичный LLM.
🧮 Хотя в общем зачете Sonnet 3.6 все еще уступает моделям OpenAI, программисты уже успели оценить его потенциал.
❗Но есть и обратная сторона: некоторые задачи, которые раньше решались без проблем, теперь вызывают сложности.
P.S. Кроме этого видел разные бенчмарки, где-то модель чуть лучше, где-то чуть хуже ChatGPT-4, но большого количества отрывов в целой россыпи задач, как было с o1, не случилось. Наверное, можно ждать этого в агентских бенчмарках, но ни GAIA, ни SWE-Bench с момента релиза не обновились.
Больше новостей в нашем телеграм-канале «Цифровой москвич» - https://t.me/digiMSK
#ИИобзор