Не ведитесь на хайп: как найти лучшую языковую модель

Не ведитесь на хайп: как найти лучшую языковую модель

Недавно наткнулся на интересное интервью с руководителем продукта OpenAI, и одна мысль крепко засела в голове: большинство людей судит об искусственном интеллекте, даже не попробовав с ним поработать. Это все равно что обсуждать вкус экзотического фрукта, только глядя на его фотографии.

«ИИ отберет нашу работу!» — кричат заголовки.

«Скайнет уже близко!» — пугают блогеры.

Но если честно: насколько эти страхи оправданы?

«Одна ошибка — и ты ошибся» © Джейсон Стейтем
«Одна ошибка — и ты ошибся» © Джейсон Стейтем

Как узнать, какая модель умнее?

Чтобы разобраться в реальных возможностях современных ИИ-моделей, есть один очень действенный способ — «слепое тестирование» на платформе Chatbot Arena (LMSYS).

Это как дегустация вин с закрытыми этикетками, только вместо вин — языковые модели. Вы получаете два ответа на свой вопрос и выбираете лучший, не зная, какая модель его дала.

И знаете что? Результаты весьма показательны. Неизменные лидеры этой «гонки вооружений»:

  • ChatGPT от OpenAI
  • Claude от Anthropic
  • Gemini от Google

Недавно их ряды пополнил новичок — китайская LLM DeepSeek R1, о которой я планирую рассказать в одной из следующих статей.

Рейтинг LLM в <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Flmarena.ai%2F&postId=1771628" rel="nofollow noreferrer noopener" target="_blank">Chatbot Arena</a> от 20.01.25
Рейтинг LLM в Chatbot Arena от 20.01.25

Стоит отметить, что на Российском рынке также есть свои игроки:

  • GigaChat от Сбера
  • YandexGPT от Яндекса

Но возникает любопытный момент: этих моделей нет практически ни в одном популярном бенчмарке, следовательно полноценно сравнить с другими моделями нельзя.

Есть лидерборд a-ai.ru, но даже там нет YandexGPT. Кроме того, данные модели проверяются на других задачах, следовательно, сравнение все равно не будет точным.

Какой из этого вывод?

Основной мой посыл заключается в следующем: хотите понять ИИ — начните им пользоваться. Это как с автомобилями — можно бесконечно читать обзоры, но только сев за руль, вы поймете, что вам подходит.

Chatbot Arena может стать хорошим ориентиром: не нужно перебирать все модели подряд или пользоваться только самыми хайповыми. Вы можете опираться на общедоступный рейтинг и бенчмарки, но реальное поведение модели в разных ситуациях вы увидите только на практике — вы не узнаете, как модель ведёт себя на самом деле, пока не поработаете с ней самостоятельно.

Я ни в коем случае не пытаюсь сказать, что модели Сбера и Яндекса не нужны. Очень хорошо, что есть альтернативы и они активно их разрабатывают.

Однако я также хочу посмотреть правде в глаза: данные модели на текущий момент явно отстают от лидеров рынка — это заметно при их использовании.

Поэтому для того, чтобы вы имели полное представление о состоянии сферы ИИ в мире — вам обязательно стоит обратить внимание на текущие state-of-the-art модели.

Именно поэтому в своем проекте AI-мастермайнда, где вы сможете общаться с ИИ как с командой экспертов, я планирую использовать лидирующие модели в индустрии — чтобы пользователи получили максимально качественный и полезный опыт от разговора с ИИ для решения своих задач.

А какие ИИ-модели вы уже успели попробовать? Что вас впечатлило, а что разочаровало? Поделитесь своим опытом в комментариях!

В своем Telegram-блоге «Код без тайн» я пишу не только об искусственном интеллекте, а также о веб-разработке, информатике и других технологиях, которые меня вдохновляют.

Кстати, теперь на vc.ru у меня появилась возможность принимать донаты. Если вам нравятся мои статьи, то вы можете поддержать мой блог не только лайком 🔥, но и донатом 💎
8
1
2 комментария

Я недавно начал использовать Perplexity для поиска. Тут на vc.ru про неё узнал.

Я использую Шедеврум, иногда очень красиво получается)