Как Авито сделала русскую нейросеть, которая обошла Google и OpenAI

Как Авито сделала русскую нейросеть, которая обошла Google и OpenAI

Команда Авито сделала собственную языковую модель — A-Vibe. Это как ChatGPT, только со специализацией на русском языке и задачах самой платформы Avito.

И вот в чём интрига: по результатам независимого тестирования MERA A-Vibe обошла даже гигантов вроде Google, OpenAI и Anthropic — причём в задачах, где у неё было в разы меньше параметров.

Сравнение выглядит примерно так:

  • Генерация кода: A-Vibe на 25% точнее, чем Gemini 1.5 Pro.
  • Диалоги: на 32% выше, чем Llama 3.1 (хотя та в 40 раз больше по размеру).
  • Анализ текста: на 23% точнее, чем Claude 3.5 Haiku от Anthropic

На первый взгляд может показаться, что это просто ещё одна нейросеть, но за этим стоит умная инженерия — особенно в одной из самых недооценённых областей: токенизации. Сейчас объясним, почему это важно.

Почему токенизация решает и что это такое?

Токенизация — это способ, с помощью которого модель «режет» текст на части, чтобы понять его. Почти все современные языковые модели используют токенизаторы, изначально созданные для английского языка.

Проблема в том, что русский — куда сложнее: длинные слова, падежи, суффиксы, сложные окончания. Из-за этого обычные токенизаторы делят русские слова на кучу мелких фрагментов.

Пример: Фраза «информационно-аналитическое обеспечение деятельности» может быть превращена в 13–16 разрозненных кусочков, вроде:

Как Авито сделала русскую нейросеть, которая обошла Google и OpenAI

В результате:

  • Модель хуже понимает контекст,
  • Требуется больше шагов и вычислений, чтобы обработать запрос,
  • Стоимость обработки (особенно в длинных диалогах) — выше.

Что сделала команда Авито

Они не стали «подкручивать» старый токенизатор, а создали свой собственный, обученный именно на русском языке.

Это позволило:

  • лучше уловить границы слов и морфем,
  • сократить количество токенов на фразу в 1.5–2 раза,
  • ускорить обработку и снизить расходы.

Чтобы всё это заработало, инженеры Авито переобучили часть модели, чтобы она “поняла” новый токенизатор. Это сложный шаг, потому что нарушает совместимость с ранее обученными весами. Но в итоге они получили не англоязычную модель с русскими данными, а настоящую русскоязычную модель, настроенную под родной язык.

А кто ещё так делал?

A-Vibe — не единственный случай, когда умная доработка побеждает «мощные, но общие» модели.

  • Orca-Mistral (Microsoft): дообучили open-source модель на задачах логики и пошагового мышления.
  • DeepSeek-VL (Китай): сделали свою токенизацию и обучили модель понимать текст и изображения — на уровне GPT-4 Vision.
  • TURBO.AI (Тинькофф): адаптировали модель под финансы и юридический язык, чтобы сделать полезного ассистента для сотрудников.
  • YandexGPT 3: кастомный токенизатор, мультиязычность, адаптация под локальные реалии.

Вывод: будущее — за кастомными нейросетями

История A-Vibe показывает: чтобы создать конкурентную языковую модель, не обязательно быть Google или OpenAI.

Всё чаще побеждают не те, у кого сотни миллиардов параметров и дата-центры на тысячи видеокарт (Graphics Processing Unit), а те, кто:

  • тонко понимает язык и задачи,
  • адаптирует архитектуру под конкретный рынок,
  • и смело делает ставку на кастомизацию.

В наше время можно:

  • взять open-source основу,
  • обучить токенизатор под родной язык,
  • и получить результат, который работает лучше и дешевле, чем у глобальных гигантов.

В следующей статье мы посчитаем, сколько стоила разработка A-Vibe — и почему это не миллионы долларов, как можно подумать.

На самом деле, переобучить свою нейросеть — вполне по силам любой амбициозной команде. Даже без безумных бюджетов. Разберёмся по статьям расходов — и покажем, где можно сэкономить, а где лучше не жадничать.

БОЛЬШЕ ПОЛЕЗНОЙ ИНФОРМАЦИИ ПРО ИИ В ТГ-КАНАЛЕ:

5
1
8 комментариев