Как Авито сделала русскую нейросеть, которая обошла Google и OpenAI

Команда Авито сделала собственную языковую модель — A-Vibe. Это как ChatGPT, только со специализацией на русском языке и задачах самой платформы Avito.

И вот в чём интрига: по результатам независимого тестирования MERA A-Vibe обошла даже гигантов вроде Google, OpenAI и Anthropic — причём в задачах, где у неё было в разы меньше параметров.

Сравнение выглядит примерно так:

Генерация кода: A-Vibe на 25% точнее, чем Gemini 1.5 Pro.
Диалоги: на 32% выше, чем Llama 3.1 (хотя та в 40 раз больше по размеру).
Анализ текста: на 23% точнее, чем Claude 3.5 Haiku от Anthropic

На первый взгляд может показаться, что это просто ещё одна нейросеть, но за этим стоит умная инженерия — особенно в одной из самых недооценённых областей: токенизации. Сейчас объясним, почему это важно.

Токенизация — это способ, с помощью которого модель «режет» текст на части, чтобы понять его. Почти все современные языковые модели используют токенизаторы, изначально созданные для английского языка.

Проблема в том, что русский — куда сложнее: длинные слова, падежи, суффиксы, сложные окончания. Из-за этого обычные токенизаторы делят русские слова на кучу мелких фрагментов.

Пример: Фраза «информационно-аналитическое обеспечение деятельности» может быть превращена в 13–16 разрозненных кусочков, вроде:

В результате:

Модель хуже понимает контекст,
Требуется больше шагов и вычислений, чтобы обработать запрос,
Стоимость обработки (особенно в длинных диалогах) — выше.

Они не стали «подкручивать» старый токенизатор, а создали свой собственный, обученный именно на русском языке.

Это позволило:

лучше уловить границы слов и морфем,
сократить количество токенов на фразу в 1.5–2 раза,
ускорить обработку и снизить расходы.

Чтобы всё это заработало, инженеры Авито переобучили часть модели, чтобы она “поняла” новый токенизатор. Это сложный шаг, потому что нарушает совместимость с ранее обученными весами. Но в итоге они получили не англоязычную модель с русскими данными, а настоящую русскоязычную модель, настроенную под родной язык.

A-Vibe — не единственный случай, когда умная доработка побеждает «мощные, но общие» модели.

Orca-Mistral (Microsoft): дообучили open-source модель на задачах логики и пошагового мышления.
DeepSeek-VL (Китай): сделали свою токенизацию и обучили модель понимать текст и изображения — на уровне GPT-4 Vision.
TURBO.AI (Тинькофф): адаптировали модель под финансы и юридический язык, чтобы сделать полезного ассистента для сотрудников.
YandexGPT 3: кастомный токенизатор, мультиязычность, адаптация под локальные реалии.

История A-Vibe показывает: чтобы создать конкурентную языковую модель, не обязательно быть Google или OpenAI.

Всё чаще побеждают не те, у кого сотни миллиардов параметров и дата-центры на тысячи видеокарт (Graphics Processing Unit), а те, кто:

тонко понимает язык и задачи,
адаптирует архитектуру под конкретный рынок,
и смело делает ставку на кастомизацию.

В наше время можно:

взять open-source основу,
обучить токенизатор под родной язык,
и получить результат, который работает лучше и дешевле, чем у глобальных гигантов.

В следующей статье мы посчитаем, сколько стоила разработка A-Vibe — и почему это не миллионы долларов, как можно подумать.

На самом деле, переобучить свою нейросеть — вполне по силам любой амбициозной команде. Даже без безумных бюджетов. Разберёмся по статьям расходов — и покажем, где можно сэкономить, а где лучше не жадничать.

БОЛЬШЕ ПОЛЕЗНОЙ ИНФОРМАЦИИ ПРО ИИ В ТГ-КАНАЛЕ:

t.me

COCAL AI (туториалы и промпты для нейронок)

Как Авито сделала русскую нейросеть, которая обошла Google и OpenAI

Почему токенизация решает и что это такое?

Что сделала команда Авито

А кто ещё так делал?

Вывод: будущее — за кастомными нейросетями