Как Авито сделала русскую нейросеть, которая обошла Google и OpenAI
Команда Авито сделала собственную языковую модель — A-Vibe. Это как ChatGPT, только со специализацией на русском языке и задачах самой платформы Avito.
И вот в чём интрига: по результатам независимого тестирования MERA A-Vibe обошла даже гигантов вроде Google, OpenAI и Anthropic — причём в задачах, где у неё было в разы меньше параметров.
Сравнение выглядит примерно так:
- Генерация кода: A-Vibe на 25% точнее, чем Gemini 1.5 Pro.
- Диалоги: на 32% выше, чем Llama 3.1 (хотя та в 40 раз больше по размеру).
- Анализ текста: на 23% точнее, чем Claude 3.5 Haiku от Anthropic
На первый взгляд может показаться, что это просто ещё одна нейросеть, но за этим стоит умная инженерия — особенно в одной из самых недооценённых областей: токенизации. Сейчас объясним, почему это важно.
Почему токенизация решает и что это такое?
Токенизация — это способ, с помощью которого модель «режет» текст на части, чтобы понять его. Почти все современные языковые модели используют токенизаторы, изначально созданные для английского языка.
Проблема в том, что русский — куда сложнее: длинные слова, падежи, суффиксы, сложные окончания. Из-за этого обычные токенизаторы делят русские слова на кучу мелких фрагментов.
Пример: Фраза «информационно-аналитическое обеспечение деятельности» может быть превращена в 13–16 разрозненных кусочков, вроде:
В результате:
- Модель хуже понимает контекст,
- Требуется больше шагов и вычислений, чтобы обработать запрос,
- Стоимость обработки (особенно в длинных диалогах) — выше.
Что сделала команда Авито
Они не стали «подкручивать» старый токенизатор, а создали свой собственный, обученный именно на русском языке.
Это позволило:
- лучше уловить границы слов и морфем,
- сократить количество токенов на фразу в 1.5–2 раза,
- ускорить обработку и снизить расходы.
Чтобы всё это заработало, инженеры Авито переобучили часть модели, чтобы она “поняла” новый токенизатор. Это сложный шаг, потому что нарушает совместимость с ранее обученными весами. Но в итоге они получили не англоязычную модель с русскими данными, а настоящую русскоязычную модель, настроенную под родной язык.
А кто ещё так делал?
A-Vibe — не единственный случай, когда умная доработка побеждает «мощные, но общие» модели.
- Orca-Mistral (Microsoft): дообучили open-source модель на задачах логики и пошагового мышления.
- DeepSeek-VL (Китай): сделали свою токенизацию и обучили модель понимать текст и изображения — на уровне GPT-4 Vision.
- TURBO.AI (Тинькофф): адаптировали модель под финансы и юридический язык, чтобы сделать полезного ассистента для сотрудников.
- YandexGPT 3: кастомный токенизатор, мультиязычность, адаптация под локальные реалии.
Вывод: будущее — за кастомными нейросетями
История A-Vibe показывает: чтобы создать конкурентную языковую модель, не обязательно быть Google или OpenAI.
Всё чаще побеждают не те, у кого сотни миллиардов параметров и дата-центры на тысячи видеокарт (Graphics Processing Unit), а те, кто:
- тонко понимает язык и задачи,
- адаптирует архитектуру под конкретный рынок,
- и смело делает ставку на кастомизацию.
В наше время можно:
- взять open-source основу,
- обучить токенизатор под родной язык,
- и получить результат, который работает лучше и дешевле, чем у глобальных гигантов.
В следующей статье мы посчитаем, сколько стоила разработка A-Vibe — и почему это не миллионы долларов, как можно подумать.
На самом деле, переобучить свою нейросеть — вполне по силам любой амбициозной команде. Даже без безумных бюджетов. Разберёмся по статьям расходов — и покажем, где можно сэкономить, а где лучше не жадничать.
БОЛЬШЕ ПОЛЕЗНОЙ ИНФОРМАЦИИ ПРО ИИ В ТГ-КАНАЛЕ: