Как выбрать LLM модель: Пошаговое руководство для бизнеса

С появлением RAG-технологий и open-source решений, таких как китайская DeepSeek, внедрение языковых моделей в бизнес стало доступнее. Теперь компании могут развернуть собственное ИИ-решение без необходимости сложного обучения модели — достаточно RAG и качественной базы знаний.

Самих LLM-моделей становится всё больше: тут и базовые опенсорсные решения, и те модели, которые созданы на их основе и заточены под какие-то конкретные задачи. Например, сайт https://huggingface.co/ насчитывает 468 LLM только от официальных вендоров — тех, которые поставляются и поддерживаются их создателями.

Но как выбрать оптимальную LLM среди сотен вариантов? Разбираем ключевые критерии.

Содержание:

Определяемся с целями использования
Оцениваем параметры LLM-модели:
→ Облачная или опенсорсная LLM
→ Адаптация к целям внедрения и особенностями бизнеса
→ Пропускная способность
→ Время ответа
→ Качество генерации текста
→ Точность ответа и понимание контекста
→ Reasoning модели
→ Мультимодальность
→ Размер контекстного окна
→ Возможность дообучать модель на своих данных
→ Этика и безопасность
→ Стоимость
Чек-лист

Выбирать по принципу самая мощная и самая умная или просто сравнивать доступные на рынке бенчмарки не имеет смысла. Ваша задача — найти решение, которое подходит именно вашему бизнесу.

Чтобы определить наиболее перспективные варианты использования LLM, оцените сферы бизнеса, в котором применение ИИ упростит или ускорит процессы, снимет часть нагрузки с персонала, поможет автоматизировать выполнение рутинных задач, повысит производительность.

Обращайте внимание на объемные задачи, связанные с текстом: чтение, создание, интерпретация.
Определите области для автоматизации и улучшения — LLM способны автоматизировать рутину, упрощать более сложные задачи.
Оцените данные, которые генерирует ваш бизнес: в каком формате и где они хранятся, как именно с ними будет работать ИИ.

Возможно, вы планируете внедрить LLM+RAG в Базу знаний для сотрудников, хотите предоставить ИИ возможность консультировать клиентов или разработать ИИ-суфлера для специалистов контакт-центра. Или вы заинтересованы в бизнес-аналитике и планируете с помощью искусственного интеллекта ускорять и упрощать работу с отчетами.

В первую очередь вам нужно определиться, будете ли вы использовать опенсорсную модель в контуре или облачную LLM.

Облачные решения подойдут компаниям, которые работают с открытыми данными (документация, публичная информация), заинтересованы в быстром старте без капитальных затрат, готовы платить за объем запросов. Главный плюс облака — минимальные вложения на старте и высокая производительность. Однако при больших объемах трафика стоимость может стать существенной, так как платить нужно будет за каждый запрос.

Локальное развертывание модели необходимо, если вы работаете с конфиденциальными данными и у вас есть строгие требования к безопасности. С LLM в контуре у вас есть больший контроль над моделью и вы не платите вендору за объем запросов. При этом придется инвестировать в оборудование (сервера с мощными GPU), обслуживать модель. Если объем запросов увеличится, оборудование нужно будет докупать.

Облачные модели, как правило, мощнее и качественнее. Причина проста — у таких версий 300+ миллиардов параметров, а адекватный выбор для он-прем моделей держится в рамках от 3 до 13 миллиардов параметров. Можно выбрать и более мощную LLM, однако, чем мощнее опенсорс-модель, тем дороже будет стоит оборудование для нее — для LLM с большим количеством параметров потребуются кластера из минимум 4-х топовых GPU уровня H100 по 4 млн рублей за штуку.

Поэтому если нет существенных ограничений с точки зрения безопасности, лучше обратить внимание на облачные модели.

Использование RAG-технологии помогает задавать контекст для LLM, но ее функциональные возможности, сильные и слабые зависят от задач, для которых которые ее «тренировали».

То есть, если вы возьмете две разные LLM, с помощью RAG «скормите» им один и тот же набор данных и попросите сформировать четкую и понятную инструкцию или продающий маркетинговый текст — качество полученных документов будет отличаться.

Например, на сайте Trustbeat в 2024 году выпущен отчет, который рассчитывает бенчмарки разных LLM-моделей по направлениям генерации текстов, кода, маркетинговых задач, аналитики и так далее.

Если говорить о специфике предметной области — например, у вас бизнес в сфере медицины, юриспруденции, инженерии — современные LLM умеют работать и с ней. Большие языковые модели учат на огромных объемах информации из веба, в том числе специализированной. Однако есть тематические домены, которые могут потребовать дообучения. Например, промышленное производство, нефтедобыча и другие узкие и редко цитируемые отрасли.

Также стоит учитывать языковую среду и выбирать модели, которые могут адаптироваться к нужному вам языку. Обычно модели демонстрируют худшую способность понимать инструкции на языках, на которых они не обучались: количество ошибок растет, а качество ответов снижается. Кроме того, из-за неоптимального токенайзера — инструмента, который разбивает текст на токены — обработка запросов на незнакомом языке требует больше токенов. Таким образом, помимо снижения качества, это также может повлиять на стоимость использования модели.

На сайте https://llmarena.ru/ можно посмотреть бенчмарки моделей на русском языке, если вы планируете общаться с вашей LLM исключительно на русском.

Пропускная способность — показатель, который связан с количеством запросов или обработанных данных, которые модель может обработать за единицу времени. Этот параметр указывает на эффективность и производительность модели.

Например, если модель используется для анализа большого объема текстовых данных (обработка отзывов или анализ тональности), высокая пропускная способность позволит ей быстрее обрабатывать и анализировать большие массивы информации. У LLM в чат-ботах пропускная способность также может быть разной и отражается в том, насколько быстро они отвечают на пользовательские запросы. Например, один бот может обрабатывать 10 запросов в секунду, а другой — 100.

Параметр, который измеряет, сколько времени требуется модели для генерации ответа на входящий запрос. Обычно время ответа вкладывается в миллисекундах или секундах.

Скорость обработки запросов может зависеть от архитектуры и размера модели. Более крупные модели (с большим количеством параметров) могут иметь более длительное время ответа по сравнению с более компактными версиями, даже если они обучены на одних и тех же данных.

На показатель также влияет характер запроса: если запрос требует глубокого анализа, сложных вычислений или большого количества логического вывода, это также может увеличить время ответа. Например, генерация кода или решение математических задач может занять больше времени, чем предоставление простой справочной информации.

Этот параметр даст понять, как модель справляется с задачами по созданию текста: насколько связным, логически последовательный, стилистически корректный текст выдает модель по запросу.

Если вы планируете поручить ИИ задачи по генерации контента — например, использовать LLM для создания маркетинговых или SEO-текстов, вопрос качества таких материалов будет важен.

В этом параметре нужно оценить, насколько корректно модель отвечает на вопросы, насколько хорошо понимает новые данные, с которыми не сталкивалась во время обучения, может ли дать релевантный ответ без искажений.

LLM должна в том числе четко обозначать границы своих знаний: говорить «я не знаю», когда это уместно.

Также важно оценить, насколько хорошо модель адаптируется к изменению контекста запроса, при работе с одними и теми же данными: поддерживает связность диалога, корректирует ответы при изменении условий вопроса, не противоречит себе в рамках одного обсуждения.

Reasoning (аналитические) LLM-модели — это продвинутые языковые модели (например, GPT-4, Claude, Gemini), способные не только генерировать текст, но и выполнять логический анализ, делать выводы, решать многошаговые задачи и работать с контекстом. Их ключевая особенность — умение имитировать человеческое мышление для обработки сложных запросов, требующих последовательных рассуждений.

Такие LLM разбивают задачу на шаги, способы объяснить логику решения, учитывают предыдущие взаимодействия пользователя, выявляют зависимости, успешно работают с неструктурированными данными.

Использовать reasoning стоит в задачах, которые требуют более глубокого понимания и анализа, гибкости и имитации человеческого мышления. Например, оценка и прогнозирование рисков, выявление трендов, решение сложных клиентских кейсов и так далее.

Стоимость reasoning LLM по сравнению с более простыми моделями может быть выше в 2–30 раз, в зависимости от сценария использования. Разница в цене обусловлена сложностью архитектуры, объемом вычислений и требованиями к инфраструктуре.

Выбор зависит от задачи: для простого чат-бота хватит GPT-3.5, но для анализа 1000+ отзывов с выявлением скрытых инсайтов нужна reasoning-модель.

Этот параметр касается оценки того, насколько хорошо модель работает не только с текстовыми файлами, но с изображениями и видео. Например, если вы отдадите LLM запись вебинара и попросите на ее основе подготовить полноценную статью, небольшую заметку, продуктовый гайд.

Чтобы проверить эти показатели, можно также обращаться к бенчмаркам. Например, https://artificialanalysis.ai/, https://lmarena.ai/.

Размер контекстного окна — это ключевой параметр для LLM (больших языковых моделей), который определяет, сколько текста модель может обрабатывать одновременно. Этот фактор влияет на качество ответов, способность удерживать последовательности и усваивать контекстные взаимосвязи. Контекстное окно ограничивает «память» модели относительно информации, доступной ей в данный момент.

Например, компактные окна (4-8K токенов) — подходят для большинства задач, связанных с получением ответов по готовой базе знаний. Расширенные окна (до 128K токенов) — необходимы для анализа длинных документов.

При этом с увеличением размера окна растут вычислительные затраты, время обработки запроса, повышаются требования к оборудованию. Поэтому расширенное контекстное окно не обязательно будет лучшим выбором.

Дополнительно стоит учитывать, что RAG систем важна не столько величина окна, сколько релевантность подаваемых данных. Эффективнее передавать несколько точных фрагментов, чем весь документ целиком. Поэтому поисковая система должна точно находить релевантные фрагменты, а объем передаваемого контекста должен быть минимально достаточным, так как излишний объем снизит качество и релевантность ответов.

Поэтому при формировании требований к размеру контекстного окна нужно возвращаться к вашим целям и задачам, анализировать, какой контент будет обрабатывать модель.

Большие языковые модели (LLM) изначально обучаются на обширных наборах данных и за счет этого развивают общее понимание языка, грамматики, элементарной логики, а осваивать специфическую предметную область им помогает RAG.

Однако есть ситуации, когда контекст, представленный RAG, оказывается недостаточно глубоким — его не хватает для генерации релевантных, точных и полноценных ответов.

Например, если требуется обработка специфических запросов в области инженерии или производства, RAG не сможет предоставить достаточно глубокой информации, поскольку будет ссылаться лишь на фрагменты документации.

Другой случай — нехватка навыков, которые не связаны с понимаем темы и контекста. Так, есть модели, которые способны поддержать беседу, но хуже справляются с задачами по составлению подробных инструкций.

В таких случаях прибегают к дообучению моделей — fine-tuning (тонкая настройка). Существует несколько технологий, например, недорогая и эффективная LoRA (Low-Rank Adaptation).

Если вы используете опенсорсную модель, развернутую в вашем контуре, и у вас есть техническая возможность для ее дообучения — это позволит добиться значительного прогресса, но при этом потребует существенных затрат: на сервера и на команду ML специалистов. При этом качество моделей повышается крайне высокими темпами и в большинстве ситуаций будет проще подождать следующей версии опенсорс модели, которая будет работать из коробки лучше, чем дообученная модель предыдущей версии.

Исключение составляют действительно узкие и специфические задачи, которым вендор, скорее всего, не станет обучать модель.

При выборе языковой модели для бизнеса технические характеристики — не единственное, что требует внимания. Этическая составляющая — важный фактор, особенно при работе с клиентскими данными или в регулируемых отраслях. Вот ключевые аспекты, которые стоит продумать:

Узнайте, на каких данных обучалась модель. Модели, обученные на непроверенном контенте, несут репутационные риски. Идеально, если разработчик публикует результаты аудита предвзятости.
Проверьте, с помощью каких инструментов можно фильтровать н��желательный контент, ограничивать тематики ответов, блокировать опасные или дискриминационные высказывания.
При использовании облачной LLM узнайте, хранит ли провайдер историю ваших запросов, использует ли диалоги для дообучения модели.

Стоимость LLM зависит от модели использования: при развертывании в контуре вы инвестируете в инфраструктуру и, если модель это предполагает, заплатите за лицензию.

Например, лицензия на GigaChat от Сбера, будет стоить от 500 000 рублей в год, а за YaLM 100B от Яндекса платить не придется, но затраты на железо будут выше. При этом на рынке много моделей под опенсорс лицензиями типа Apache 2.0, которые разрешают использование моделей, включая коммерческое использование.

При работе с облачной LLM вы будете платить за трафик. Большинство провайдеров раздельно тарифицирует ввод и вывод данных. Например, обработка 1 миллиона токенов в GPT-4 Turbo будет стоить $10, а генерация ответа — уже в $30. Работа с облачным Yandex GPT 2.0 (аналог GPT-3.5/4) обойдется в ~3–10 ₽ за 1 000 токенов, но есть и корпоративные пакеты от 200 000 ₽/мес.

Облачные решения подойдут для быстрого старта или проектов с небольшой нагрузкой. При стабильном потоке от 1 млн запросов в месяц логичнее разворачивать решение в контуре.

В финале делимся чек-листом — что учесть, чтобы выбрать подходящую LLM для ваших бизнес-задач:

Цели и ключевые задачи внедрения, объем информации, с которой будет работать модель, количество и портрет пользователей, функциональные требования — что именно будет делать LLM.
Бизнес-кейсы, которые вы впоследствии будете использовать при тестировании выбранного круга моделей.
Функциональные возможности модели — подо что она «заточена» с точки зрения задач, в каких специфических областях разбирается, поддерживает ли нужный вам язык.
Технические характеристики: пропускная способность, скорость работы, качество генерации текста, точность и релевантность ответов, эффективность обработки новых данных, мультимодальность.
Размер контекстного окна — какой объем текста модель может обрабатывать одновременно.
Масштабируемость. Если вам потребуется резко увеличить объем информации и число пользователей, как на это отреагирует модель? Как изменится производительность? Будет ли она устойчиво функционировать?
Возможность дообучать модель.
Как LLM обрабатывает и хранит конфиденциальную информацию. Какие риски несет работа с чувствительными данными. Могут ли быть искажения в информации, которые критично повлияют на бизнес, клиентов и так далее.
Какой формат использования предпочтительнее: облачная LLM или развертывание в собственном контуре.
Стоимость: сколько будет стоить использование, развертывание и поддержка модели. Включая вычислительные мощности, расходы на персонал.

Помните: идеальной модели не существует — выбор зависит от ваших задач, бюджета и требований к безопасности. Анализируйте параметры моделей, тестируйте LLM на реальных кейсах и не бойтесь комбинировать подходы (например, облако для открытых данных + локальная LLM для конфиденциальной информации).

InKnowledge — это no-code платформа для создания единой базы знаний внутри компании. Она позволяет собирать и систематизировать всю рабочую информацию и легко ориентироваться в ней.

Платформу можно настроить под разные отделы, создавая независимые порталы, и управлять доступом к данным. Благодаря встроенному AI-помощнику, пользователи могут быстро находить нужные сведения и удобно работать с большими объемами информации, а совместное редактирование помогает команде работать над проектами в режиме реального времени.

InKnowledge поддерживает интеграцию с другими сервисами, что делает её универсальным инструментом для обмена знаниями и повышения эффективности работы.