Роман Куцев CEO LLM Arena

+264
с 2017

Founder LLMarena.ru: бесплатно тестируйте и сравнивайте лучшие языковые модели

37 подписчиков
28 подписок
Как выбрать LLM-модель, которая заберет у вас работу
Как выбрать LLM-модель, которая заберет у вас работу

Пока одни спорят, заменит ли ИИ людей, другие уже выбирают, какую нейросеть поставить себе в напарники. ChatGPT, Claude, Mistral, а еще китайские модели, которые неожиданно набирают популярность — надо бы разобраться в этом хаосе.

От ресторанов до банков: какие компании доверяют ИИ важные задачи
От ресторанов до банков: какие компании доверяют ИИ важные задачи

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

1
Оценка больших языковых моделей в 2025 году: пять методов
Оценка больших языковых моделей в 2025 году: пять методов

Поскольку оценка систем LLM является многомерной задачей, важно разработать комплексную методологию измерения их производительности. В этой статье рассматриваются основные проблемы существующих методов оценки и предлагаются решения для их устранения.

1
Бенчмаркинг AI-агентов: оценка производительности в реальных задачах
Бенчмаркинг AI-агентов: оценка производительности в реальных задачах

AI-агенты уже решают реальные задачи — от обслуживания клиентов до сложной аналитики данных. Но как убедиться, что они действительно эффективны? Ответ заключается в комплексной оценке AI-агентов.

Люди больше не нужны? Профессии, которые уже заменил ИИ
Люди больше не нужны? Профессии, которые уже заменил ИИ

2023 - 2024 годы стали переломными для искусственного интеллекта. Развитие технологий ускорилось, а внедрение нейросетей затронуло буквально все сферы жизни. Мощные мультимодальные модели, такие как GPT-4 от OpenAI и Gemini Ultra от Google, теперь способны анализировать не только текст, но и изображения, аудио, код и даже сложные бизнес-данные.

1
Феномен DeepSeek: разбираем причины шума вокруг нейросети
Феномен DeepSeek: разбираем причины шума вокруг нейросети

Понедельник, 27 января, начался с крупнейшего однодневного падения компании в истории фондового рынка США. Акции NVIDIA упали на 18%, а прибыль снизилась на $589 миллиардов. А все из-за китайской версии «синего кита» — точнее, выхода ИИ-модели DeepSeek-R1. Издание The New Yorker назвало ситуацию «Sputnik moment», по аналогии с отправкой первого чел…

1
Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей
Red Teaming для LLM: Полное пошаговое руководство по Red Teaming больших языковых моделей

Помните ситуацию, когда Gemini излишне старался быть политкорректным и отображал на всех сгенерированных изображениях только представителей небелых рас? Хотя это могло показаться забавным для многих, данный инцидент наглядно показал, что по мере роста возможностей больших языковых моделей (LLM) возрастают и их уязвимости. Это связано с тем, что сло…

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики
Фото <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2F%40neon845b%3Futm_content%3DcreditCopyText%26amp%3Butm_medium%3Dreferral%26amp%3Butm_source%3Dunsplash&postId=1792656" rel="nofollow noreferrer noopener" target="_blank">Яни Каасинен</a> на <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Funsplash.com%2Fphotos%2Fbrown-chess-pieces-on-brown-wooden-chess-board-7VGzV09YnvA%3Futm_content%3DcreditCopyText%26amp%3Butm_medium%3Dreferral%26amp%3Butm_source%3Dunsplash&postId=1792656" rel="nofollow noreferrer noopener" target="_blank">Unsplash</a>.

В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли в…

Оценка чат-ботов LLM: основные метрики и методы тестирования
Оценка чат-ботов LLM: основные метрики и методы тестирования

В этой статье я научу вас, как оценивать LLM-чат-ботов, чтобы понять, достаточно ли они убедительны, чтобы сойти за реальных людей. Но что еще важнее, вы сможете использовать результаты этой оценки, чтобы понять, как улучшить своего LLM-чат-бота, например, изменив промпт или саму LLM-модель.

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики
Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения…

Метрики оценки LLM: полное руководство по оценке LLM
Метрики оценки LLM: полное руководство по оценке LLM

Независимо от того, улучшаете ли вы точность модели путем дообучения или улучшаете контекстную релевантность системы генерации с дополненной выборкой (RAG), понимание того, как разрабатывать и выбирать подходящий набор метрик оценки LLM для вашего варианта использования, является обязательным для построения надежного конвейера оценки LLM.

Улучшение RAG с помощью графов знаний

Генерация с дополненной выборкой (RAG) — это метод, который соединяет внешние источники данных для улучшения вывода больших языковых моделей (LLM). Этот метод идеально подходит для LLM для доступа к частным или специфичным для предметной области данным и решения проблем, связанных с галлюцинациями. Поэтому RAG широко используется для поддержки мног…

Конвейер GraphRAG (Источник изображения: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fpdf%2F2404.16130&postId=1751240" rel="nofollow noreferrer noopener" target="_blank">документ GraphRAG</a>)