Будущее LLM: 7 прогнозов на 2025 год

Будущее LLM: 7 прогнозов на 2025 год

Языковые модели, или LLM, продолжают впечатлять своим развитием. Технологии становятся умнее, их возможности шире, а применение в бизнесе и жизни — еще полезнее. В 2024 году LLM обрели зрение и память, получили доступ к актуальной информации и подтянули знания в кодинге. Чего ожидать от 2025 года? Собрал наиболее правдоподобные прогнозы и добавил свои. Спойлер: Джарвиса, который будет делать за нас всю работу, ждать не стоит.

Галлюцинации останутся главным недостатком языковых моделей

Причины кроются в самой архитектуре моделей: LLM обучаются на огромных массивах данных, но не способны самостоятельно проверять достоверность информации. Ответы языковых моделей невозможно предугадать, поэтому и саму проблему галлюцинаций устранить сложно. Даже с доступом к актуальной информации LLM иногда выдают ответы, основанные на неправильных данных. ChatGPT часто вырывает данные из контекста или предлагает устаревшую статистику, из-за чего приходится самостоятельно проверять ответы.

В 2025 году компании-разработчики, такие как OpenAI, Google и Anthropic, сосредоточатся на интеграции моделей с базами проверенных данных и усилении фильтров для критической информации. Большинство компаний уже используют RAG-подход для устранения галлюцинаций. Плюс RAG дополнительно усиливает надежность моделей: он позволяет сначала выполнить поиск релевантных данных в подключенных базах, а затем генерировать ответы на их основе. То есть модель еще будет предоставлять ссылки на источники. Сейчас так делают GPT-4, Gemini и Perplexity.

Однако не стоит ожидать, что проблему с галлюцинациями тут же решат в 2025 году. Чтобы разучить модели «обманывать», нужны значительные ресурсы. Прежде всего, электричество, потребление которого, по прогнозам, вырастет на 160% к 2030 году из-за разработки LLM.

Перед тем как интегрировать LLM в работу, рекомендую провести им тесты на галлюцинации и задать вопросы из нужной вам сферы. Сделать это бесплатно и без VPN можно на платформе LLMArena. Сервис позволяет сравнить две языковые модели и выбрать ту, которая лучше справляется с вашими задачами.

Подход Fine-tuning потеряет актуальность

Fine-tuning никогда не был универсальным решением. На практике его эффективно применяют лишь в одном случае из двадцати. Добиться качественного результата, который сохраняет калибровку HLRF (High-Level Reasoning Framework) и не вызывает галлюцинаций, удается еще реже. Большинство задач уже решают базовые модели. Современные LLM, такие как GPT, обучены на огромных объемах данных и успешно справляются с широким спектром задач при грамотной формулировке запроса.

Fine-tuning имеет смысл только для задач, требующих специфических знаний или узкого контекста, которых нет у базовой модели. Главный минус подхода — требует вычислительных ресурсов и времени. Для качественного результата нужен большой объем точной и релевантной информации. А если модель перегрузить, то снизится ее универсальность. К примеру, она будет выдавать однотипные ответы.

В 2025 году fine-tuning, вероятно, станет еще менее востребованным, так как современные базовые модели способны решать большинство задач без дообучения. Вместо этого акцент сместится на prompt engineering — умение правильно формулировать запросы для получения нужных результатов без дополнительной настройки.

Вектор на защиту данных и безопасность

Большие языковые модели работают с огромными объемами информации, в том числе конфиденциальной. Проблема в том, что они могут «запомнить» куски этих данных. Например, если модель обучается на открытых источниках или подключается к системам через API, всегда есть риск, что информация случайно или намеренно утечет.

Облачные сервисы добавляют еще больше рисков. Данные отправляются на удаленные серверы для обработки, и в этот момент злоумышленники могут попытаться перехватить их или найти уязвимости. Бывали случаи, когда слабые места в языковых моделях использовались для вытягивания чужих секретов.

В 2025 году защита данных станет приоритетом. Компании начнут больше вкладываться в безопасные решения. Например, многие будут использовать локальные модели, которые обрабатывают данные на месте, без отправки в облако. Также усилится контроль над тем, что именно модели могут «запоминать», чтобы минимизировать риск утечек.

Прорыв в ИИ-агентах откладывается

Хотя многие говорят, что в новом году нас ждет прорыв в сфере автономных систем, это вызывает сомнения. Проблема не в том, что такие агенты технически невозможно создать — при желании и серьезных вложениях можно добиться впечатляющих результатов. Но на практике это очень сложный продукт.

Агенты требуют учета огромного количества переменных, больше, чем классические чат-боты. Каждая из них добавляет сложности на этапах проектирования, тестирования и поддержки. Такие решения могут позволить себе только крупные компании, например, Amazon. Их агент Amazon Connect Contact Lens анализирует поведение клиентов по звонкам в реальном времени и работу сотрудников колл-центра. Такой агент действительно может взять на себя роль отдела контроля качества.

Хотя спрос на ИИ-агентов растет, но ждать революции не стоит. А вот количество фреймворков для разработки агентов точно увеличится. Все хотят повторить успех LangChain и занять свое место на рынке. Даже Pydantic подключился с новым подобным проектом. Так что через пару лет можно ожидать мощные и доступные инструменты, которые сделают разработку агентов проще.

Режимы работы, подобные o1-preview, станут популярнее

Они позволяют увеличить когнитивные способности моделей без сбора огромных объемов данных и создания сложных инфраструктур.

Да, системы в этом режиме работают медленнее и обходятся дороже, но это оправдано, когда требуется высокая когнитивная нагрузка. Такие режимы особенно полезны в задачах аналитики, сложных логических выводов и принятия решений в реальном времени.

Например, при работе с финансовой аналитикой модель в режиме o1-preview может обрабатывать данные из отчетов в реальном времени, делать прогнозы с учетом большего числа факторов и анализировать длинные временные контексты. Вместо нескольких месяцев она сможет оценивать годовые тренды, что значительно увеличивает точность и полезность выводов.

Уникальные функции в API

Провайдеры будут активно добавлять новые удобные функции, чтобы выделяться на рынке.

Structured Outputs (ограниченная декодировка) позволяет задать модели жесткие ограничения на формат ответа. Например, модель должна вернуть JSON-объект с заданным количеством полей и четкими типами данных. OpenAI впервые представила режим Structured Outputs в 2024 году вместе с gpt-4-turbo и gpt-3-turbo. С тех пор поддержка JSON стала стандартом для всех новых моделей компании.

Функция пригодится в сложных задачах, таких как custom chain-of-thought (пользовательские цепочки рассуждений), где модель должна выдавать ответы с последовательным выполнением шагов.

Работа с PDF на уровне Text + Vision. Современные модели умеют анализировать PDF-файлы, включая текст и изображения. Правда многие из них проводят анализ отдельно, часто LLM просто пропускают картинки, таблицы, графики и обращают внимание только на текст. PDF-документы обычно содержат не только текст, но и визуальные данные, которые важны для понимания контекста.

Интеграция анализа текста и изображений в API открывает новые возможности для работы с договорами, отчетами и научными статьями. Например, Anthropic разбивает PDF-файл на отдельные элементы: текстовые и графические, чтобы сделать анализ проще и точнее.

Системы RAG (Retrieval-Augmented Generation) + Execution Sandbox. Это возможность подключить к модели пользовательские базы данных и протестировать ее работу в контролируемой безопасной среде. «Песочница» изолирована от основной системы, поэтому даже если в сгенерированном коде есть ошибки или вредоносные элементы, они не повлияют на основную среду.

Самый известный пример — OpenAI Assistants API. Перед интеграцией вы собираете API-ассистента: прописываете для него инструкции, загружаете базы знаний. Затем тут же в Playground его можно протестировать, чтобы вовремя устранить неполадки и только затем внедрять в свои продукты.

AGI в 2025 году точно не появится

Создание AGI — задача сложнее, чем разработка агентов. Она требует моделирования человеческого разума: эмоций, логики, креативности. Современные модели, такие как GPT, хоть и впечатляют, остаются узкоспециализированными. Они анализируют текст, а не понимают его по-настоящему. Пока AGI остается мечтами в фильмах о будущем.

Вместо AGI все больше компаний будут пытаться догнать и обогнать OpenAI. Это уже заметно по бенчмаркам, где конкуренты стремятся показать лучшие результаты. Вы тоже можете принять участие в формировании рейтинга и задать тренды LLM на 2025 год. На платформе LLMArena в режиме анонимного сравнения система автоматически подберет две модели, которые вы сможете бесплатно протестировать. В честной борьбе выберите ту, которая оказалась сильнее остальных.

А каковы ваши прогнозы на 2025 год? Пишите в комментариях.

4 комментария

Понятно, что искусственный интеллект становится все умнее и полезнее. Но пока что он еще не идеален и иногда выдает не совсем точные ответы. Хорошо, что ученые уже работают над тем, чтобы сделать ИИ еще надежнее. Надеюсь, скоро мы сможем полностью доверять информации, которую он нам предоставляет.

Мне кажется, что в сфере ИИ что-то говорить наперёд - не то, чтобы неверно, но не стоит, потому что разработки в данной области ведутся разными компаниями и вполне вероятно, что может быть сделан прорыв, который приведёт к ещё более быстрому развитию ИИ

Отличный анализ текущих трендов и возможных направлений развития LLM в 2025 году! Особенно впечатляет внимание к таким аспектам, как безопасность данных, интеграция с API и работа с визуальными элементами в PDF. Это открывает огромный потенциал для бизнеса, науки и управления.

Особенно интересно ваше мнение о перспективе развития AGI. Хотелось бы узнать, считаете ли вы возможным появление прорывных решений в этом направлении за счет новых архитектур или подходов, которые пока не задействованы крупными игроками? И насколько реалистично, что конкуренты OpenAI смогут догнать лидера в ближайшие годы?