OpenAI выпустили технический отчет новой GPT-4.5: чем она лучше предшественников?

OpenAI выпустили технический отчет новой GPT-4.5: чем она лучше предшественников?

Сегодня OpenAI выпустили новую модель GPT-4.5, а вместе с ней и технический отчет. Давайте узнаем, что улучшилось в GPT-4.5 по сравнению с предыдущими моделями компании.

GPT‑4.5 теперь крупнейшая модель OpenAI, при этом её вычислительная эффективность улучшена более чем в 10 раз по сравнению с GPT‑4. Это означает, что при схожем уровне производительности она требует меньше ресурсов.

Новые методы масштабирования цепочек размышлений (chain‑of‑thought) позволяют модели «думать» перед ответом, что улучшает решение сложных инженерных, исследовательских, математических и логических задач, снижая частоту галлюцинаций.

В GPT‑4.5 применены новые алгоритмы, которые позволяют использовать данные, сгенерированные меньшими моделями для улучшения управляемости и тонкого понимания намерений пользователя. Результат – более естественное и интуитивное общение, а также улучшенное эмоциональное восприятие запросов.

Модель обучена больше предпочитать системные промты над пользовательскими, что помогает эффективно противостоять попыткам обхода ограничений (jailbreak). При конфликте системного и пользовательского промта, GPT‑4.5 показывает точность в 76–77%, а на тестах с участием человеческих атак (Human Sourced Jailbreaks) модель достигла точности 0.99 по сравнению с 0.97 у GPT‑4o.

Защита от обхода ограничений
Защита от обхода ограничений

В тесте по отказу показывать небезопасный контент у GPT‑4.5 показатель «not_unsafe» равен 0.99 (по сравнению с 0.98–0.99 у предыдущих версий). Но при сложных тестах (Challenging Refusal) модель демонстрирует незначительное улучшение.

Отказ показа контент - только текст
Отказ показа контент - только текст
Отказ показа контента - текст и картинка
Отказ показа контента - текст и картинка

В тесте PersonQA (проверка на галлюцинации) точность ответов выросла с 28% (GPT‑4o) и 55% (o1) до 78% у GPT‑4.5, а частота галлюцинаций снизилась с 52% до 19%.

Уровень галлюцинаций (чем меньше, тем лучше)
Уровень галлюцинаций (чем меньше, тем лучше)

GPT‑4.5 способна выполнять задачи с 50%-ной надежностью в течение 30 минут.

Time horizon score - продолжительность, в течение которой LLM-агент способен выполнять задачи с 50%-ной надежностью
Time horizon score - продолжительность, в течение которой LLM-агент способен выполнять задачи с 50%-ной надежностью

Также улучшена «естественность» общения и эстетическая интуиция, которые помогают в решении творческих задач и общении с пользователями. Отзывы внутренних тестировщиков отмечают, что GPT‑4.5 выглядит «теплее» и «интуитивнее» при обработке эмоциональных запросов.

В тестах на общие и экспертные знания наблюдается улучшение с 9%-ным ростом по сравнению с GPT‑4o.

Оценка MakeMePay измеряет способностей модели убеждать другую модель в контексте перевода денег. В рамках теста два агента ведут диалог, где один выступает в роли мошенника, а другой – в роли жертвы. GPT‑4.5 в роли мошенника получает платежи в 57% случаев, однако стратегия модели (запросить небольшую сумму, типа $2–$3) приводит к меньшему общему количеству средств по сравнению с некоторыми другими моделями.

MakeMePay
MakeMePay

В оценке MakeMeSay, где модель-манипулятор заставляет другую модель (имитирующего человека) произнести заранее заданное кодовое слово, не вызывая подозрений, GPT‑4.5 достигла 72% успеха.

MakeMeSay
MakeMeSay

В бенчмарке SWE-bench оцениваются способности моделей решать реальные инженерные задачи в разработке программного обеспечения. В рамках оценки использовался фиксированный набор из 477 проверенных задач. GPT‑4.5 смогла решить около 38% задач.

SWE-bench
SWE-bench

В агентных задачах оценивается способность модели выполнять последовательность действий для достижения заданной цели. Например, одним из заданий является загрузка Mistral 7B в Docker-контейнер, где модель должна: настроить Docker-контейнер с инференс-сервером, соответствующим OpenAI API, далее обеспечить доступ к серверу и использовать модель mistral-7b для вывода результатов. GPT‑4.5 способна успешно решать 40% подобных задач с первой попытки, хотя показатели остаются ниже, чем у deep research.

Агентные задачи

MLE-bench оценивает способность агента решать задачи Kaggle по обучению ML-моделей на GPU. ��генту предоставляют виртуальное окружение, GPU, данные и инструкции с Kaggle, а время на решение задачи составляет 24 часа (иногда до 100 часов). Используется набор из 75 отобранных соревнований стоимостью $1.9 млн, а основной показатель — процент задач, где модель достигает как минимум бронзового уровня. По этой метрике o1, o3-mini, deep research и GPT‑4.5 показывают 11%.

MLE-Bench
MLE-Bench

SWE-Lancer – бенчмарк для оценки моделей на реальных фрилансерских задачах по разработке ПО (разработка функционала, дизайн интерфейсов, улучшение производительности, исправление багов и выбор оптимального решения) с наличием цены за решение задачи. Задачи делятся на два типа:

  • IC SWE Tasks: Задачи на написание кода по описанию проблемы, где модель должна внести исправления в кодовую базу (без доступа к end-to-end тестам).
  • SWE Manager Tasks: Задачи на выбор лучшего решения из нескольких вариантов.

Для GPT‑4.5 показатели составляют:• 20% решений по задачам IC SWE, заработок – $41 625.• 44% решений по задачам SWE Manager, заработок – $144 500.

Сколько задач решено
Сколько задач решено
Сколько денег заработано
Сколько денег заработано

Эти результаты немного превышают показатели модели o1, но уступают deep research, которая демонстрирует лучшие показатели (около 46% и 51% соответственно).

По результатам тестирования на 14 языках, GPT‑4.5 демонстрирует устойчивый рост по сравнению с GPT‑4o. Например, в тесте на английском языке точность выросла до 89.6%, а в арабском – до 85.98% (значения немного варьируются по языкам, но заметно общее улучшение качества).

OpenAI выпустили технический отчет новой GPT-4.5: чем она лучше предшественников?

GPT‑4.5 демонстрирует значительные улучшения в знаниях, качестве текстов и безопасности по сравнению со своими предшественниками. У неё отличные способности в с сложных логических задачах, снижении уровня галлюцинаций и лучшего понимания эмоционального контекста в общении. Остается опробовать модель на практике и сравнить с моделями от других компаний.

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Начать дискуссию