Ася Карпова

GPT-4o, o1 и Claude не смогли выполнить «большинство» реальных фриланс-задач на программирование — исследование OpenAI

Больше всех на платформе для фрилансеров Upwork «заработал» бы Claude 3.5 Sonnet.

Исследователи отобрали более 1400 задач на программирование с американской фриланс-биржи Upwork. Выполнив их все, можно было бы заработать $1 млн.
В тесте участвовали модели GPT-4o, o1 и Claude 3.5 Sonnet — они «заработали» $304 тысячи, $380 тысяч и $403 тысячи соответственно.

Суммарные выплаты, которые бы получили модели за выполненные задач на фриланс-бирже. Источник здесь и далее: OpenAI

Исследование включало разные инженерные задачи на исправление ошибок в коде и разработку функций стоимостью от $50 до $32 тысяч. Также были более сложные управленческие задачи, в которых нужно было выбрать наилучшие решения, представленные фрилансерами. Во втором случае все модели справились лучше.

Модели показывают лучшие результаты в наборе тестов SWE Manager на управленческие задачи

На основе исследования OpenAI представила бенчмарк SWE-Lancer для оценки навыков ИИ-моделей на реальных инженерных задачах. Компания предполагает, что такой подход позволит исследовать экономическое влияние искусственного интеллекта на рынок труда.

#новости #openai

9

3

1

54 комментария