GPT-4o, o1 и Claude не смогли выполнить «большинство» реальных фриланс-задач на программирование — исследование OpenAI
Больше всех на платформе для фрилансеров Upwork «заработал» бы Claude 3.5 Sonnet.
- Исследователи отобрали более 1400 задач на программирование с американской фриланс-биржи Upwork. Выполнив их все, можно было бы заработать $1 млн.
- В тесте участвовали модели GPT-4o, o1 и Claude 3.5 Sonnet — они «заработали» $304 тысячи, $380 тысяч и $403 тысячи соответственно.
Суммарные выплаты, которые бы получили модели за выполненные задач на фриланс-бирже. Источник здесь и далее: OpenAI
- Исследование включало разные инженерные задачи на исправление ошибок в коде и разработку функций стоимостью от $50 до $32 тысяч. Также были более сложные управленческие задачи, в которых нужно было выбрать наилучшие решения, представленные фрилансерами. Во втором случае все модели справились лучше.
Модели показывают лучшие результаты в наборе тестов SWE Manager на управленческие задачи
- На основе исследования OpenAI представила бенчмарк SWE-Lancer для оценки навыков ИИ-моделей на реальных инженерных задачах. Компания предполагает, что такой подход позволит исследовать экономическое влияние искусственного интеллекта на рынок труда.
56 комментариев