ARC-AGI довольно большой и "дорогой" тест, особенно для CoT моделей которые на рассуждения кучу ток…

Таня Боброва

ChatGPT

20.12.2024

OpenAI анонсировала следующее семейство «рассуждающих» моделей — o3

Превью языковой модели o1 компания представила в сентябре 2024 года.

1616

Qnoc

21.12.2024

ARC-AGI довольно большой и "дорогой" тест, особенно для CoT моделей которые на рассуждения кучу токенов тратят. Результаты есть для o3-high и o3-low — разница в длине рассуждений (high/low здесь "оптимальность", ниже=дороже), и вторая дала результаты лучше, но использовала в 170+ раз больше компьюта.

Прогонка o3-high по тесту стоила около $9000, это все цифры от автора бенчмарка, а про цену прогонки для o3-low говорить запретили. Правда несложная арифметика даёт нам $9000×170 = $1 500 000.

Полтора миллиона долларов стоили эти 500 тестов и эта эффективность в 87,5%

Ответить

Qnoc

21.12.2024

Чёт в табличках high и low то efficiency, то compute, я запутался, названия похоже перепутал, но все цифры корректные с точностью до округления

Ответить