ARC-AGI довольно большой и "дорогой" тест, особенно для CoT моделей которые на рассуждения кучу токенов тратят. Результаты есть для o3-high и o3-low — разница в длине рассуждений (high/low здесь "оптимальность", ниже=дороже), и вторая дала результаты лучше, но использовала в 170+ раз больше компьюта.
Прогонка o3-high по тесту стоила около $9000, это все цифры от автора бенчмарка, а про цену прогонки для o3-low говорить запретили. Правда несложная арифметика даёт нам $9000×170 = $1 500 000.
Полтора миллиона долларов стоили эти 500 тестов и эта эффективность в 87,5%
ARC-AGI довольно большой и "дорогой" тест, особенно для CoT моделей которые на рассуждения кучу токенов тратят. Результаты есть для o3-high и o3-low — разница в длине рассуждений (high/low здесь "оптимальность", ниже=дороже), и вторая дала результаты лучше, но использовала в 170+ раз больше компьюта.
Прогонка o3-high по тесту стоила около $9000, это все цифры от автора бенчмарка, а про цену прогонки для o3-low говорить запретили. Правда несложная арифметика даёт нам $9000×170 = $1 500 000.
Полтора миллиона долларов стоили эти 500 тестов и эта эффективность в 87,5%
Чёт в табличках high и low то efficiency, то compute, я запутался, названия похоже перепутал, но все цифры корректные с точностью до округления