Последний Математический рубеж на пути к победе ИИ над человеком

С совершенствованием нейросетей возникает необходимость все более изощренных тестов для определения их способностей.

Так, недавно был создан проект Математический Рубеж - набор таких сложных математических проблем, смысл которых большинство из нас даже не может понять, не то что предложить решение. Более 60 лучших математиков со всего мира трудились над ним. Математические проблемы ранее нигде не публиковали и ИИ на них не обучали.

Доступные на тот момент модели ИИ с треском провалили этот бенчмарк. Решаемость задач была на уровне 2%. Казалось ИИ пока ещё далеко до лучших математиков мира. Но тут OpenAi выкатили свежую модель “o3” , которая под конец 2024г смогла решить каждую четвертую проблему. И теперь вместо 2% решаемости месяц назад мы имеем 25%. Это рост КПД в 12.5 раз!

Это по прежнему были не известные для “о3” задачи, он сам научился их решать. Способность точно решать ранее неизвестные или новые задачи из ограниченного количества данных известна как способность обобщать. Это широко считается фундаментальным элементом интеллекта и используется в IQ тестах. Тест на обобщение ARC-AGI созданный для ИИ был пройден с результатом 87,5%, что уже выше человеческого уровня (85%).

Мне интересно, когда ИИ сможет решать все 100% математических проблем как дальше будут измерять его способности? Кто сможет понять насколько он крут? Я думаю в этот момент мы получим тот самый общий ИИ, который будет умнее человека во всем потому что сможет быстро адаптироваться и самообучаться. И такими темпами похоже это уже может случиться в 2025-26г.