Это, конечно, не ПСЖ – Астон Вилла, но тоже важная новость: OpenAI, разработавшая ChatGPT, запускает новую систему бенчмарков.

OpenAI считает, что бенчмарки AI сломаны. Теперь компания запускает программу по исправлению оценки моделей AI. Новая программа OpenAI Pioneers будет сосредоточена на создании оценок для моделей AI, которые «устанавливают планку того, как должно быть хорошо», как сформулировала OpenAI в своем блоге.

«Поскольку темпы внедрения AI в различных отраслях ускоряются, необходимо понимать и улучшать его влияние в мире», — продолжила компания в своем сообщении. «Создание оценок, специфичных для предметной области, — один из способов лучше отразить реальные варианты использования, помогая командам оценивать производительность модели в практических, высокорисковых средах».

Как показывает недавняя полемика с краудсорсинговым бенчмарком LM Arena и моделью Maverick от Meta*, в наши дни сложно понять, что именно отличает одну модель от другой. Многие широко используемые бенчмарки AI измеряют производительность в эзотерических задачах, таких как решение математических задач уровня докторской диссертации. Другие могут быть обманчивы или не соответствовать предпочтениям большинства людей.

С помощью программы Pioneers OpenAI надеется создать бенчмарки для определенных областей, таких как юриспруденция, финансы, страхование, здравоохранение и бухгалтерский учет. Лаборатория заявляет, что в ближайшие месяцы она будет работать с «несколькими компаниями» для разработки индивидуальных бенчмарков и в конечном итоге опубликует эти бенчмарки публично, вместе с оценками по отраслям.

«Первая когорта будет сосредоточена на стартапах, которые помогут заложить основы программы OpenAI Pioneers», — написала OpenAI в своем блоге. «Мы выбираем несколько стартапов для этой начальной когорты, каждый из которых работает над ценными прикладными вариантами использования, где AI может оказывать реальное влияние».

По словам представителей OpenAI, компании, участвующие в программе, также получат возможность работать с командой OpenAI над созданием улучшений моделей с помощью подкрепления тонкой настройки — метода, который оптимизирует модели для узкого набора задач.

Большой вопрос в том, примет ли сообщество AI бенчмарки, создание которых финансировалось OpenAI. OpenAI уже поддерживала бенчмаркинговые усилия финансово и разрабатывала собственные оценки.

Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации