Новые моделей от OpenAI: ChatGPT o1-preview, ChatGPT o1-mini и их влияние на будущее ИИ

OpenAI продолжает развивать свои технологии, представляя новые модели, такие как ChatGPT o1-preview и ChatGPT o1-mini, которые демонстрируют значительные улучшения в области сложного рассуждения и экономичности. В этой статье мы рассмотрим ключевые особенности и достижения этих моделей, а также их влияние на будущее искусственного интеллекта.

ChatGPT o1-preview действительно пытается "думать"<br />
ChatGPT o1-preview действительно пытается "думать"

ChatGPT o1-preview: Модель для сложного рассуждения

ChatGPTo1-preview — это новая крупная языковая модель, обученная с использованием методов обучения с "подкреплением" для выполнения сложных рассуждений. Эта модель способна генерировать длинные цепочки мыслей перед ответом на запрос пользователя, что значительно улучшает её способность решать сложные задачи.

Достижения и производительность

  • В конкурсах по программированию на Codeforces она занимает место среди лучших 5%.
  • В квалификационном этапе для участия в USA Math Olympiad (Математическая олимпиада США) она входит в число 500 лучших студентов США.
  • По результатам тестирования на знаниях физики, биологии и химии (GPQA) она превосходит точность даже экспертов с докторской степенью.
Новые моделей от OpenAI: ChatGPT o1-preview, ChatGPT o1-mini и их влияние на будущее ИИ

Инновационные подходы

Модель обучается с использованием крупномасштабного алгоритма обучения с подкреплением, который учит её продуктивно мыслить, используя цепочку мыслей. Это позволяет модели улучшать свои результаты по мере увеличения вычислительных ресурсов как на этапе обучения, так и на этапе тестирования.

Безопасность

Использование цепочки мыслей открывает новые возможности для улучшения безопасности и выравнивания модели. Модель обучается следовать правилам безопасности и применять их в контексте, что делает её более устойчивой к потенциально опасным запросам. Перед развертыванием o1-preview прошла тщательные проверки безопасности, включая внешнее тестирование и оценки по Preparedness Framework.

Обе модели скоро будут доступны в телеграм боте

ChatGPT o1-mini: Экономичная модель для рассуждений

OpenAI o1-mini — это модель, оптимизированная для выполнения задач в области STEM (наука, технология, инженерия и математика) с высокой экономичностью. Она почти не уступает по производительности модели o1 на бенчмарках, таких как AIME и Codeforces, но при этом значительно дешевле.

Достижения и производительность

  • Математика: ChatGPT o1-mini показывает результат 70.0% на соревнованиях по математике AIME, что сопоставимо с результатом ChatGPT o1 (74.4%).
  • Программирование: Модель достигает 1650 Elo на платформе Codeforces, что конкурентоспособно с o1 (1673) и значительно выше, чем у o1-preview (1258).
В ходе оценки предпочтений людей, ответы на сложные и открытые вопросы из различных областей, было выявлено, что o1-preview значительно предпочтительнее чем GPT-4.
В ходе оценки предпочтений людей, ответы на сложные и открытые вопросы из различных областей, было выявлено, что o1-preview значительно предпочтительнее чем GPT-4.

Экономичность и доступность

o1-mini предназначена для пользователей, которым требуется быстрое и экономичное решение задач, не требующих широких знаний о мире. Она будет доступна пользователям API tier 5 по цене, на 80% ниже, чем у o1-preview. Пользователи ChatGPT Plus, Team, Enterprise и Edu также смогут использовать o1-mini с более высокими лимитами и меньшей задержкой.

Ограничения и будущие улучшения

o1-mini уступает в задачах, требующих нефактических знаний вне STEM. Однако, OpenAI планирует улучшить эти ограничения в будущих версиях модели, а также экспериментировать с расширением её возможностей в других областях.

Заключение

Введение моделей o1-preview и o1-mini демонстрирует значительный прогресс в области искусственного интеллекта. Эти модели не только улучшают способность ИИ к сложным рассуждениям, но и делают его более доступным и экономичным для широкого круга пользователей. OpenAI продолжает работать над улучшением безопасности и выравнивания моделей, что делает их использование более надежным и безопасным.

31
Начать дискуссию