OpenAI представила новых модели серии o1 и они действительно хороши

Новая серия логических моделей для решения сложных задач.

Цитирую сайт компании:
Мы разработали новую серию моделей искусственного интеллекта, предназначенных для того, чтобы тратить больше времени на размышления, прежде чем реагировать. Они могут рассуждать о сложных задачах и решать более сложные задачи, чем предыдущие модели в естественных науках, программировании и математике.Сегодня мы выпускаем первый из этой серии в ChatGPT и нашем API. Это предварительный просмотр, и мы ожидаем регулярных обновлений и улучшений. Наряду с этим выпуском мы также включаем оценки для следующего обновления, которое в настоящее время находится в разработке.

Мы обучили эти модели тратить больше времени на обдумывание проблем, прежде чем реагировать, подобно тому, как это сделал бы человек. Благодаря обучению они учатся совершенствовать свой мыслительный процесс, пробовать разные стратегии и признавать свои ошибки.

В наших тестах next model update справляется аналогично студентам PhD со сложными контрольными заданиями по физике, химии и биологии. Мы также обнаружили, что он превосходит их в математике и программировании. На квалификационном экзамене для Международной математической олимпиады (IMO) GPT-4o правильно решил только 13% задач, в то время как модель рассуждений набрала 83% баллов. Их способности к программированию оценивались в конкурсах, и они достигли 89-го процентиля в соревнованиях Codeforces. Подробнее об этом вы можете прочитать в нашем посте с техническим исследованием.

Как раннюю модель, она еще не обладает многими функциями, которые делают ChatGPT полезным, такими как поиск информации в Интернете и загрузка файлов и изображений. Для многих распространенных случаев GPT-4o будет более эффективным в ближайшей перспективе.

Но для сложных задач рассуждения это значительный прогресс и представляет собой новый уровень возможностей искусственного интеллекта. Учитывая это, мы сбрасываем счетчик обратно на 1 и называем эту серию OpenAI o1.

В рамках разработки этих новых моделей мы разработали новый подход к обучению технике безопасности, который использует их логические способности, чтобы приучить их соблюдать рекомендации по технике безопасности и регулировке. Благодаря возможности рассматривать наши правила безопасности в контексте, ИТ-отдел может применять их более эффективно.

Одним из способов измерения безопасности является проверка того, насколько хорошо наша модель продолжает следовать правилам безопасности, если пользователь пытается их обойти (известный как "джейлбрейк"). В одном из наших самых сложных тестов на джейлбрейк GPT-4o набрал 22 балла (по шкале 0-100), в то время как наша модель o1-preview набрала 84 балла. Подробнее об этом вы можете прочитать в системной карточке и в нашем исследовательском посте.

Чтобы соответствовать новым возможностям этих моделей, мы усилили нашу работу по обеспечению безопасности, внутреннему управлению и сотрудничеству с федеральным правительством. Сюда входят тщательное тестирование и оценки с использованием нашей системы обеспечения готовности(откроется в новом окне), лучшая в своем классе команда red teaming и процессы проверки на уровне правления, в том числе нашим Комитетом по охране труда.Чтобы укрепить нашу приверженность безопасности искусственного интеллекта, мы недавно оформили соглашения с институтами безопасности искусственного интеллекта США и Великобритании. Мы начали вводить в действие эти соглашения, включая предоставление институтам раннего доступа к исследовательской версии этой модели. Это был важный первый шаг в нашем партнерстве, помогающий наладить процесс исследования, оценки и тестирования будущих моделей до и после их публичного выпуска.

Эти расширенные возможности аргументации могут быть особенно полезны, если вы решаете сложные задачи в естественных науках, программировании, математике и подобных областях. Например, o1 может использоваться исследователями здравоохранения для аннотирования данных секвенирования клеток, физиками для генерации сложных математических формул, необходимых для квантовой оптики, и разработчиками во всех областях для построения и выполнения многоступенчатых рабочих процессов.

Устройства серии o1 превосходно генерируют и отлаживают сложный код. Чтобы предложить разработчикам более эффективное решение, мы также выпускаем OpenAI o1-mini, более быструю и дешевую логическую модель, которая особенно эффективна при программировании. Как модель меньшего размера, o1-mini на 80% дешевле, чем o1-preview, что делает ее мощной и экономичной моделью для приложений, требующих рассуждений, но не обширных знаний о мире.

Пользователи ChatGPT Plus и Team смогут получать доступ к моделям o1 в ChatGPT с сегодняшнего дня. Как o1-preview, так и o1-mini можно выбрать вручную в окне выбора модели, и при запуске еженедельные ограничения скорости будут составлять 30 сообщений для o1-preview и 50 для o1-mini. Мы работаем над повышением этих тарифов и даем возможность ChatGPT автоматически выбирать подходящую модель для данного запроса.

Пользователи ChatGPT Enterprise и Edu получат доступ к обеим моделям со следующей недели.Разработчики которые имеют право на использование API уровня 5(откроется в новом окне), могут начать прототипирование с использованием обеих моделей в API уже сегодня с ограничением скорости 20 оборотов в минуту. Мы работаем над увеличением этих ограничений после дополнительного тестирования. API для этих моделей в настоящее время не включает вызов функций, потоковую передачу, поддержку системных сообщений и другие функции. Чтобы начать, ознакомьтесь с документацией API(откроется в новом окне).

Мы также планируем предоставить доступ к o1-mini всем бесплатным пользователям ChatGPT.

Это предварительный просмотр этих моделей рассуждений в ChatGPT и API. В дополнение к обновлениям модели мы ожидаем добавления функций просмотра, загрузки файлов и изображений и других функций, которые сделают их более полезными для всех.

Мы также планируем продолжить разработку и выпуск моделей нашей серии GPT в дополнение к новой серии OpenAI o1.

OpenAI представила новых модели серии o1 и они действительно хороши

Как это работает

Безопасность

Для кого это

OpenAI o1-mini

Как использовать OpenAI o1

Что дальше