OpenAI представила новых модели серии o1 и они действительно хороши

OpenAI представила новых модели серии o1 и они действительно хороши
OpenAI представила новых модели серии o1 и они действительно хороши

Новая серия логических моделей для решения сложных задач.

Цитирую сайт компании:
Мы разработали новую серию моделей искусственного интеллекта, предназначенных для того, чтобы тратить больше времени на размышления, прежде чем реагировать. Они могут рассуждать о сложных задачах и решать более сложные задачи, чем предыдущие модели в естественных науках, программировании и математике.Сегодня мы выпускаем первый из этой серии в ChatGPT и нашем API. Это предварительный просмотр, и мы ожидаем регулярных обновлений и улучшений. Наряду с этим выпуском мы также включаем оценки для следующего обновления, которое в настоящее время находится в разработке.

Как это работает

Мы обучили эти модели тратить больше времени на обдумывание проблем, прежде чем реагировать, подобно тому, как это сделал бы человек. Благодаря обучению они учатся совершенствовать свой мыслительный процесс, пробовать разные стратегии и признавать свои ошибки.

В наших тестах next model update справляется аналогично студентам PhD со сложными контрольными заданиями по физике, химии и биологии. Мы также обнаружили, что он превосходит их в математике и программировании. На квалификационном экзамене для Международной математической олимпиады (IMO) GPT-4o правильно решил только 13% задач, в то время как модель рассуждений набрала 83% баллов. Их способности к программированию оценивались в конкурсах, и они достигли 89-го процентиля в соревнованиях Codeforces. Подробнее об этом вы можете прочитать в нашем посте с техническим исследованием.

Как раннюю модель, она еще не обладает многими функциями, которые делают ChatGPT полезным, такими как поиск информации в Интернете и загрузка файлов и изображений. Для многих распространенных случаев GPT-4o будет более эффективным в ближайшей перспективе.

Но для сложных задач рассуждения это значительный прогресс и представляет собой новый уровень возможностей искусственного интеллекта. Учитывая это, мы сбрасываем счетчик обратно на 1 и называем эту серию OpenAI o1.

Безопасность

В рамках разработки этих новых моделей мы разработали новый подход к обучению технике безопасности, который использует их логические способности, чтобы приучить их соблюдать рекомендации по технике безопасности и регулировке. Благодаря возможности рассматривать наши правила безопасности в контексте, ИТ-отдел может применять их более эффективно.

Одним из способов измерения безопасности является проверка того, насколько хорошо наша модель продолжает следовать правилам безопасности, если пользователь пытается их обойти (известный как "джейлбрейк"). В одном из наших самых сложных тестов на джейлбрейк GPT-4o набрал 22 балла (по шкале 0-100), в то время как наша модель o1-preview набрала 84 балла. Подробнее об этом вы можете прочитать в системной карточке и в нашем исследовательском посте.

Чтобы соответствовать новым возможностям этих моделей, мы усилили нашу работу по обеспечению безопасности, внутреннему управлению и сотрудничеству с федеральным правительством. Сюда входят тщательное тестирование и оценки с использованием нашей системы обеспечения готовности(откроется в новом окне), лучшая в своем классе команда red teaming и процессы проверки на уровне правления, в том числе нашим Комитетом по охране труда.Чтобы укрепить нашу приверженность безопасности искусственного интеллекта, мы недавно оформили соглашения с институтами безопасности искусственного интеллекта США и Великобритании. Мы начали вводить в действие эти соглашения, включая предоставление институтам раннего доступа к исследовательской версии этой модели. Это был важный первый шаг в нашем партнерстве, помогающий наладить процесс исследования, оценки и тестирования будущих моделей до и после их публичного выпуска.

Для кого это

Эти расширенные возможности аргументации могут быть особенно полезны, если вы решаете сложные задачи в естественных науках, программировании, математике и подобных областях. Например, o1 может использоваться исследователями здравоохранения для аннотирования данных секвенирования клеток, физиками для генерации сложных математических формул, необходимых для квантовой оптики, и разработчиками во всех областях для построения и выполнения многоступенчатых рабочих процессов.

OpenAI o1-mini

Устройства серии o1 превосходно генерируют и отлаживают сложный код. Чтобы предложить разработчикам более эффективное решение, мы также выпускаем OpenAI o1-mini, более быструю и дешевую логическую модель, которая особенно эффективна при программировании. Как модель меньшего размера, o1-mini на 80% дешевле, чем o1-preview, что делает ее мощной и экономичной моделью для приложений, требующих рассуждений, но не обширных знаний о мире.

Как использовать OpenAI o1

Пользователи ChatGPT Plus и Team смогут получать доступ к моделям o1 в ChatGPT с сегодняшнего дня. Как o1-preview, так и o1-mini можно выбрать вручную в окне выбора модели, и при запуске еженедельные ограничения скорости будут составлять 30 сообщений для o1-preview и 50 для o1-mini. Мы работаем над повышением этих тарифов и даем возможность ChatGPT автоматически выбирать подходящую модель для данного запроса.

Пользователи ChatGPT Enterprise и Edu получат доступ к обеим моделям со следующей недели.Разработчики которые имеют право на использование API уровня 5(откроется в новом окне), могут начать прототипирование с использованием обеих моделей в API уже сегодня с ограничением скорости 20 оборотов в минуту. Мы работаем над увеличением этих ограничений после дополнительного тестирования. API для этих моделей в настоящее время не включает вызов функций, потоковую передачу, поддержку системных сообщений и другие функции. Чтобы начать, ознакомьтесь с документацией API(откроется в новом окне).

Мы также планируем предоставить доступ к o1-mini всем бесплатным пользователям ChatGPT.

Что дальше

Это предварительный просмотр этих моделей рассуждений в ChatGPT и API. В дополнение к обновлениям модели мы ожидаем добавления функций просмотра, загрузки файлов и изображений и других функций, которые сделают их более полезными для всех.

Мы также планируем продолжить разработку и выпуск моделей нашей серии GPT в дополнение к новой серии OpenAI o1.

Начать дискуссию