Подробный обзор GPT-o1 (GPT5) от OpenAI
Проект OpenAI Strawberry с интеллектом уровня доктора наук
Итак, GPT-5, он же проект Strawberry, он же GPT-o1, он же уровень LLM PhD от OpenAI, уже вышел. Столько шума за последние несколько месяцев, и, судя по результатам, он оправдал ожидания. OpenAI-o1 — это серия моделей, разработанных для улучшения возможностей решения проблем в сложных областях, таких как наука, кодирование и математика.
🚀 Решайте свои задачи с помощью последних самых дорогих версий искусственного интеллекта!
🚀 Бот ChatGPT по-русски умеет:
📃 Писать рефераты, курсовые, дипломы.
📐 Решать задачи.
👨🏻💻 Программировать.
🖼 Рисовать изображения.
📝 Писать за вас любые тексты.
🧠 Предлагать идеи на любые темы.
Жмите ChatGPT по-русски
Вот некоторые ключевые особенности, на которые следует обратить внимание:
Расширенные возможности рассуждения
- Тщательное решение проблем: модели o1 спроектированы так, чтобы тратить больше времени на «размышления» перед ответом, имитируя человеческое мышление. Это позволяет им решать сложные задачи более эффективно, чем предыдущие модели, такие как GPT-4.
- Benchmark Performance: В оценках модели o1 продемонстрировали превосходную производительность при выполнении сложных задач, достигнув результатов, сопоставимых с результатами аспирантов в таких областях, как физика, химия и биология. Например,
Модель o1 набрала 83% на отборочном экзамене Международной олимпиады по математике, значительно превзойдя GPT-4o, которая набрала всего 13%.
Безопасность
- Улучшенное обучение технике безопасности: компания OpenAI разработала новый подход к обучению технике безопасности, который использует возможности моделей для более эффективного соблюдения правил безопасности и выравнивания.
Модель o1 набрала 84 балла в тесте на взлом, что свидетельствует о надежной способности соблюдать правила безопасности в стрессовых ситуациях, по сравнению с 22 баллами модели GPT-4o.
Целевые приложения
- Специализированные варианты использования: модели o1 особенно полезны для профессионалов в областях, требующих решения сложных задач, например, для исследователей в области здравоохранения, анализирующих данные секвенирования клеток, и физиков, разрабатывающих сложные математические формулы для квантовой оптики.
Варианты модели (o1-mini и o1-preview)
- OpenAI o1-mini: Наряду с моделью o1-preview компания OpenAI выпустила o1-mini, более эффективный и экономичный вариант, разработанный специально для задач кодирования. Он на 80% дешевле модели o1-preview, что делает его привлекательным вариантом для разработчиков, которым нужны возможности рассуждения без обширных знаний о мире.
Доступность
- Доступ пользователя: модели o1 доступны пользователям ChatGPT Plus и Team, с планами более широкого доступа для пользователей ChatGPT Enterprise в ближайшем будущем. Разработчики могут создавать прототипы с этими моделями через API, хотя некоторые функции, такие как вызов функций и потоковая передача, пока не включены.
- Бесплатный доступ к o1-mini будет предоставлен в ближайшее время, как и было указано.
Обучение с подкреплением в основе
Их алгоритм обучения с подкреплением тренирует модель эффективно мыслить, улучшая производительность за счет увеличения времени обучения и размышлений. Они изучают, как масштабировать этот подход, который существенно отличается от проблем масштабирования предобучения больших языковых моделей (LLM). По этому поводу предоставлено не так много информации (OpenAI — это OpenAI)
Еще немного о некоторых сравнениях и показателях
Основные вехи
- Codeforces (Соревновательное программирование): платформа для соревновательного программирования, где участники решают алгоритмические задачи в соревнованиях на время. o1 занимает 89-й процентиль, демонстрируя свою компетентность в обработке сложных алгоритмов в условиях ограничений по времени.
- Олимпиада США по математике (AIME): престижное математическое соревнование для учащихся старших классов в США, участники которого проходят отборочный экзамен по Американскому приглашенному экзамену по математике (AIME). o1 попал в число 500 лучших учеников этого элитного соревнования, продемонстрировав продвинутые навыки решения задач.
- Тест GPQA: Тест, разработанный для оценки моделей по задачам физики, биологии и химии на уровне аспирантуры. o1 превосходит уровень доктора наук, что подчеркивает его глубокое понимание и способность решать сложные академические задачи.
- MMLU Benchmark: Тест Massive Multitask Language Understanding (MMLU) проверяет знания и рассуждения модели по различным академическим и профессиональным предметам. По возможностям зрения o1 набрал 78,2% и превзошел GPT-4 в 54 из 57 категорий, продемонстрировав исключительные способности к многозадачному обучению.
Это уже слишком.
Прежде чем закончить,
Как используется цепочка мыслей в GPT-o1?
Chain of Thoughts — это метод оперативной инженерии, позволяющий LLM думать перед тем, как давать и выдавать. Так же, как человек может потратить время на то, чтобы глубоко подумать, прежде чем ответить на сложный вопрос, o1 следует структурированному пути рассуждений при решении проблем. Вот как это работает:
- Обучение с подкреплением: o1 обучается развивать и улучшать свои рассуждения, обучаясь методом проб и ошибок. Благодаря этому процессу модель со временем совершенствует свои стратегии мышления.
- Распознавание и исправление ошибок: по мере того, как o1 решает проблему, он лучше выявляет свои собственные ошибки и исправляет их, подобно тому, как человек может пересмотреть ошибочный подход.
- Разбивка сложных проблем: o1 учится разбивать сложные задачи на более простые и выполнимые шаги, что упрощает нахождение правильного решения.
- Адаптация стратегий: если текущий подход модели не работает, можно сменить тактику и попробовать другие методы для более эффективного решения проблемы.
Но есть и некоторые ограничения, которые мы подробно рассмотрели в посте ниже:
Я только что протестировал модель, и она выглядит просто монстром. Я просто надеюсь, что все эти цифры верны, а не теории заговора, как SORA или SearchGPT от OpenAI ранее
🚀 Решайте свои задачи с помощью последних самых дорогих версий искусственного интеллекта!
🚀 Бот ChatGPT по-русски умеет:
📃 Писать рефераты, курсовые, дипломы.
📐 Решать задачи.
👨🏻💻 Программировать.
🖼 Рисовать изображения.
📝 Писать за вас любые тексты.
🧠 Предлагать идеи на любые темы.
Жмите ChatGPT по-русски
Вчера попробовал с ним поработать. Взял пдф файл, где была таблица. Задача простая - перенести все в эксель. Подготовил эксель файл в качестве примера с уже заполненной строкой с этого пдф. Но не получилось у него, мурыжил его минут 20. Указывал где его ошибки и т.д. Но все ровно вставлял данные не туда.
Кому интересно, то может сам попробовать. Скачав пункты вредности 29 приказа (медицинские осмотры). Табличка не простая. И со своим замутом - есть пункты вредности где не прописаны врачи и процедур, что означает что это нужно протянуть до следующего пункта, где будет эта информация.
Комментарий удалён модератором
4o1 не умеет работать с файлами, потому не гони
Заявления о том, что GPT-o1 обладает интеллектом уровня доктора наук и превосходит GPT-4 по всем параметрам, вызывают большие сомнения.
в чем то превосходит, в чем то нет, что касается логических задач то конечно превосходит, но если речь идет о каких то литературных текстах то лучше конечно использовать GPT-4
Все вообще должно вызывать сомнения.
Желтый заголовок. o1 не является моделью gpt-5.