От o1 от OpenAI до DeepSeek-R1: что такое «рассуждающие» модели и как с ними общаться
Чтобы они лучше помогали со сложными задачами.
Содержание
Что за модели рассуждений и как они «думают»
- Как объясняют разработчики o1 от OpenAI, подобные модели выстраивают «длинную внутреннюю цепочку рассуждений», перед тем как ответить пользователю.
- Помимо стандартных токенов для обработки запроса и выдачи ответа, они используют токены «логического вывода». Благодаря этому модели могут проверить себя, проанализировать, насколько верно поняли запрос, и рассмотреть несколько подходов к решению задачи. Из-за двойной работы модели тратят больше вычислительных мощностей и стоят дороже при запуске через API.
- Разработчики советуют использовать модели для программирования, научных исследований и планирования рабочих процессов.
- С появлением возможности видеть, как ИИ пришёл к своим выводам, люди могут начать больше доверять его ответам и прогнозам, пишет Zdnet.
Как общаться с моделями, чтобы их размышления приводили к лучшему результату
Бен Хайлак, бывший разработчик в SpaceX и команде по созданию Apple Vision Pro, сначала был недоволен работой модели o1: она выдавала «простыню из противоречивой тарабарщины» с диаграммами и списками «за» и «против».
Ниже несколько советов, которые помогли Хайлаку увеличить продуктивность рассуждающей модели:
- Писать не короткие промпты, а брифы. Разделить запрос на подпункты: что нужно сделать; в каком формате должен быть результат; на что обратить особое внимание, чтобы избежать ошибок; контекст. OpenAI также советует визуально структурировать запрос, добавив подзаголовки.
- «Относиться к o1 как к новому сотруднику». Модель сможет предложить решение рабочей проблемы, но для этого нужно объяснить, чем занимается компания, насколько она большая, расписать специфическую для сферы терминологию, рассказать, какие варианты уже пробовали и что не сработало. Хайлак предлагает надиктовывать этот «экскурс» в голосовые заметки и вставлять расшифровку в запрос.
Запрос: «Как оптимизировать этот SQL-запрос?».
Как его улучшить: «У нас PostgreSQL база данных с миллионом записей. Мы используем следующий SQL-запрос <код>, но он работает медленно. Мы уже попробовали создать индексы и переписать запрос с CTE, но это не помогло. Как можно его ускорить?».
- «Тонна контекста». «Что бы вы ни понимали под "тонной" — дайте в десять раз больше». Чем больше деталей, тем лучше модель разберётся в проблеме.
Запрос: «Почему этот API-запрос не работает?».
Как его улучшить: «Я использую API OpenWeather, отправляю следующий запрос: В ответе я получаю 401 Unauthorized. API-ключ действителен, я его проверял. В чем может быть проблема?».
- Чётко сформулировать цель и не говорить модели, как её достичь. Обычные модели работают лучше, если прописать в запросе «ты — опытный инженер-программист». Но Хайлак пишет, что o1 справлялась, если сама думала, как ей решать проблему. Специалисты OpenAI также говорят, что подсказки вроде «решай задачу пошагово» снижают производительность.
Запрос: «Ты программист и эксперт по Python, подумай над этим медленно и внимательно».
Как его улучшить: «Мне нужен скрипт на Python, который берёт CSV-файл, фильтрует данные по колонке «цена» (оставляет только значения выше 100), затем считает среднюю цену и записывает результат в новый CSV».
- Знать, что модель делает хорошо. По мнению Хайлака, модель рассуждений умеет: программировать и собирать разные наработки в один файл, «генерировать почти целую статью» с примерами, когда объясняет сложные инженерные концепции, ставить медицинские диагнозы (vc.ru не рекомендует заниматься самолечением и при необходимости проконсультироваться с врачом).
Автор блога «Denis Sexy IT» Денис Ширяев рассказал, что его терапевт похвалил программу для лечения хронических болей в шее, которую составила o1 Pro, а зажим в мышцах ушёл. Ширяев описал модели историю болезни и попросил составить комплекс упражнений для восстановления со ссылками на YouTube-ролики.
Какие компании уже выпустили рассуждающие модели
OpenAI
Первую рассуждающую модель o1 представили в сентябре 2024 года. Она доступна только подписчикам платных планов Plus и Pro. В января 2025-го вышла o3-mini, её можно попробовать бесплатно, выбрав Reason в поле ввода запросов. Она поддерживает три варианта рассуждения с разной скоростью: низкий, средний и высокий. На низком работает, как o1-mini.
DeepSeek
Китайская компания выпустила превью модели R1 в ноябре 2024-го, а в январе 2025-го — её полную версию. Она бесплатная и работает на сайте и в приложениях по кнопке DeepThink.
Модель DeepSeek подробнее передаёт свои «мысли», пишет Zdnet. Другие нейросети скорее показывают ход решения.
Китайская Alibaba
Gemini 2.0 Flash Thinking представили в декабре 2024 года. Она доступна в чат-боте Gemini бесплатно. 5 февраля 2025 года компания запустила версию Pro, она есть только в AI Studio.
В октябре 2024 года «Сбер» и «Яндекс» выпустили новые ИИ-модели, которые, по заявлениям компаний, «умеют приходить к ответу через цепочку рассуждений».