От o1 от OpenAI до DeepSeek-R1: что такое «рассуждающие» модели и как с ними общаться

Чтобы они лучше помогали со сложными задачами.

Содержание

Что за модели рассуждений и как они «думают»

  • Как объясняют разработчики o1 от OpenAI, подобные модели выстраивают «длинную внутреннюю цепочку рассуждений», перед тем как ответить пользователю.
  • Помимо стандартных токенов для обработки запроса и выдачи ответа, они используют токены «логического вывода». Благодаря этому модели могут проверить себя, проанализировать, насколько верно поняли запрос, и рассмотреть несколько подходов к решению задачи. Из-за двойной работы модели тратят больше вычислительных мощностей и стоят дороже при запуске через API.
Пример того, как R1 проверяет себя: «Нужно убедиться, что нет других типов дилемм». Скриншот vc.ru
Пример того, как R1 проверяет себя: «Нужно убедиться, что нет других типов дилемм». Скриншот vc.ru
  • Разработчики советуют использовать модели для программирования, научных исследований и планирования рабочих процессов.
  • С появлением возможности видеть, как ИИ пришёл к своим выводам, люди могут начать больше доверять его ответам и прогнозам, пишет Zdnet.

Как общаться с моделями, чтобы их размышления приводили к лучшему результату

Бен Хайлак, бывший разработчик в SpaceX и команде по созданию Apple Vision Pro, сначала был недоволен работой модели o1: она выдавала «простыню из противоречивой тарабарщины» с диаграммами и списками «за» и «против».

Длинный «противоречивый» ответ o1. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.latent.space%2Fp%2Fo1-skill-issue&postId=1796872" rel="nofollow noreferrer noopener" target="_blank">Бен Хайлак</a>
Длинный «противоречивый» ответ o1. Источник: Бен Хайлак

В январе 2025 года он написал, что стал использовать o1 ежедневно благодаря правильному промптингу. Про DeepSeek R1 он заметил: «Возможность видеть рассуждения — это революция, а скорость просто невероятная».

Ниже несколько советов, которые помогли Хайлаку увеличить продуктивность рассуждающей модели:

  • Писать не короткие промпты, а брифы. Разделить запрос на подпункты: что нужно сделать; в каком формате должен быть результат; на что обратить особое внимание, чтобы избежать ошибок; контекст. OpenAI также советует визуально структурировать запрос, добавив подзаголовки.
Хайлак просит o1 составить топ пеших маршрутов. Затем — описать в ответе адреса, длину дистанции и прочее, а ещё убедиться, что они действительно существуют. В последнем абзаце даёт контекст — свой опыт и предпочтения. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.latent.space%2Fp%2Fo1-skill-issue&postId=1796872" rel="nofollow noreferrer noopener" target="_blank">Бен Хайлак</a>
Хайлак просит o1 составить топ пеших маршрутов. Затем — описать в ответе адреса, длину дистанции и прочее, а ещё убедиться, что они действительно существуют. В последнем абзаце даёт контекст — свой опыт и предпочтения. Источник: Бен Хайлак
  • «Относиться к o1 как к новому сотруднику». Модель сможет предложить решение рабочей проблемы, но для этого нужно объяснить, чем занимается компания, насколько она большая, расписать специфическую для сферы терминологию, рассказать, какие варианты уже пробовали и что не сработало. Хайлак предлагает надиктовывать этот «экскурс» в голосовые заметки и вставлять расшифровку в запрос.
Запрос: «Как оптимизировать этот SQL-запрос?».
Как его улучшить: «У нас PostgreSQL база данных с миллионом записей. Мы используем следующий SQL-запрос <код>, но он работает медленно. Мы уже попробовали создать индексы и переписать запрос с CTE, но это не помогло. Как можно его ускорить?».
Источник: digitalkir
  • «Тонна контекста». «Что бы вы ни понимали под "тонной" — дайте в десять раз больше». Чем больше деталей, тем лучше модель разберётся в проблеме.
Запрос: «Почему этот API-запрос не работает?».
Как его улучшить: «Я использую API OpenWeather, отправляю следующий запрос: В ответе я получаю 401 Unauthorized. API-ключ действителен, я его проверял. В чем может быть проблема?».
Источник: digitalkir
  • Чётко сформулировать цель и не говорить модели, как её достичь. Обычные модели работают лучше, если прописать в запросе «ты — опытный инженер-программист». Но Хайлак пишет, что o1 справлялась, если сама думала, как ей решать проблему. Специалисты OpenAI также говорят, что подсказки вроде «решай задачу пошагово» снижают производительность.
Запрос: «Ты программист и эксперт по Python, подумай над этим медленно и внимательно».
Как его улучшить: «Мне нужен скрипт на Python, который берёт CSV-файл, фильтрует данные по колонке «цена» (оставляет только значения выше 100), затем считает среднюю цену и записывает результат в новый CSV».
Источник: digitalkir
  • Знать, что модель делает хорошо. По мнению Хайлака, модель рассуждений умеет: программировать и собирать разные наработки в один файл, «генерировать почти целую статью» с примерами, когда объясняет сложные инженерные концепции, ставить медицинские диагнозы (vc.ru не рекомендует заниматься самолечением и при необходимости проконсультироваться с врачом).
Автор блога «Denis Sexy IT» Денис Ширяев рассказал, что его терапевт похвалил программу для лечения хронических болей в шее, которую составила o1 Pro, а зажим в мышцах ушёл. Ширяев описал модели историю болезни и попросил составить комплекс упражнений для восстановления со ссылками на YouTube-ролики.

Какие компании уже выпустили рассуждающие модели

OpenAI

Первую рассуждающую модель o1 представили в сентябре 2024 года. Она доступна только подписчикам платных планов Plus и Pro. В января 2025-го вышла o3-mini, её можно попробовать бесплатно, выбрав Reason в поле ввода запросов. Она поддерживает три варианта рассуждения с разной скоростью: низкий, средний и высокий. На низком работает, как o1-mini.

DeepSeek

Китайская компания выпустила превью модели R1 в ноябре 2024-го, а в январе 2025-го — её полную версию. Она бесплатная и работает на сайте и в приложениях по кнопке DeepThink.

Модель DeepSeek подробнее передаёт свои «мысли», пишет Zdnet. Другие нейросети скорее показывают ход решения.

R1-Lite «рассуждает» в режиме реального времени, задаётся вопросами и выбирает подходящий способ решения. o1-preview показывает только результат — как решала задачу. Источник: Zdnet
R1-Lite «рассуждает» в режиме реального времени, задаётся вопросами и выбирает подходящий способ решения. o1-preview показывает только результат — как решала задачу. Источник: Zdnet

Китайская Alibaba

Компания тоже выпустила модель с возможностью рассуждений QwQ-32B-Preview в ноябре 2024 года. Она доступна в чат-боте Qwen Chat бесплатно.

Модель не всегда корректно прописывает ход решения на русском. Скриншот vc.ru
Модель не всегда корректно прописывает ход решения на русском. Скриншот vc.ru

Google

Gemini 2.0 Flash Thinking представили в декабре 2024 года. Она доступна в чат-боте Gemini бесплатно. 5 февраля 2025 года компания запустила версию Pro, она есть только в AI Studio.

Gemini 2.0 Flash Thinking решает задачу, складывая числа, которые изображены на бильярдных шарах на фотографии. Источник: менеджер по продукту AI Studio Логан Килпатрик
Gemini 2.0 Flash Thinking решает задачу, складывая числа, которые изображены на бильярдных шарах на фотографии. Источник: менеджер по продукту AI Studio Логан Килпатрик

В октябре 2024 года «Сбер» и «Яндекс» выпустили новые ИИ-модели, которые, по заявлениям компаний, «умеют приходить к ответу через цепочку рассуждений».

59
4
1
57 комментариев