От o1 от OpenAI до DeepSeek-R1: что такое «рассуждающие» модели и как с ними общаться

Чтобы они лучше помогали со сложными задачами.

Что такое модели рассуждений
Советы, как общаться с моделями, от бывшего разработчика SpaceX и Apple
Какие модели протестировать

Как объясняют разработчики o1 от OpenAI, подобные модели выстраивают «длинную внутреннюю цепочку рассуждений», перед тем как ответить пользователю.
Помимо стандартных токенов для обработки запроса и выдачи ответа, они используют токены «логического вывода». Благодаря этому модели могут проверить себя, проанализировать, насколько верно поняли запрос, и рассмотреть несколько подходов к решению задачи. Из-за двойной работы модели тратят больше вычислительных мощностей и стоят дороже при запуске через API.

Пример того, как R1 проверяет себя: «Нужно убедиться, что нет других типов дилемм». Скриншот vc.ru

Разработчики советуют использовать модели для программирования, научных исследований и планирования рабочих процессов.
С появлением возможности видеть, как ИИ пришёл к своим выводам, люди могут начать больше доверять его ответам и прогнозам, пишет Zdnet.

Бен Хайлак, бывший разработчик в SpaceX и команде по созданию Apple Vision Pro, сначала был недоволен работой модели o1: она выдавала «простыню из противоречивой тарабарщины» с диаграммами и списками «за» и «против».

Длинный «противоречивый» ответ o1. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.latent.space%2Fp%2Fo1-skill-issue&postId=1796872" rel="nofollow noreferrer noopener" target="_blank">Бен Хайлак</a>

В январе 2025 года он написал, что стал использовать o1 ежедневно благодаря правильному промптингу. Про DeepSeek R1 он заметил: «Возможность видеть рассуждения — это революция, а скорость просто невероятная».

Ниже несколько советов, которые помогли Хайлаку увеличить продуктивность рассуждающей модели:

Писать не короткие промпты, а брифы. Разделить запрос на подпункты: что нужно сделать; в каком формате должен быть ответ; на что обратить особое внимание, чтобы избежать ошибок; контекст. OpenAI также советует визуально структурировать запрос, добавив подзаголовки.

Хайлак просит o1 составить топ пеших маршрутов. Затем — описать в ответе адреса, длину дистанции и прочее. Предупреждает: «убедись, что они действительно существуют». В последнем абзаце даёт контекст — свой опыт и предпочтения. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.latent.space%2Fp%2Fo1-skill-issue&postId=1796872" rel="nofollow noreferrer noopener" target="_blank">Бен Хайлак</a>

«Относиться к o1 как к новому сотруднику». Модель сможет предложить решение рабочей проблемы, но для этого нужно объяснить, чем занимается компания, насколько она большая, расписать специфическую для сферы терминологию, рассказать, какие варианты уже пробовали и что не сработало. Хайлак предлагает надиктовывать этот «экскурс» в голосовые заметки и вставлять расшифровку в запрос.

Запрос: «Как оптимизировать этот SQL-запрос?».
Как его улучшить: «У нас PostgreSQL база данных с миллионом записей. Мы используем следующий SQL-запрос <код>, но он работает медленно. Мы уже попробовали создать индексы и переписать запрос с CTE, но это не помогло. Как можно его ускорить?».
Источник: digitalkir

«Тонна контекста». «Что бы вы ни понимали под "тонной" — дайте в десять раз больше». Чем больше деталей, тем лучше модель разберётся в проблеме.

Запрос: «Почему этот API-запрос не работает?».
Как его улучшить: «Я использую API OpenWeather, отправляю следующий запрос: <...>. В ответе я получаю 401 Unauthorized. API-ключ действителен, я его проверял. В чём может быть проблема?».
Источник: digitalkir

Чётко сформулировать цель и не говорить модели, как её достичь. Обычные модели работают лучше, если прописать в запросе «ты — опытный инженер-программист». Но Хайлак пишет, что o1 справлялась, если сама думала, как ей решать проблему. Специалисты OpenAI также говорят, что подсказки вроде «решай задачу пошагово» снижают производительность.

Запрос: «Ты программист и эксперт по Python, подумай над этим медленно и внимательно».
Как его улучшить: «Мне нужен скрипт на Python, который берёт CSV-файл, фильтрует данные по колонке «цена» (оставляет только значения выше 100), затем считает среднюю цену и записывает результат в новый CSV».
Источник: digitalkir

Знать, что модель делает хорошо. По мнению Хайлака, модель рассуждений умеет: программировать и собирать разные наработки в один файл, «генерировать почти целую статью» с примерами, когда объясняет сложные инженерные концепции, ставить медицинские диагнозы (vc.ru не рекомендует заниматься самолечением, при необходимости лучше проконсультироваться с врачом).

Автор блога «Denis Sexy IT» Денис Ширяев рассказал, что его терапевт похвалил программу для лечения хронических болей в шее, которую составила o1 Pro, а зажим в мышцах ушёл. Ширяев описал модели историю болезни и попросил составить комплекс упражнений для восстановления со ссылками на YouTube-ролики.

Первую рассуждающую модель o1 представили в сентябре 2024 года. Она доступна только подписчикам платных планов Plus и Pro. В января 2025-го вышла o3-mini, её можно попробовать бесплатно, выбрав Reason в поле ввода запросов. Она поддерживает три варианта рассуждения с разной скоростью: низкий, средний и высокий. На низком работает, как o1-mini.

Ася Карпова

ChatGPT

4 февр

3D-пончики, симулятор воды и старая добрая «Змейка»: как пользователи тестируют навыки программирования o3-mini и DeepSeek-R1

Собрали несколько примеров из соцсетей.

Китайская компания выпустила превью модели R1 в ноябре 2024-го, а в январе 2025-го — её полную версию. Она бесплатная и работает на сайте и в приложениях по кнопке DeepThink.

Модель DeepSeek подробнее передаёт свои «мысли», пишет Zdnet. Другие нейросети скорее показывают ход решения.

R1-Lite «рассуждает» в режиме реального времени, задаётся вопросами и выбирает подходящий способ решения. o1-preview показывает только результат — как решала задачу. Источник: Zdnet

Компания тоже выпустила модель с возможностью рассуждений QwQ-32B-Preview в ноябре 2024 года. Она доступна в чат-боте Qwen Chat бесплатно.

Модель не всегда корректно прописывает ход решения на русском. Скриншот vc.ru

Gemini 2.0 Flash Thinking представили в декабре 2024 года. Она доступна в чат-боте Gemini бесплатно. 5 февраля 2025 года компания запустила версию Pro, она есть только в AI Studio.

Gemini 2.0 Flash Thinking решает задачу, складывая числа, которые изображены на бильярдных шарах на фотографии. Источник: менеджер по продукту AI Studio Логан Килпатрик

В октябре 2024 года «Сбер» и «Яндекс» выпустили новые ИИ-модели, которые, по заявлениям компаний, «умеют приходить к ответу через цепочку рассуждений».

#новости #deepseek #openai

От o1 от OpenAI до DeepSeek-R1: что такое «рассуждающие» модели и как с ними общаться

Содержание

Что за модели рассуждений и как они «думают»

Как общаться с моделями, чтобы их размышления приводили к лучшему результату

Какие компании уже выпустили рассуждающие модели

OpenAI

DeepSeek

Китайская Alibaba

Google