Кто лучше решает задачи: DeepSeek или ChatGPT?

Впервые после релиза рассуждающих моделей обеих компаний состоялось серьезное мероприятие, и можно независимо оценить качество решений моделей.

🔥 Еще больше интересного в моем канале продуктовые штучки

Состоялось American Invitational Mathematics Examination (AIME), первая часть. Это олимпиадные задачами по математике. Напомню, что рассуждающие модели специально предназначены именно для узко специализированных задач, в том числе – по математике.

Результаты выложены на Matharena

Таблица показывает, как разные модели справились с олимпиадой. Каждая модель решала каждую задачу 4 раза (независимо от других своих попыток). Зелёный – модель справилась 4/4 раз, желтый – справилась 1 раз, красный — 0 раз из 4.

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fmatharena.ai%2F&postId=1800028" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

В колонке «Acc» отображена средняя точность моделей. В колонке Cost – стоимость рассуждений.

Как видим, модели OpenAI серьезно превосходят модели DeepSeek по уровню точности ответов.

Хотя по стоимости DeepSeek выигрывает; однако модель R1 «жрет» больше, чем o3-mini (хотя на то она и mini, обычная модель пожирает в 10 раз больше).

В тестировании также принимали участие модели QwQ-32B (модель от Alibaba, которая вышла в ноябре 2024), gemini-2.0-flash (от Google, вышла на днях), claude-3.5-sonnet (Anthropic).

Но все эти модели существенно проигрывают моделям DeepSeek и OpenAI по точности, хотя цена вычислений невысока. Однако модели не справились с задачами, и если так посмотреть, то затраты высокие.

Модель от Mistral не принимала участия, т.к. У них нет рассуждающей модели.

#openai #ииагентchatgpt #o3mini #DeepSeek #deepseekr1 #o13 #o3mini ##gemini #gemini2 #claude #claude3_5

Наташа Хазеева

ChatGPT

2 февр

Как получить максимум пользы от о3 mini ChatGPT и R1 Deepseek?

Это принципиально новые модели, которые нацелены на другой тип задач, нежели ставший уже привычным нам чат. А потому важно понимать, как с ними работать правильно, чтобы не разочароваться. Поделюсь секретами тех, кто уже успел набить шишки.

Иллюстрация Бена отличий в работе с моделями. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.latent.space%2Fp%2Fo1-skill-issue&postId=1788896" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />

Кто лучше решает задачи: DeepSeek или ChatGPT?

Кто судьи?

Каков результат?

Пожалуйста, поддержите меня, поставьте лайк! 🙏