Qwen3 вышла - вынесла ChatGPT-o1 вперед ногами. Гайд с практикой
Бесплатная модель Qwen3-235B превосходит лучшую на сегодняшний день ChatGPT-o1(платная)
Метрики в таблице, в прикрепленном фото
Читай больше о разработке нейросетей в бигтехе в моем телеграмм канале
Возможность reasoning-ответов
Reasoning - это технология, которая позволяет нейросети перед выдачей ответов самой нагенерировать предварительные размышления, токены, которые в дальнейшем улучшает ее ответЗа счет ризонинга модели отвечают сильно точнее, но это занимает больше времени
Как это выглядит на практике
Возможность поиска в интернете
При ответе, модель может воспользоваться поиском по интернет ресурсам, чтобы дать более точный ответ
Как включить эту функциональност?
Теперь модель при ответе будет аггрегировать информацию, которую прочитала на сайтах, что смогла найти
Теперь техническая часть
Alibaba выпустила обновлённую версию Qwen 3 , которая на бенчмарках превзошла ChatGPT-o1 и DeepSeek-R1 , хотя пока уступает Google Gemini 1.5 Pro .
Благодаря функции reasoning-режима модель стала точнее в ответах и гибче в решении задач. Как работает reasoning и зачем он нужен — расскажем в следующих постах 💡
Кратко о ключевых изменениях:
🟠Мультиязычная поддержка - модель поддерживает 119 языков и диалектов , включая индоевропейские, сино-тибетские, афро-азиатские и другие группы.
🟠 Этапы предобучения - обучена на 36 триллионах токенов (вдвое больше, чем Qwen2.5), использовались данные из интернета, PDF-документов (с текстом, извлеченным через Qwen2.5-VL) и синтетические данные (математика, кодирование, учебники).
🟠Гибридный подход к решению задач - Thinking Mode : пошаговое рассуждение для сложных задач (например, математика, программирование). Non-Thinking Mode : быстрые ответы для простых запросов.
🟠Эффективность и экономия ресурсов - Qwen3 Dense Base (1.7B–32B параметров) превосходит более крупные модели Qwen2.5 (3B–72B) в STEM, кодировании и логике. MoE-версии (Mixture of Experts) обеспечивают аналогичную производительность при использовании лишь 10% активных параметров , снижая затраты на обучение и вывод.
На фото выше видно, как модель начинает допридумывать слова, проводить размышление, чтобы итоговый ответ был точнее