DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?
Я не верю тому, что они говорят, и вы тоже не должны верить. А если быть последовательным, то и вы не должны доверять моим словам. Но я докажу свои слова фактами и доказательствами.
Кто-то уже указывает на предвзятость и пропаганду, скрытые за обучающими данными этих моделей: кто-то тестирует их и проверяет практические возможности таких моделей.
Лично я получил еще одно подтверждение своему прогнозу: Китай выиграет ИИ-гонку!
Эта статья посвящена новому семейству рассуждающих моделей DeepSeek-R1-Zero и DeepSeek-R1: в частности, самому маленькому представителю этой группы.
Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! В боте есть GPTo1/Gemini/Claude, MidJourney, DALL-E 3, Flux, Ideogram и Recraft, LUMA, Runway, Kling, Sora, Pika, Hailuo AI (Minimax), Suno, синхронизатор губ, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
DeepSeek-R1 с открытым исходным кодом и конкурирует с моделью o1 от OpenAI
В сообществе Generative AI поднялась шумиха после того, как лаборатория DeepSeek-AI выпустила свои рассуждающие модели первого поколения, DeepSeek-R1-Zero и DeepSeek-R1. Сейчас уже накопилось столько хвалебных отзывов, но и столько критики, что можно было бы написать целую книгу.
Кстати, название этого раздела взято прямо с официального сайта DeepSeek. Для меня это все еще претензия.
Deepseek-R1 - это модель Mixture of Experts, обученная с помощью парадигмы отражения, на основе базовой модели Deepseek-V3. Это огромная модель, с 671 миллиардом параметров в целом, но только 37 миллиардов активны во время вывода результатов.
Согласно их релизу, 32B и 70B версии модели находятся на одном уровне с OpenAI-o1-mini. А вот и настоящее достижение (на мой взгляд...) этой китайской ИИ-лаборатории - они создали шесть других моделей, просто обучив более слабые базовые модели (Qwen-2.5, Llama-3.1 и Llama-3.3) на R1-дистиллированных данных.
Если вы не понимаете, о чем идет речь, то дистилляция - это процесс, когда большая и более мощная модель «обучает» меньшую модель на синтетических данных.
Но пробовали ли вы их?
Я протестировал сам, и вот что я могу вам сказать. Все логи и код для самостоятельного запуска находятся в моем репозитории на GitHub.
Вот результаты моего личного бенчмарк-теста
Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети и на канал с гайдами и советами по работе с нейросетями - я стараюсь делиться только полезной информацией.
Рассуждающие модели
Начало моделей Reasoning - это промпт Reflection, который стал известен после анонса Reflection 70B, лучшей в мире модели с открытым исходным кодом. Обучается с помощью Reflection-Tuning - техники, разработанной для того, чтобы дать возможность LLM исправить свои собственные ошибки.
Это довольно недавняя тенденция как в научных работах, так и в техниках промпт-инжиниринга: мы фактически заставляем LLM думать. Если говорить точнее, генеративные ИИ-модели являются слишком быстрыми!
Генерация и предсказание следующего токена дает слишком большое вычислительное ограничение, ограничивающее количество операций для следующего токена количеством уже увиденных токенов.
В этой замечательной статье "Think before you speak: Training Language Models With Pause Tokens" предлагается добавить так называемый токен <пауза> как во время предварительного обучения, так и во время вывода, чтобы дать модели больше времени на „размышление“. И результаты поражают!
Мы эмпирически оцениваем обучение с паузами на моделях декодера с параметрами 1B и 130M с предварительным каузальным обучением на C4, а также на последующих задачах, включающих рассуждения, ответы на вопросы, общее понимание и запоминание фактов. Наш основной вывод заключается в том, что задержки во времени вывода показывают прирост, когда модель как предварительно обучена, так и тонко настроена с помощью задержек. Для модели 1B мы наблюдаем прирост в 8 из 9 задач, наиболее заметным из которых является прирост в 18 % баллов EM в задаче QA в SQuAD, 8 % в CommonSenseQA и 1 % точности в задаче рассуждения в GSM8k.
Изначально Reflection 70B обещали еще в сентябре 2024 года, о чем Мэтт Шумер сообщил в своем твиттере: его модель, способная выполнять пошаговые рассуждения. По словам автора, техника, лежащая в основе Reflection 70B, простая, но очень мощная.
Современные LLM склонны к галлюцинациям и не могут распознать, когда они это делают. Reflection-настройка позволяет LLM признавать свои ошибки и исправлять их, прежде чем ответить.
Модель доступна на Hugging Face Hub и была обучена с помощью Llama 3.1 70B Instruct на синтетических данных, сгенерированных Glaive. По всей видимости, все похвалы должны быть отданы специальной технике промптов. Давайте посмотрим:
Вот это да. Похоже, что просьба к модели подумать и поразмыслить, прежде чем выдать результат, расширяет возможности рассуждения и уменьшает количество ошибок.
DeepSeek-R1 - это не то же самое
Эти модели размышляют «вслух», прежде чем сгенерировать конечный результат: и этот подход очень похож на человеческий.
Правда, парадигма Reflection положила начало этому процессу (документ, правда, датируется 2023 годом...), но DeepSeek придерживается другого подхода:
В этой работе мы делаем первый шаг к улучшению способности языковых моделей к рассуждениям с помощью чистого обучения с подкреплением (RL). Наша цель - исследовать потенциал языковых моделей в развитии способности к рассуждениям без каких-либо контролируемых данных, сосредоточившись на их саморазвитии в процессе чистого RL. - из источника
Модель проходит посттренинг с масштабированием времени вывода за счет увеличения длины процесса рассуждений Chain-of-Thought. Это реальная тенденция последнего времени: в последнее время посттренинг стал важным компонентом полного цикла обучения. Было показано, что оно повышает точность решения задач рассуждения, согласуется с социальными ценностями и адаптируется к предпочтениям пользователя, при этом требуя относительно минимальных вычислительных ресурсов по сравнению с предварительным обучением.
Но я должен сказать: это действительно раздражает!
Раздражающие и многословные ответы
Может быть, это действительно хорошая идея - показать лимиты и шаги, которые делает большая языковая модель, прежде чем прийти к ответу (как процесс DEBUG в тестировании программного обеспечения). Но на каждое взаимодействие, даже тривиальное, я получаю кучу (бесполезных) слов из цепочки размышлений.
Если я поприветствую модель:
Как видите, перед любым ответом модель включает между тегами <think></think> свой процесс рассуждения.
В моем бенчмарк тесте есть один промпт, часто используемый в чат-ботах, где я прошу модель прочитать текст и сказать «Я готов» после его прочтения.
Кто, просил тебя подводить итоги? Скажи мне, что готов, и все.
Я немного эмоционально выражаюсь, но только для того, чтобы прояснить ситуацию. На самом деле эту модель можно с успехом и хорошими результатами использовать в задачах по извлечению дополненной информации (Retrieval Augmented Generation).
Для примера выше (и следующего) весь используемый контекст - это выдержка из потрясающей статьи о Китае на Medium:/
Хорошо подходит для RAG и достоверности
Из-за всего процесса рассуждений модели Deepseek-R1 действуют как поисковые машины во время вывода, а информация, извлеченная из контекста, отражается в процессе <think></think>.
Вот пример, взятый из результатов моих сравнительных тестов: жирным шрифтом выделены некоторые ссылки на контекст, извлеченные моделью во время масштабирования времени вывода:
👨💻 > Reply to the question only using the provided context. If the answer is not contained in the text say "unanswerable".
question: what China achieved with it's long-term planning?
[context]One of the things everybody in the West knows about China is that it is not a [text from https://medium.com/enrique-dans/when-china-understands-the-logic-of-renewable-energy-8c45947fcf67]... l be showing the West the way forward.[end of context]
answer:
💻 > <think>Okay, I need to figure out what China achieved with its long-term planning based on this context. Let me read through it again.
The **context mentions that China doesn't have a democracy but has a regime run by the Chinese Communist Party without primary elections. It talks about the advantages of their system, like not needing elections and being able to plan for the future without fear of change**.
Then it says they reached peak carbon dioxide emissions in 2023 and are lowering them in 2024 with renewable energy. This is a significant achievement because it's something Western countries haven't achieved yet, which makes China's approach unique.
Also, **the context mentions that China and India were polluters before but now offer a model for transitioning to energy. It suggests that their long-term planning could be seen as a comparative advantage in business terms.**
So putting it all together, I think the main achievement is their ability to manage carbon emissions effectively through renewable energy and setting peak levels, which is something Western countries haven't done yet.</think>
China achieved its long-term planning by successfully managing carbon emissions through renewable energy initiatives and setting peak levels for 2023. This unique approach sets a new benchmark in environmental management, demonstrating China's ability to transition to cleaner energy sources effectively.
Поэтому лучшим вариантом использования моделей Reasoning, на мой взгляд, является приложение RAG: вы можете поместить себя в цикл и проверить как часть поиска, так и генерацию.
Миф о непредвзятых моделях
Я буду откровенен. Предвзятость или неполиткорректность моделей, которые выдают расистские или даже идеологические ответы... жестко заложена в каждой языковой модели в мире.
И, если честно, даже в OpenAI они американизированы! И поскольку я не из США, то могу сказать, что надежда на модель «Бог любит всех» - это антиутопия сама по себе.
Даже мы предвзяты! И именно мы кормим данными тренировочные и посттренировочные модели. Я предпочитаю 100% ответ, который мне не нравится или с которым я не согласен, чем вялый ответ ради инклюзивности.
А вы?
Теперь пришло время проверить это самостоятельно. В следующем разделе вы найдете краткое руководство, которое поможет вам подготовиться за 5 минут.
Попробуйте сами
Я создал быстрый репозиторий на GitHub, чтобы помочь вам запустить модели DeepSeek-R1 на вашем компьютере. Он базируется на llama.cpp, так что вы сможете запустить эту модель даже на телефоне или ноутбуке с низкими ресурсами (как у меня).
Клонируйте репозиторий для ускорения работы:
Войдите в каталог, создайте виртуальную среду и установите единственный необходимый нам пакет: openai.
Чтобы быть 🤔😅 инклюзивными (для всех видов оборудования), мы будем использовать двоичные файлы для поддержки AXV2 из релиза b4539 (тот, который был доступен на момент написания этой новости).
Обратите внимание, что при клонировании репозитория все поддиректории уже созданы. А основной каталог проекта будет называться Deepseek-R1-qwen1.5B
Распакуйте все файлы из архива llama-b4539-bin-win-vulkan-x64.zip в каталог llamacpp
- Скачайте GGUF из репозитория Bartowski, я использовал DeepSeek-R1-Distill-Qwen-1.5B-Q6_K.gguf. Сохраните файл GGUF в подкаталоге llamacpp\model.
Мы используем стратегию двух окон: в первом терминале запускается сервер API, совместимый с openAI, а во втором - файл python.
Откройте окно терминала в подкаталоге llamacpp и выполните команду
Что касается среды python, которая вам нужна:
- Создайте виртуальную среду и активируйте ее
Здесь я просто представлю вам обзор основной части взаимодействия между приложением и API-сервером:
Основных моментов, после импорта, три:
- Стоп-токен для этой модели - <´¢£endÔûüofÔûüsentence´¢£>: это токен EOS для модели R1.
- Мы используем библиотеку sys для ввода нескольких строк: чтобы завершить промпт, нажмите Ctrl+D в Unix или Ctrl+Z в Windows
- Если вы наберете !quit, Enter, а затем Ctrl+Z, вы выйдете из чата.
Теперь настало время для вызова API к модели и вывода потоковой информации в терминал:
Из терминала с активированным venv выполните команду
Как обычно, нет лучшего способа проверить возможности модели, чем попробовать ее самому.
Модели DeepSeek-R1, надо сказать, весьма впечатляют. Наверное, я бы никогда не стал пробовать более крупные из дистиллированных версий: мне не нужен режим verbose, и, наверное, ни одной компании он тоже не нужен для интеллектуальной автоматизации процессов.
Но парадигма Reflection - это удивительная ступенька в поисках AGI: как будет развиваться (или эволюционировать) архитектура Transformers в будущем?
Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! В боте есть GPTo1/Gemini/Claude, MidJourney, DALL-E 3, Flux, Ideogram и Recraft, LUMA, Runway, Kling, Sora, Pika, Hailuo AI (Minimax), Suno, синхронизатор губ, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!
Источник статьи на английском - здесь