DeepSeek-V2.5-1210: файнтюн базовой DeepSeek-V2.5.
Файнтюн модели DeepSeek-V2.5 с 236 млрд. параметров с улучшенными показателями в математических вычислениях, программировании, генерации текста и рассуждении. В модели также оптимизированы функции загрузки файлов и обобщения веб-страниц.
Точность решения задач с DeepSeek-V2.5-1210 на LiveCodebench выросла с 29,2% до 34,38% относительно родительской DeepSeek-V2.5, в математических тестах MATH-500 с 74.8% до 82.8%.
DeepSeek-V2.5-1210 поддерживает function calling и использует обновленный шаблон чата для расширения возможностей модели.
⚠ Чтобы использовать модель в инференсе с BF16 требуется 8 GPU c 80 GB VRAM каждый.
▶Пример инференса DeepSeek-V2.5-1210 на Transformers:
📌Лицензирование: MIT License.
Начать дискуссию