Вышла новая версия китайской открытой LLM DeepSeek-V3, которая лучше о1 от OpenAI
26 декабря 2024 года китайская компания DeepSeek представила свою новую языковую модель DeepSeek-V3, которая стала настоящим прорывом в области искусственного интеллекта. Эта модель, обладающая 671 миллиардом параметров, не только превосходит многие существующие открытые модели, такие как Llama 3.1 и Qwen2.5, но и конкурирует с ведущими закрытыми моделями, включая GPT-4o и Claude-3.5-Sonnet128.
Ключевые особенности DeepSeek-V3
- Архитектура и параметрыDeepSeek-V3 построена на основе архитектуры Mixture of Experts (MoE), что позволяет активировать только 37 миллиардов параметров для обработки каждого токена, обеспечивая высокую эффективность и точность. Модель была предобучена на 14,8 триллионах токенов, что делает её одной из самых мощных в своём классе13.
- Скорость генерацииБлагодаря инновационным алгоритмам, DeepSeek-V3 генерирует текст со скоростью 60 токенов в секунду, что в три раза быстрее, чем у предыдущей версии DeepSeek-V2. Это значительно улучшает пользовательский опыт, делая взаимодействие с моделью более плавным и отзывчивым24.
- Эффективность обученияОбучение модели заняло всего 2,788 миллиона часов GPU на кластере с 2048 графическими процессорами H800, что обошлось компании в 5,57 миллиона долларов. Это значительно меньше, чем затраты на обучение других крупных моделей, таких как Llama 3.1, что делает DeepSeek-V3 экономически выгодным решением18.
Производительность и тестирование
DeepSeek-V3 продемонстрировала выдающиеся результаты в различных тестах:
- Математика: Модель показала лучшие результаты в американских и китайских математических соревнованиях, таких как AIME 2024 и CNMO 202437.
- Программирование: В тестах на алгоритмическое программирование, таких как Codeforces, DeepSeek-V3 значительно опередила конкурентов78.
- Обработка длинных текстов: В тестах на длинные тексты, таких как DROP и LongBench v2, модель также показала превосходные результаты710.
Открытость и доступность
DeepSeek-V3 полностью открыта для сообщества. Веса модели доступны на платформе Hugging Face, а исходный код опубликован на GitHub под лицензией MIT. Это позволяет разработчикам и исследователям использовать и адаптировать модель для своих нужд19.
API и ценообразование
DeepSeek также обновила свои API-услуги. В течение льготного периода до 8 февраля 2025 года стоимость использования API составляет 0,1 юаня за миллион входных токенов (при кэш-попадании) и 2 юаня за миллион выходных токенов. После окончания льготного периода цены будут повышены, но останутся конкурентоспособными25.
Заключение
DeepSeek-V3 — это не просто очередная языковая модель, а значительный шаг вперёд в развитии открытого ИИ. Её производительность, экономичность и доступность делают её привлекательным решением как для исследователей, так и для бизнеса. С выпуском DeepSeek-V3 компания подтвердила свою приверженность идеям открытости и долгосрочного развития в области искусственного интеллекта148.
Для более подробной информации о модели и её возможностях можно посетить официальный сайт DeepSeek: chat.deepseek.com.
Вот что пишет Andrej Karpathy в своем твиттере:
DeepSeek (китайская компания в области ИИ) сегодня впечатляет выпуском открытой модели LLM уровня мирового класса, обученной на смешном бюджете (2048 GPU за 2 месяца, $6 млн).
Для сравнения, считается, что такой уровень производительности требует кластеров с примерно 16 тысячами GPU, а те, которые разрабатываются сегодня, используют около 100 тысяч GPU. Например, Llama 3 405B использовала 30,8 миллиона GPU-часов, в то время как DeepSeek-V3, судя по всему, является более мощной моделью, затратив всего 2,8 миллиона GPU-часов (примерно в 11 раз меньше вычислительных ресурсов). Если модель также пройдет проверку на практике (например, рейтинги на LLM Arena еще продолжаются, мои первые тесты прошли хорошо), это будет очень впечатляющим примером исследований и инженерных решений при ограниченных ресурсах.
Означает ли это, что для создания передовых LLM не нужны большие кластеры GPU? Нет, но важно не растрачивать ресурсы впустую, и этот пример наглядно демонстрирует, что еще многое можно улучшить как в данных, так и в алгоритмах.
Очень приятный и детальный технический отчет, сейчас читаю.