Успех DeepSeek: китайская модель с открытым исходным кодом против ChatGPT
Китайская компания DeepSeek выпустила новую языковую модель DeepSeek V3, которая уже заявила о себе как о серьезном конкуренте ведущих мировых разработок, включая ChatGPT. Особенность DeepSeek V3 — открытый исходный код и возможность использовать модель в коммерческих проектах.
Всем привет! Меня зовут Константин Финк, я предприниматель с опытом более 15 лет. С помощью искусственного интеллекта полностью вышел из операционки, а бизнес стабильно растет и с каждым месяцем приносит все больше прибыли.
Лидерство в программировании
DeepSeek V3 показывает выдающиеся результаты в большинстве стандартных тестов для языковых моделей. Особенно заметен её успех в программировании: в бенчмарке Aider Polyglot, который проверяет способность ИИ создавать интегрируемый в существующие системы код, модель уступает только последней версии OpenAI.
Эффективность и масштаб
Успех DeepSeek V3 — это результат масштабного обучения:
- 14,8 трлн токенов данных, что эквивалентно 11,1 трлн слов.
- 671 млрд параметров — это делает модель крупнейшей в мире среди open source решений, обогнав Llama 3.1, у которой 405 млрд параметров.
Большой объем параметров позволяет модели лучше анализировать контекст и решать сложные задачи, хотя для её работы требуется мощное оборудование. Скорость разработки и её стоимость впечатляют: обучение на GPU Nvidia H800 заняло всего два месяца и обошлось компании в $5,5 млн.
Для сравнения, OpenAI на создание GPT-4 потратили около $78 млн.
Идеологическая привязка
Как китайская компания, DeepSeek обязана соблюдать нормы местного интернет-регулятора. Это накладывает ограничения на содержание ответов, особенно на китайском языке. Например, модель избегает прямых комментариев на темы, связанные с политикой КНР. Однако на русском и английском DeepSeek V3 проявляет большую свободу в обсуждении сложных вопросов, хотя иногда тоже уходит от ответов.
DeepSeek V3 — это не только технологический прорыв, но и вызов устоявшимся лидерам рынка. Открытый доступ к мощной модели открывает возможности для инноваций, а высокая эффективность разработки демонстрирует, как можно снизить издержки без ущерба для качества.
ПОЛЕЗНЫЕ ССЫЛКИ:
- Чтобы быть в курсе нейросетей и получать легкий контент Insta: @fink_gpt
- Telegram канал: https://t.me/chat_gpt_expert