INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров.
Prime Intellect (https://www.primeintellect.ai/) объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления.
Процесс построен на опубликованном (https://www.primeintellect.ai/blog/opendiloco) ранее OpenDiLoCo (https://arxiv.org/pdf/2407.07852) — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров.
Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане (https://www.primeintellect.ai/blog/introducing-prime-intellect) Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных.
Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций.
▶Детали проекта INTELLECT-1
INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных (https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407), который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн.
В обучении используется планировщик скорости обучения WSD (https://arxiv.org/abs/2405.18392) , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения.
▶Prime: фреймворк для децентрализованного обучения.
Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности:
🟢ElasticDeviceMesh: распределенная абстракция для отказоустойчивой связи;
🟢Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки;
🟢Восстановление чекпоинтов в реальном времени;
🟢Пользовательское ядро Int8 All-Reduce: квантование псевдоградиентов;
🟢Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN.
🟢Реализация PyTorch FSDP2 / DTensor ZeRO-3: шардинг весов модели.
🟢Выгрузка тензоров в CPU.
Дорожная карта Prime:
🟠Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода;
🟠Разработка системы безопасного и проверяемого вклада в децентрализованное обучение;
🟠Создание фреймворка для инициации децентрализованного цикла обучения.
Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете (https://app.primeintellect.ai/) Prime Intellect или подключив в нем сторонние облачные сервисы GPU.
Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму (https://form.typeform.com/to/ypVmxqVe). Посмотреть статус обучения INTELLECT-1 можно по ссылке (https://app.primeintellect.ai/intelligence?_gl=1*ciig7n*_gcl_au*MTU1MDM5MzY3LjE3Mjg3MjE2OTI).
▶Локальная установка и запуск фреймворка Prime:
Install uv curl -LsSf https://astral.sh/uv/install.sh | sh source $HOME/.cargo/env
Set up the env uv venv source .venv/bin/activate uv sync --extra all uv pip install flash-attn --no-build-isolation git submodule update --init --recursive
Running DiLoCo: # !! Single GPU setups are currently not supported !! # Using 2 GPUs ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml
Using 4 GPUs ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml
📌Лицензирование кода : Apache 2.0 License.
🟡Страница проекта (https://www.primeintellect.ai/blog/intellect-1#launch-partners-and-contributors) 🟡Документация (https://docs.primeintellect.ai/introduction) 🟡Arxiv (https://arxiv.org/pdf/2407.07852) 🟡Датасет (https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407) 🟡Сообщество в Discord (https://discord.gg/ZTFydGWPKj) 🟡Дашборд прогресса (https://app.primeintellect.ai/intelligence?_gl=1*ciig7n*_gcl_au*MTU1MDM5MzY3LjE3Mjg3MjE2OTI) 🖥GitHub (https://github.com/PrimeIntellect-ai/Prime)