Кошмар для бигтеха: как обучить большую ИИ-модель всем миром
Путь к победе в современной гонке за ИИ заключается в поиске новых эффективных архитектур, методов обучения, качественных данных (включая синтетические) и вычислительных ресурсов.
Когда мы слышим про «обучение больших ИИ-моделей» обычно представляем громадный кластер из видеокарт, который стоит миллиарды долларов и по карману лишь топовым корпорациям. Более того, такой подход опасен утечкой данных и усиливает «концентрацию власти», ведь широкая общественность не участвует в подготовке данных для обучения.
На этом фоне появляется децентрализованное обучение: вместо одного суперкластера ресурсы и данные распределяются по множеству независимых узлов. Каждый узел хранит свои данные, обучает локальную версию модели и периодически синхронизируется с другими. Новые узлы могут подключаться «на лету», что обеспечивает гибкое масштабирование и независимость от единого дата-центра.
Университеты, стартапы и энтузиасты со всего мира способны собрать модель, сопоставимую по качеству с решениями крупных компаний. Кажется, привычная монополия бигтеха на гигантские вычислительные мощности может разрушиться.
Наиболее известный метод децентрализованного обучения — федеративное обучение, которое Google впервые применил для персонализированных моделей на смартфонах для предиктивного ввода с клавиатуры. Сервер рассылает начальную модель на устройства, где она обучается на локальных данных, а назад отправляются только изменения весов. Сервер усредняет полученные обновления и формирует «глобальную модель». Приватность при этом сохраняется, поскольку исходные данные никуда не передаются.
Но есть и более «экзотические» варианты: полная децентрализация без единого сервера (узлы синхронизируются по схеме peer-to-peer) или блокчейн-решения со «смарт-контрактами», которые регистрируют вклад каждого участника и гарантируют распределение вознаграждений.
Недавно группа энтузиастов представила INTELLECT-1 — децентрализованно обученную языковую модель на 10 млрд параметров. Она показала результаты, сопоставимые с решениями аналогичного размера, обученными классическим путем. Хотя проект пока пилотный, он подтверждает практичность и экономическую эффективность децентрализованного подхода.
Почему INTELLECT-1 интересен?
1. Участникам не нужно тратить миллионы долларов на единую инфраструктуру.
2. Проект ориентирован на открытое сообщество и ценит коллективную ответственность при решении этических вопросов. Такая модель может стать основой для будущего AGI.
3. Каждый получает вознаграждение пропорционально предоставленным вычислительным мощностям.
Prime Intellect обучили INTELLECT-1 на 14 узлах, распределенных по трем континентам, с участием 30 независимых членов сообщества, предоставляющих вычислительные ресурсы.
Код обучения использует фреймворк Prime, масштабируемую распределенную систему для отказоустойчивого и высокопроизводительного обучения на ненадежных, глобально распределенных рабочих узлах.
Модель была обучена с использованием метода DiLoCo (Distributed Low-Communication Training). Судя по бенчмаркам, она оказалась в среднем примерно на уровне Llama 2 7B, но есть модели получше (Llama 3.1, Qwen 2.5), поэтому вряд ли кто-то будет ее использовать. Но все же для первого децентрализованного обучения такого масштаба результаты отличные.
В будущем Prime Intellect планируют расширить масштабы обучения, оптимизировать стек и добавить финансовую мотивацию для сообщества
Блокчейн добавляет новый уровень. Теоретически можно создать гигантскую сеть в форме ДАО (децентрализованной автономной организации), объединяющую GPU-фермы в единый «убер-кластер» без головной компании-владельца.
Так появилась AIArena — децентрализованная блокчейн-платформа для обучения ИИ. За семь месяцев она привлекла 603 узла, которые создали 18 656 моделей для 16 задач. Эти модели оказались эффективнее базовых, а механизм консенсуса в блокчейне обеспечил справедливое вознаграждение каждому участнику исходя из его вклада.
Разумеется, в децентрализованном обучении остаются нерешенные вопросы: например, как корректно синхронизировать множество узлов или что делать с «мусорными» данными отдельных участников. Однако эти проблемы в целом решаемы.
Объединив тысячи научных лабораторий, владельцев GPU-ферм и даже геймеров можно обучить большую модель без контроля корпораций. Снижая зависимость от дорогих дата-центров, ИИ-технологии становятся более доступными. И хотя децентрализованный ИИ еще не доминирует, он уже становится реальной альтернативой.
Возможно, через несколько лет громоздкие GPU-кластеры в одном здании будут казаться архаизмом. Но кто станет лидером в эпоху децентрализованных суперкомпьютеров? Думаю появятся новые децентрализованные проекты, которые станут серьезным вызовом для текущих бизнес-моделей крупных технологических компаний.
Не пора ли нам объединиться и покончить с монополией бигтеха?
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.