xAI выпустила Grok-1 - крупнейшую LLM с открытым исходным кодом: что это такое и как пользоваться нейросетью
Компания Илона Маска по разработке искусственного интеллекта xAI опубликовала весовые коэффициенты и архитектуру своей модели Grok-1, состоящей из 314 миллиардов параметров, под лицензией Apache 2.0.
Это последовало за обещанием Маска в прошлый понедельник сделать Grok свободно доступной для общественности. Как человек, внимательно следящий за развитием событий в области ИИ, я должен сказать, что это огромный шаг вперед в плане открытости и доступности.
Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Что такое Grok?
Grok - это огромная языковая модель с 314 миллиардами параметров, что делает ее самой большой из доступных на данный момент моделей с открытым исходным кодом. Для сравнения, это более чем в два раза больше, чем GPT-3 от OpenAI, которая считалась прорывом, когда была выпущена в 2020 году.
На графике, которым поделился пользователь X Эндрю Кин Гао, можно увидеть, насколько огромны размеры Grok по сравнению с конкурентами.
Но Grok не просто больше, он также использует архитектуру Mixture-of-Experts (MoE), позволяющую ему стратегически активировать подмножества своих параметров для различных задач. Теоретически это делает его более эффективным и адаптируемым по сравнению с традиционной моделью.
Вот краткое описание релиза Grok-1
- 314B-параметрическая модель Mixture-of-Experts с 25 % весов, активных на определенном токене.
- Базовая модель обучена на большом количестве текстовых данных и не настраивается под конкретную задачу.
- 8 экспертов (2 активных)
- 86 миллиардов параметров
- Лицензия Apache 2.0
- Описание: https://x.ai/blog/grok-os
- Код: https://github.com/xai-org/grok-1
Для получения обновлений следите за Grok на X.
Как установить Grok
Инструкции по загрузке и запуску Grok-1 описаны в этом репозитории GitHub. Клонируйте репозиторий на свой локальный компьютер.
Скачайте грузы с HuggingFace или Academic Torrents и поместите их в каталог "checkpoints".
Кстати, некоторые люди задаются вопросом, почему весы выложены через magnet-ссылку Bittorrent. Возможно, в будущем это станет нормой, поскольку модели становятся все больше и больше. К тому же, распространять 300 Гб данных через торрент дешевле, чем напрямую.
Откройте CLI и выполните следующую команду для проверки кода:
pip install -r requirements.txt
python run.py
Скрипт загружает контрольную точку и сэмплы из модели на тестовый вход.
Важно отметить, что из-за значительного размера модели Grok-1, содержащей 314 миллиардов параметров, для тестирования модели с помощью предоставленного кода примера необходима машина с достаточным объемом памяти GPU.
К сожалению, в настоящее время у меня нет доступа к оборудованию, способному запустить Grok локально, поэтому я не могу показать модель в действии.
Текущая реализация слоя Mixture-of-Experts (MoE) в репозитории xAI не оптимизирована для эффективности. Такая реализация была выбрана намеренно, чтобы сделать приоритетной проверку корректности модели и избежать необходимости разработки собственных ядер.
Как попробовать Grok
Если вам просто интересно, на что способен Grok, то в настоящее время он доступен на X, но только для пользователей Premium+, стоимость которого составляет 16 долларов в месяц.
Лицензирование Grok-1
Код и связанные с ним весовые части Grok-1 в этом выпуске лицензированы по лицензии Apache 2.0.
Лицензия Apache 2.0 - это разрешительная лицензия на свободное программное обеспечение. Лицензия разрешает использование программного обеспечения в любых целях, пользователи могут распространять его, изменять и распространять модифицированные версии программного обеспечения.
Лицензия распространяется только на исходные файлы в этом репозитории и модельные веса Grok-1.
Релиз Grok-1 произошел на фоне жарких дебатов о роли идеологии в разработке ИИ. Илон Маск не раз высказывал свои опасения по поводу "проснувшегося ИИ", приводя в пример Gemini от Google как пример системы ИИ, в которой приоритет отдается инициативам по разнообразию в потенциально опасной степени.
В этом контексте Grok представляет собой альтернативный подход, направленный на создание "основанного ИИ", который отвергает то, что Маск считает чрезмерной политкорректностью.
А как насчет вас? Предпочитаете ли вы такие системы ИИ, как Gemini от Google, в которых приоритет отдается определенным социальным и политическим ценностям, или предпочитаете более открытый подход, как Grok, который стремится свести к минимуму идеологические предубеждения в процессе обучения и получения результатов?
Есть аргументы в пользу обеих сторон. Несмотря на то, что открытая разработка такой мощной языковой модели сопряжена с определенными рисками, я считаю, что преимущества значительно перевешивают возможные недостатки.
Мне особенно интересно посмотреть, как такие методы, как LoRA и Dreambooth, расширят возможности тонкой настройки и кастомизации.
Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.
Источник статьи на английском - здесь.