Суперкомпьютер с искусственным интеллектом Pioneer Cerebras представляет 7 языковых моделей

Pioneer Cerebras.
Pioneer Cerebras.

Компания Cerebras Systems, разработчик AI-суперкомпьютера Andromeda, представила семь новых открытых языковых моделей. Cerebras-GPT - это серия моделей, которые разработчики могут использовать для тренировки AI-моделей с меньшим энергопотреблением. Модели были созданы с использованием системы CS-2 от Cerebras, в которой используются некоторые из самых больших AI-чипов в мире.

Cerebras Systems.

Компания Cerebras, стартап, который создал один из самых мощных суперкомпьютеров в мире, представила семь открытых языковых моделей в рамках создания крупных языковых моделей.Семейство моделей Cerebras-GPT варьируется по размеру от 111 миллионов параметров до 13 миллиардов параметров.Модели были обучены с использованием формулы Chinchilla от DeepMind и разработаны так, чтобы их мог использовать каждый человек с меньшими затратами, так как они потребляют меньше энергии, чем любая другая публично доступная модель до сих пор, заявил стартап.

Cerebras решила создать и предложить эти открытые языковые модели, потому что она считает, что доступ к ним должен быть более открытым. "Последняя крупная языковая модель - GPT-4 от OpenAI - была выпущена без информации о ее архитектуре, обучающих данных, обучающем оборудовании или гиперпараметрах", - написал исследователь машинного обучения в Cerebras Нолан Дей в своем блоге.

Model AI
Model AI

Он отметил, что компании все чаще создают большие модели, используя закрытые наборы данных и предоставляют выходные данные модели только через доступ к API. "Чтобы LLM-технология стала открытой и доступной, мы считаем важным иметь доступ к передовым моделям, которые будут открытыми, воспроизводимыми и без лицензионных отчислений как для научных исследований, так и для коммерческих приложений".Наборы данных моделей пока не были общедоступны. Однако сами модели могут быть получены через HuggingFace.

Обучение моделей на самых больших чипах в мире.

Cerebras наиболее известна благодаря своим чипам WSE-2, являющимися одними из крупнейших чипов в мире по физическому размеру. Они напоминают 8-дюймовую плиту, каждая из которых содержит 2,6 трлн транзисторов и 850 000 "оптимизированных для ИИ" ядер.Система CS-2 компании Cerebras содержит целый ряд чипов WSE-2 для ИИ. Компания взяла 16 таких систем для своего ИИ-суперкомпьютера Andromeda. Представленный в ноябре прошлого года, Andromeda был разработан для значительного сокращения времени, затрачиваемого на обучение больших моделей языка.

WSE-2
WSE-2

Стартап утверждает, что суперкомпьютер может обрабатывать большие модели языка с огромными последовательностями, что обычным GPU просто невозможно сделать. В интервью AI Business в конце прошлого года CEO Cerebras Андрю Фелдман заявил, что Andromeda уже помогла в исследованиях COVID-19.

Стартап обратил свое внимание на большие модели языка, чтобы продемонстрировать возможности своей технологии.

Модели Cerebras-GPT были обучены на Andromeda. Компания заявляет, что смогла провести обучение "быстро, без необходимости использования традиционной инженерии распределенных систем и настройки параллельной модели на кластерах GPU". Кластер, использованный для обучения моделей Cerebras-GPT, также стал доступен в облаке через Cerebras AI Model Studio.

Cerebras утверждает, что самый простой способ масштабирования обучения ИИ - это использование параллелизма по данным. При масштабировании по данным модель копируется на каждом устройстве, а на этих устройствах используются разные партии обучения, после чего их градиенты усредняются. Дей говорит, что этот метод "не решает проблему размера модели - он не работает, если всю модель нельзя поместить на один GPU".

Он объяснил: «Общим альтернативным подходом является параллельная конвейерная модель, которая запускает разные уровни на разных графических процессорах в качестве конвейера. Однако по мере роста конвейера объем памяти активации возрастает квадратично с глубиной конвейера, и это может быть запрещено для больших моделей. Чтобы избежать этого, еще одним распространенным подходом является распределение слоев между GPU, называемое тензорным модельным параллелизмом, но это требует значительной коммуникации между GPU, что усложняет реализацию и может быть медленным".

"Из-за этих сложностей нет единого способа масштабирования на GPU-кластерах сегодня. Обучение больших моделей на GPU требует гибридного подхода со всеми формами параллелизма; реализации сложны и трудны в внедрении, и есть значительные проблемы производительности".

Вместо этого Cerebras GPT был обучен с использованием стандартного параллелизма по данным, совмещенного с системами CS-2 стартапа, что позволило использовать достаточное количество памяти для запуска больших моделей на одном устройстве без расщепления модели.

Демократизация больших моделей.

Значительное внимание уделяется крупными исследовательским лабораториям, которые разрабатывают языковые модели и в то же время утаивают информацию о том, как работает их базовая система. Например, OpenAI вызвала недовольство, представив GPT-4 в начале этого месяца, но не раскрыв никаких технических спецификаций, включая отсутствие ссылок на точные данные или подробные сведения о размерах.

Многие, включая исследователей AI из Стэнфорда, считают, что, поскольку OpenAI и другие компании не публикуют информацию о своих моделях, это затрудняет проведение исследований о потенциальных последствиях технологий.

Cerebras создала свои новые модели, чтобы обеспечить широкий доступ, сказав, что надеется, что эти модели будут «служить рецептом для эффективного обучения и справочником для дальнейших исследований в сообществе».

Начать дискуссию