Запускаем LLaMa 2 70B GPTQ на двух GPU 24 Gb (для новичков)

Из-за огромного размера GPT-моделей даже для вывода требуется несколько производительных GPU. Для ускорения созданы разные методы квантизации (простыми словами - сжатия), которые существенно снижают требования к видеопамяти.

Сгенерировано DALL·E 3
33

Он жрет столько памяти только за один промт? Или структура сама весит столько?

Ответить