Он жрет столько памяти только за один промт? Или структура сама весит столько?

07.10.2023

Запускаем LLaMa 2 70B GPTQ на двух GPU 24 Gb (для новичков)

Из-за огромного размера GPT-моделей даже для вывода требуется несколько производительных GPU. Для ускорения созданы разные методы квантизации (простыми словами - сжатия), которые существенно снижают требования к видеопамяти.