Запускаем LLaMa 2 70B GPTQ на двух GPU 24 Gb (для новичков)

Из-за огромного размера GPT-моделей даже для вывода требуется несколько производительных GPU. Для ускорения созданы разные методы квантизации (простыми словами - сжатия), которые существенно снижают требования к видеопамяти.