Запускаем LLaMa 2 70B GPTQ на двух GPU 24 Gb (для новичков)

Из-за огромного размера GPT-моделей даже для вывода требуется несколько производительных GPU. Для ускорения созданы разные методы квантизации (простыми словами - сжатия), которые существенно снижают требования к видеопамяти.

Сгенерировано DALL·E 3
33

Впервые вижу что кто-то затрагивает тему что интеллект модели падает при кванте, хоть и говорят об этом. Есть какие-то примерные данные сколько теряется в процентах интеллекта у модели? От q8 до q4 к примеру. Если не ошибаюсь, это 10% до q4, и чем цифра ниже, тем сильнее падает производительность по схеме лавины.

Так же слышал что чем крупнее модель, тем её квант в более компактные варианты вредит ей меньше. Типо, квантовка 70b до q2 превращает её в овоща, а нового 180b Falcon страдает от этого на много меньше.

Речь в целом идёт об ggml и gguf. Только такие и могу запускать

Ответить

По таблицам лидербордов и разным преплексити, там действительно малый процент отклонения. На мой субьективный взгляд, все эти значения метрик и тестов никогда не отвечают, а в какой момент модель просядет. Подозреваю, что даже 0.1% отклонения может где-то выстрелить плачевно в самом неожиданном месте. Нужно проводить тестирование в конкретных задачах.

Ответить