Квантизированные модели, сделанные для разных инструментов, таких как llama.cpp, AutoGPTQ, ExLlama, bitsandbytes будут отличаться по качеству и скорости работы. Например, в некоторых сравнениях GGML в llama.cpp показал более низкую перплексию, чем AutoGPTQ, ExLlama.
Впервые вижу что кто-то затрагивает тему что интеллект модели падает при кванте, хоть и говорят об этом. Есть какие-то примерные данные сколько теряется в процентах интеллекта у модели? От q8 до q4 к примеру. Если не ошибаюсь, это 10% до q4, и чем цифра ниже, тем сильнее падает производительность по схеме лавины.
Так же слышал что чем крупнее модель, тем её квант в более компактные варианты вредит ей меньше. Типо, квантовка 70b до q2 превращает её в овоща, а нового 180b Falcon страдает от этого на много меньше.
Речь в целом идёт об ggml и gguf. Только такие и могу запускать
По таблицам лидербордов и разным преплексити, там действительно малый процент отклонения. На мой субьективный взгляд, все эти значения метрик и тестов никогда не отвечают, а в какой момент модель просядет. Подозреваю, что даже 0.1% отклонения может где-то выстрелить плачевно в самом неожиданном месте. Нужно проводить тестирование в конкретных задачах.
Он жрет столько памяти только за один промт? Или структура сама весит столько?