Человек написал сервис, который выдает модельку с квантизацией Q1 судя по объему и вопрос зачем? В…

Артур Томилко

09.12.2024

Сотрудник Yandex Research разработал сервис для запуска большой языковой модели Llama 3.1 «на обычном компьютере»

Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.

akdengi

09.12.2024

Человек написал сервис, который выдает модельку с квантизацией Q1 судя по объему и вопрос зачем? В gguf формате спокойно можно скачать ее просто так. Смысл сжимать Lllama 3.1 - 8b для Mac-а или для ПК с GPU нет никакого, так как там спокойно крутятся Q5-Q6 сжатые модельки на 5-6 Гб (да и Q8 можно запустить). А нам Mac так вообще все что влазит в оперативку.

Скорость работы той же Llama даже с меньшем сжатием (та же ollama предлагает по дефолту модель 8b-instruct-q4_K_M) составляет на Mac или ПК даже с 3060/4060 с 8 гигами порядка 20-25 токенов в секунду на отклик (на промте еще больше) и это при контекте в 8К.

Ответить