Человек написал сервис, который выдает модельку с квантизацией Q1 судя по объему и вопрос зачем? В gguf формате спокойно можно скачать ее просто так. Смысл сжимать Lllama 3.1 - 8b для Mac-а или для ПК с GPU нет никакого, так как там спокойно крутятся Q5-Q6 сжатые модельки на 5-6 Гб (да и Q8 можно запустить). А нам Mac так вообще все что влазит в оперативку.
Скорость работы той же Llama даже с меньшем сжатием (та же ollama предлагает по дефолту модель 8b-instruct-q4_K_M) составляет на Mac или ПК даже с 3060/4060 с 8 гигами порядка 20-25 токенов в секунду на отклик (на промте еще больше) и это при контекте в 8К.
Человек написал сервис, который выдает модельку с квантизацией Q1 судя по объему и вопрос зачем? В gguf формате спокойно можно скачать ее просто так. Смысл сжимать Lllama 3.1 - 8b для Mac-а или для ПК с GPU нет никакого, так как там спокойно крутятся Q5-Q6 сжатые модельки на 5-6 Гб (да и Q8 можно запустить). А нам Mac так вообще все что влазит в оперативку.
Скорость работы той же Llama даже с меньшем сжатием (та же ollama предлагает по дефолту модель 8b-instruct-q4_K_M) составляет на Mac или ПК даже с 3060/4060 с 8 гигами порядка 20-25 токенов в секунду на отклик (на промте еще больше) и это при контекте в 8К.