Сотрудник Yandex Research разработал сервис для запуска большой языковой модели Llama 3.1 «на обычном компьютере»

Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.

28
2

Например, на MacBook Pro с процессором M1 она составит около 3-4 символов в секунду.
Достаточно не плохой результат этот сервис выдает, но все равно как по мне еще очень далек от продвинутых языковых моделей