Ну тут странная ситуация. Дело в том что для LLM невозможно предсказать длину ответа заранее. А в течении генерации каждого символа из ответа карта жрет электричество. Те невозможно предположить сколько будет стоить обработка конкретного запроса только посмотрев на него.
Пробовали по количеству токенов оплату делать, но если для апи-использования это ещё как то работало, то для режима прямого общения - человек просто не способен посчитать токены в запросе и ответе.
В общем вопрос про ценообразование тут открытый.
Как человек который использует крипту уже давно для ЗП и всяких вложений могу сказать такое: да тебе придется конвертировать крипту в Фиат к моменту оплаты, но это будет выгоднее чем, к примеру, в рублях получить ЗП
Да это ебула. Чаще всего это те кто с обычным онлайн-банкингом могут разобраться.
8 лет получаю за в крипте и все жду "когда лопнет")))))
Ещё exudos
Это не сложнее обычного онлайн бпнкинга. Даже моя мама (70+лет) сама смогла разобраться
Это не получится. Тут траблы в том что запросы сформулированы на естественном языке. Но еще больше проблем создает то что на один и тот-же вопрос (прям буква-в-букву) модель будет отвечать по разному в зависимости от прошлых сообщений в чате.
А теперь на секунду представим что у нас был настолько длинный диалог что у модели уже занято 2\3 от доступного контекста. И пользователь просит сделать максимально компактную выдержку из всего диалога выше что-бы модель продолжала помнить контекст (я довольно часто такой прием использую когда надо убедиться что диалог не заходит за границы контекста). Сколько вычислений займет такой запрос?
Вообще до LLM был IBM Watson (экспертная система) которая и базировалась на статичных базах знаний (не путать с базами данных). Но он проиграл в гибкости и удобстве использования и в итоге тоже прикрутили сетки.