Наткнулся на интересное исследование от трио ученых из Стэнфорда. Оказывается, что поведение LLM моделей может изменяться всего за несколько месяцев. Причем в худшую сторону.
Даже если это так, то
- первое никому не нужно
- второе как бы очевидно
- третье: по каким критериям измерялось качество? там же не спроста отдельный GPT-4 сделали для кода (Code Interpreter)