Оценка всего диалога в целом полезна, потому что некоторые критерии оценки требуют весь диалог в качестве контекста. Представьте, что вы создаете чат-бота, чтобы помочь пользователям открыть банковский счет. Такой агент на основе LLM должен будет спросить имя пользователя, адрес, номер социального страхования (SSN) и другую информацию, но распространенная проблема, с которой вы можете столкнуться, заключается в том, что агент может забывать уже предоставленную пользователем информацию, что приводит к повторным вопросам и вызывает у пользователей раздражение.