📚 Исследователи из Стэнфорда протестировали языковые модели на исторических экзаменах. Результат оказался неожиданным: AI справился лишь с 46% вопросов. Оказалось, что языковые модели не могут понять контекст и тон вопросов, что приводит к ошибкам. Подробнее об этом в статье на Habr.