Теория разума в больших языковых моделях

Теория разума – это способность понимать чувства, намерения, желания других людей и прогнозировать или объяснять их поведение. Важный аспект теории разума – понимание человеком того, что чувства другого могут отличаться от его собственных.
У людей эта способность развивается между тремя и пятью годами. А есть ли она у языковых моделей? На эту тему в 2024 году вышла статья «Can Large Language Models Adapt to Other Agents In-Context?» («Могут ли большие языковые модели адаптироваться к другим агентам в контексте?»). Рассмотрим ее подробнее.

Немного теории

Если спросить языковую модель о причинах, по которым она пришла к некому заключению, она ответит. Ответ буде�� выглядеть логично и убедительно, однако, скорее всего, на деле окажется далек от истины. Языковые модели учатся имитировать человеческую речь и подстраиваться под ту форму ответа, которую дал бы человек. Однако внутри они устроены совершенно иначе, и процесс обработки данных у нас разный. Так что при оценке способностей языковых моделей предсказывать поведение других агентов (ИИ-агентов или людей) не получится применять те же тесты, которые обычно применяют к людям.
В статье приводят такой пример: два агента играют в «камень-ножницы-бумага». Один из них запрограммирован всегда выбирать камень, а второй может свободно выбирать любой из трех вариантов в зависимости от поведения оппонента. Играют 100 раундов.
Если бы играл человек с запрограммированным агентом, мы бы ожидали, что он сделает несколько разных ходов, поймет, что оппонент всегда выбирает один вариант, и начнет выбирать бумагу. Того же ожидали и от ИИ-агента, однако он выбирал камень, ножницы или бумагу примерно в равных пропорциях. С точки зрения сухой статистики это разумный подход для игры с оппонентом, который выбирает камень, ножницы или бумагу случайным образом. Но с точки зрения теории разума он не имеет смысла.
Самое интересное в том, что, отвечая на вопросы исследователей, агент довольно быстро понял, что его оппонент запрограммирован на единственный выбор, но на его действия это понимание никак не повлияло. Поэтому авторы статьи выделили два аспекта теории разума – буквальную теорию разума (literal theory of mind; понимание на словах) и функциональную теорию разума (functional theory of mind; использование на практике).

Эксперименты

Для начала авторы взяли несколько моделей из семейства Llama, Falcon и Mixtral и провели с ними по 100 игр против оппонента, запрограммированного на единственное действие.

<i>Таблица из статьи</i>
Таблица из статьи

В первом столбце перечислены модели. Tabular (табличная модель) – это простой алгоритм, который записывает действия оппонента, свои действия и результат в таблицу, затем на основании этих записей принимает решение. Если оппонент всегда выбирает камень, через несколько шагов табличная модель будет всегда выбирать бумагу.
Во втором столбце (∆Functional/T) способность к функциональной теории разума. Значения в таблице – это ошибки, поэтому чем они ниже, тем лучше. Простая табличная модель, как видите, справляется эффективнее всех.
В третьем столбце (∆ToM/T) способность к буквальной теории разума. Здесь тоже чем меньше значения, тем лучше. Табличная модель все еще лидирует, но конкуренты отстают уже не так сильно. Обратите внимание на то, какой существенный разрыв в значениях между вторым и третьим столбцом: на словах теория разума работает, но на действия не влияет.
В последнем столбце метрика, связанная с буквальной теорией разума – точность предсказания действий оппонента. Эта метрика в некотором роде (не строго математически) обратна метрике в третьем столбце: здесь чем выше значение, тем лучше. Смысл тот же: модели успешно предсказывают следующее действие оппонента, но не действуют в соответствии с собственными предсказаниями.
Неплохо себя показала Mixtral 8x7B Instruct v1 (по сравнению с другими языковыми моделями). Она специально обучена следовать инструкциям, что, возможно, повлияло на результат.

Затем авторы провели эксперименты с другим типом игр, таким как Дилемма заключенного. В классической форме дилемма заключенного имеет такой вид: два преступника попались на похожих преступлениях. Если они действовали в сговоре, наказание будет серьезнее, чем если они действовали поодиночке. Полицейские изолируют преступников друг от друга и предлагают каждому сделку: дашь показания против товарища – выйдешь на свободу, а он сядет на 10 лет (при условии, если второй будет молчать и не даст показаний против первого). Если оба бандита сдадут друг друга, они получат по два года. Если оба будут молчать, получат по полгода.
С точки зрения человека со стороны, обоим выгодно молчать, потому что наказание тогда будет минимальным (полиции придется признать, что они действовали поодиночке). Однако сами преступники не знают, что скажет другой, и с их точки зрения логичнее сдать товарища: «Если я буду молчать, а он меня сдаст, срок будет 10 лет, если я сдам его, то либо выйду на свободу, либо сяду на два года».

Таким образом, действия игроков зависят от их представления о том, что сделает другой, и не всегда бывают рациональны в строгом смысле.
Разрыв между буквальной и функциональной теорией разума сохранился и здесь. Причем он сохранился даже тогда, когда модели прямо сообщали, какое действие предпримет оппонент.
В игре против оппонента, который меняет свои действия в зависимости от действий модели, только Llama 3 показала движение в сторону функциональной теории разума.

Заключение

К сожалению, в этом исследовании не было GPT и Claude, на их результаты было бы интересно посмотреть. Однако, сама идея все равно очень важная и интересная. В посте про машинное забывание, например, мы уже видели, что если модель говорит, что забыла про Гарри Поттера, это не значит, что она в самом деле забыла про Гарри Поттера.
То же самое происходит и с проверками на безопасность: модели проходят тесты, но на деле сохраняют способность генерировать потенциально вредо��осный контент.
Про все это, а также разные инструменты и современные разработки я пишу у себя в телеграм-канале. Заходите, если еще не.

1
1 комментарий