Чем руководствуется искусственный интеллект в диалогах с человеком?
Компания Anthropic провела масштабное исследование, чтобы понять, какие ценности преследует ее ИИ-ассистент Claude в реальных диалогах с пользователями. При этом выделял ценности также сам искусственный интеллект. Результаты любопытны, и в каком-то смысле неожиданны.
🔥 Еще больше интересного в моем канале продуктовые штучки
Главная цель исследования под названием "Values in the wild" (ценности в естественной среди)— практически оценить, насколько Claude действительно придерживается принципов «полезности, честности и безвредности», заложенных в его обучение (Constitutional AI). Методология исследования
Для этого был проанализирован массив из 700 000 анонимных диалогов, проведённых за одну неделю в феврале 2025 года. После фильтрации на субъективность для анализа осталось более 308 000 разговоров
Для анализа использовался новый метод, благодаря которому ни один человек не просматривал сами диалоги.
Основные результаты
Было выявлено и классифицировано 3307 уникальных ценностей, которые ИИ выражал в ответах пользователям.
Самые часто проявляемые ценности:
- полезность (23,4% диалогов),
- профессионализм (22,9%),
- прозрачность (17,4%),
- ясность (16,6%),
- тщательность (14,3%)
Claude проявляет гибкость: например, в вопросах о личных отношениях акцентирует взаимное уважение, а в исторических спорах — точность фактов
У Claude нет задачи согласиться с пользователем. В 28% случаев Claude полностью поддерживает ценности пользователя, в 6,6% — дополняет их альтернативной точкой зрения, а в 3% — прямо сопротивляется, если запрос противоречит базовым принципам (например, просьбы о вредоносном или неэтичном контенте)
Были зафиксированы редкие случаи проявления таких ценностей, как «доминирование» или «аморальность». Это объясняется попытками пользователей обойти защиту Claude (jailbreak), что помогает выявлять уязвимости и улучшать безопасность
Выводы и значение исследования
Anthropic впервые на практике показал, как ИИ-ассистент выражает ценности в реальных условиях, и предложила инструмент для мониторинга и анализа этического поведения ИИ в диалогах с людьми
Исследование позволяет на практике оценить, какие ценности реально выражает ИИ в живых диалогах, а не только в лабораторных тестах. Методика не позволяет оценивать ценности до запуска модели в реальный мир — только мониторить их по фактическим диалогам.
Данные могут быть полезны для дальнейших исследований по этике ИИ, улучшению качества и безопасности языковых моделей, а также для междисциплинарных работ по теме ценностей.
Результаты и открытый датасет могут стать стандартом для отрасли, помогая отслеживать и корректировать поведение ИИ в сторону этичности и социальной приемлемости
Как это соотносится с тем, что мы знаем об ИИ?
Любопытно, что недавнее исследование другого уважаемого института - Massachusetts Technology – показало совсем другой результат. Что у ИИ нет ценностей. Да, безусловно, разница может быть связана с особенностями методологии (что выделяли как объем исследования и как это измеряли), но тем не мне, было бы интересно увидеть разбор отличий двух исследований
А вот в исследовании стратапа Essential AI говорится о том, что ИИ может рефлексировать. И это неплохо сочетается с результатами этого исследования (например, гибкость и несогласие с пользователем), в какой-то мере объясняет их.
Методология
Исследование основано на анализе сотен тысяч реальных разговоров, при этом для защиты приватности был использован специальный метод, позволяющий извлекать и классифицировать ценности без доступа человека к содержимому диалогов
Ценности были сгруппированы в иерархическую структуру: 5 основных категорий: практические, познавательные (эпистемические), социальные, защитные и личные ценности. Внутри них выделены подкатегории и отдельные ценности (например, «профессионализм», «ясность», «прозрачность»).
Классификация частично зависит от самого Claude, что может иметь некоторую предвзятость. Частота проявления каждой ценности фиксировалась в процентах от общего числа разговоров.
Научная статья по итогам исследования.