Чем руководствуется искусственный интеллект в диалогах с человеком?

Компания Anthropic провела масштабное исследование, чтобы понять, какие ценности преследует ее ИИ-ассистент Claude в реальных диалогах с пользователями. При этом выделял ценности также сам искусственный интеллект. Результаты любопытны, и в каком-то смысле неожиданны.

🔥 Еще больше интересного в моем канале продуктовые штучки

Главная цель исследования под названием "Values in the wild" (ценности в естественной среди)— практически оценить, насколько Claude действительно придерживается принципов «полезности, честности и безвредности», заложенных в его обучение (Constitutional AI). Методология исследования

Для этого был проанализирован массив из 700 000 анонимных диалогов, проведённых за одну неделю в феврале 2025 года. После фильтрации на субъективность для анализа осталось более 308 000 разговоров

Для анализа использовался новый метод, благодаря которому ни один человек не просматривал сами диалоги.

Было выявлено и классифицировано 3307 уникальных ценностей, которые ИИ выражал в ответах пользователям.

Самые часто проявляемые ценности:

полезность (23,4% диалогов),
профессионализм (22,9%),
прозрачность (17,4%),
ясность (16,6%),
тщательность (14,3%)

Ценности в зависимости от задачи и потребностей пользователя. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fvalues-wild&postId=1940460" rel="nofollow noreferrer noopener" target="_blank">Источник</a>. <br />

Claude проявляет гибкость: например, в вопросах о личных отношениях акцентирует взаимное уважение, а в исторических спорах — точность фактов
Источник

У Claude нет задачи согласиться с пользователем. В 28% случаев Claude полностью поддерживает ценности пользователя, в 6,6% — дополняет их альтернативной точкой зрения, а в 3% — прямо сопротивляется, если запрос противоречит базовым принципам (например, просьбы о вредоносном или неэтичном контенте)

Основные сценарии взаимодействия с пользовательскими ценностями. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fvalues-wild&postId=1940460" rel="nofollow noreferrer noopener" target="_blank">Источник</a>.

Были зафиксированы редкие случаи проявления таких ценностей, как «доминирование» или «аморальность». Это объясняется попытками пользователей обойти защиту Claude (jailbreak), что помогает выявлять уязвимости и улучшать безопасность

Anthropic впервые на практике показал, как ИИ-ассистент выражает ценности в реальных условиях, и предложила инструмент для мониторинга и анализа этического поведения ИИ в диалогах с людьми

Исследование позволяет на практике оценить, какие ценности реально выражает ИИ в живых диалогах, а не только в лабораторных тестах. Методика не позволяет оценивать ценности до запуска модели в реальный мир — только мониторить их по фактическим диалогам.

Данные могут быть полезны для дальнейших исследований по этике ИИ, улучшению качества и безопасности языковых моделей, а также для междисциплинарных работ по теме ценностей.

Результаты и открытый датасет могут стать стандартом для отрасли, помогая отслеживать и корректировать поведение ИИ в сторону этичности и социальной приемлемости

Любопытно, что недавнее исследование другого уважаемого института - Massachusetts Technology – показало совсем другой результат. Что у ИИ нет ценностей. Да, безусловно, разница может быть связана с особенностями методологии (что выделяли как объем исследования и как это измеряли), но тем не мне, было бы интересно увидеть разбор отличий двух исследований

А вот в исследовании стратапа Essential AI говорится о том, что ИИ может рефлексировать. И это неплохо сочетается с результатами этого исследования (например, гибкость и несогласие с пользователем), в какой-то мере объясняет их.

Исследование основано на анализе сотен тысяч реальных разговоров, при этом для защиты приватности был использован специальный метод, позволяющий извлекать и классифицировать ценности без доступа человека к содержимому диалогов

Ценности были сгруппированы в иерархическую структуру: 5 основных категорий: практические, познавательные (эпистемические), социальные, защитные и личные ценности. Внутри них выделены подкатегории и отдельные ценности (например, «профессионализм», «ясность», «прозрачность»).

Подход в выделению и анализу ценностей ИИ. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fvalues-wild&postId=1940460" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Классификация частично зависит от самого Claude, что может иметь некоторую предвзятость. Частота проявления каждой ценности фиксировалась в процентах от общего числа разговоров.

Таксономия ценностей. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fvalues-wild&postId=1940460" rel="nofollow noreferrer noopener" target="_blank">Источни</a>

Научная статья по итогам исследования.

#anthropic #claude

Наташа Хазеева

2 апр

Как думают нейромодели?

Компания Anthropic (создатель нейро модели Claude) задалась этим нетривиальным вопросом и изучила, как именно думает нейромодель. Да-да, вы не ослышались. И пришла к любопытным выводам, которые полезно знать не только тем, кто работает с нейросетями. Например, чтобыо нейросети могу продумывать ответ на 2-3 шага вперед и ... обманывать! Как? Читайте…

Клод заканчивает стихотворение из двух строк (см. пояснение ниже). <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Ftracing-thoughts-language-model&postId=1896633" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Чем руководствуется искусственный интеллект в диалогах с человеком?

Основные результаты

Выводы и значение исследования

Как это соотносится с тем, что мы знаем об ИИ?

Методология

Пожалуйста, поддержите меня, поставьте лайк! 🙏