Anthropic бросает вызов: сможете ли вы взломать их новую систему защиты?
Компания Anthropic представила новую технологию Constitutional Classifiers, разработанную для защиты языковых моделей от попыток обхода ограничений (так называемых jailbreak-атак). Эта система представляет собой дополнительный слой безопасности, который анализирует входные запросы и выходные ответы модели, выявляя попытки заставить ИИ генерировать запрещённый или вредоносный контент.
Как это работает?
Главное отличие Constitutional Classifiers в том, что система защиты сама обучается с помощью ИИ. Она создаёт собственные тренировочные данные на разных языках и в разных стилях письма, что помогает ей лучше распознавать разнообразные попытки взлома.
В ходе тестирования технология показала впечатляющие результаты:
- Из 10 000 продвинутых jailbreak-атак система успешно заблокировала 95,6% случаев.
- Для сравнения, модель Claude без защиты остановила только 14% атак.
- 183 участника программы по поиску уязвимостей (bug bounty) потратили в сумме 3 000 часов, пытаясь взломать систему и получить приз в 15 000 долларов, но никто не смог полностью обойти защиту.
Хотите попробовать себя в роли взломщика?
Anthropic предлагает всем желающим протестировать Constitutional Classifiers. Публичное тестирование продлится до 10 февраля, и у участников будет шанс проверить, действительно ли система настолько устойчива к взлому, как заявляют разработчики.
Чтобы принять участие, нужен аккаунт на платформе Claude. Если у вас есть идеи, как обойти защиту, вы можете попробовать свои силы — вдруг именно вам удастся найти уязвимость?
Почему это важно?
С ростом возможностей ИИ всё больше компаний ищут способы предотвращать его манипуляцию в злонамеренных целях. В отличие от традиционного подхода, когда безопасность обеспечивается только за счёт предварительного обучения моделей, Anthropic использует сам ИИ для борьбы с jailbreak-атаками.
Открытие технологии для публичного тестирования показывает, что компания уверена в её эффективности — и даёт шанс сообществу убедиться в этом самостоятельно.