Anthropic бросает вызов: сможете ли вы взломать их новую систему защиты?

Компания Anthropic представила новую технологию Constitutional Classifiers, разработанную для защиты языковых моделей от попыток обхода ограничений (так называемых jailbreak-атак). Эта система представляет собой дополнительный слой безопасности, который анализирует входные запросы и выходные ответы модели, выявляя попытки заставить ИИ генерировать запрещённый или вредоносный контент.

Anthropic бросает вызов: сможете ли вы взломать их новую систему защиты?

Как это работает?

Главное отличие Constitutional Classifiers в том, что система защиты сама обучается с помощью ИИ. Она создаёт собственные тренировочные данные на разных языках и в разных стилях письма, что помогает ей лучше распознавать разнообразные попытки взлома.

В ходе тестирования технология показала впечатляющие результаты:

  • Из 10 000 продвинутых jailbreak-атак система успешно заблокировала 95,6% случаев.
  • Для сравнения, модель Claude без защиты остановила только 14% атак.
  • 183 участника программы по поиску уязвимостей (bug bounty) потратили в сумме 3 000 часов, пытаясь взломать систему и получить приз в 15 000 долларов, но никто не смог полностью обойти защиту.

Хотите попробовать себя в роли взломщика?

Anthropic предлагает всем желающим протестировать Constitutional Classifiers. Публичное тестирование продлится до 10 февраля, и у участников будет шанс проверить, действительно ли система настолько устойчива к взлому, как заявляют разработчики.

Anthropic бросает вызов: сможете ли вы взломать их новую систему защиты?

Чтобы принять участие, нужен аккаунт на платформе Claude. Если у вас есть идеи, как обойти защиту, вы можете попробовать свои силы — вдруг именно вам удастся найти уязвимость?

Почему это важно?

С ростом возможностей ИИ всё больше компаний ищут способы предотвращать его манипуляцию в злонамеренных целях. В отличие от традиционного подхода, когда безопасность обеспечивается только за счёт предварительного обучения моделей, Anthropic использует сам ИИ для борьбы с jailbreak-атаками.

Открытие технологии для публичного тестирования показывает, что компания уверена в её эффективности — и даёт шанс сообществу убедиться в этом самостоятельно.

Начать дискуссию