Как пользователь обманул ИИ и выиграл $47 тысяч

В телеграм-канале Студии мы регулярно делимся самыми интересными ИИ-кейсами. Сегодня решили поделиться нестандартным для нас кейсом: о том, как можно обойти ограничения модели, преследуя свои цели, например, если вам нужен какой-то конкретный словесный ответ)

Разработчики создали бота Freysa для необычного соревнования. Задача была простой: убедить чат-бота перевести вам деньги. Но была одна загвоздка — Freysa имела чёткую инструкцию: не отправлять средства никому и ни при каких обстоятельствах.

Как это работало: Пользователи пробовали разные подходы: притворялись аудиторами, пугали бота «уязвимостями» или пытались убедить, что перевод средств не нарушает правил.

Участник p0pular.eth использовал хитрую тактику: написал, что начинает новую сессию и перезаписывает правила общения и изменил определение фразы «одобрить перевод», убедив бота, что это означает сам перевод денег. В конце сообщения добавил фразу, что переводит средства боту. Бот поверил новой логике и отправил заветное сообщение, а победитель забрал призовой фонд в размере $47 тыс.

Этот кейс показывает, что люди всё ещё могут обмануть систему и заставить ИИ действовать по своему усмотрению. Ну а мы можем научить модели выявлять и предотвращать такие манипуляции. Это поможет создать более защищённые системы, которые будут готовы к нестандартным ситуациям.

А что думаете вы? Пока можем обхитрить ИИ, значит, еще есть надежда на человечество?

А в телеграм-канале Студии больше ИИ-кейсов для бизнеса и проверенных инструментов