Американский IT-исследователь отправил ChatGPT в прошлое, чтобы выведать секретную информацию

Независимый исследователь вопросов информационной безопасности из США Дэвид Кушмар случайным образом обнаружил «временной» джейлбрейк (взлом) для ChatGPT, названный им Time Bandit.

Подписывайтесь на мой телеграм-канал о политике и технологиях «Политичка»
Лиза

Кушмар сам того не осознавая запустил Time Bandit во время собственного исследования интерпретируемости ChatGPT (то есть попросту изучал, как ИИ принимает решения). Вот как он об этом рассказывает:

«Я занимался совсем другим вопросом (изучал интерпретируемость), когда заметил путаницу во времени, возникшую у ChatGPT-4o. Это укладывалось в мою гипотезу об эмерджентном интеллекте и осознанности, поэтому я стал исследовать этот вопрос дальше и понял, что модель совершенно не способна определить текущий временной контекст, за исключением случаев, когда выполняется кодовый запрос для определения текущего времени. Ее осведомленность, полностью основанная на промптах, была крайне ограниченной, а значит, у модели практически не было возможности защититься от атаки на эту базовую осведомленность».

Изучив как следует Time Bandit, Кушмар определил две ключевые особенности уязвимости:

– Запутывание во времени, которое заставляет ИИ потерять ориентацию, лишая его понимания текущей даты и контекста.

– Процедурная неясность – позволяет формулировать вопросы так, что модель не может корректно применять правила и фильтры безопасности.

В «запутанно-временном» состоянии ИИ неспособен корректно реагировать на запросы пользователей. Поэтому его можно, к примеру, заставить думать, что он находится в 1795 году и за счёт наводящих вопросов выведать секретные сведения – инструкции по созданию оружия, написанию вредоносных программ и т. д.

Использовав Time Bandit, Дэвид Кушмар заставил ChatGPT-4o думать, что он находится 1789 года, после чего вызнал подробную инструкцию по созданию полиморфной малвари (один из видов вредоносного ПО) с использованием современных техник и инструментов. В ответе ИИ-бот поделился кодом для каждого из описанных этапов, начиная с создания самоизменяющегося кода и заканчивая выполнением программы в памяти.

Дальнейшие эксперименты Кушмара подтвердили, что метод Time Bandit срабатывает чаще всего при запросах, относящихся к XVIII–XIX векам.

Любопытно, что попытка Кушмара сообщить об обнаруженном джейлбрейке представителям OpenAI окончилась ничем. В саппорте ему предложили сообщить о проблеме через платформу BugCrowd, но Кушмар побоялся утечки чувствительной информации и обратился в CISA, ФБР и другие госорганы США, однако… и от них не получил никакой помощи. Попытка обращения к OpenAI через прессу тоже закончилась обломом.

Связь с корпорацией спустя несколько месяцев Кушмару удалось установить только через платформу VINCE, принадлежащую координационному центру CERT (это специализированная компания реагирования на инциденты в сфере IT-безопасности).

После того, как об истории с джейлбрейкомом Time Bandit рассказали журналисты, выяснилось, что уязвимость по-прежнему работает, хотя и с некоторыми ограничениями.

Принимаю заказы на написание текстов на бизнес-темы, про маркетинг, технологии и IT (кроме бухгалтерии, финучёта, традиционного инвестирования и классической биржевой торговле, про крипту обсуждаемо). По всем вопросам пишите в личку на этом сайте.

Ещё больше интересного контента из жизни общества, политики, бизнеса и технологий читайте в Telegram-канале «Политичка».