Американский IT-исследователь отправил ChatGPT в прошлое, чтобы выведать секретную информацию
Независимый исследователь вопросов информационной безопасности из США Дэвид Кушмар случайным образом обнаружил «временной» джейлбрейк (взлом) для ChatGPT, названный им Time Bandit.
Подписывайтесь на мой телеграм-канал о политике и технологиях «Политичка»
Кушмар сам того не осознавая запустил Time Bandit во время собственного исследования интерпретируемости ChatGPT (то есть попросту изучал, как ИИ принимает решения). Вот как он об этом рассказывает:
«Я занимался совсем другим вопросом (изучал интерпретируемость), когда заметил путаницу во времени, возникшую у ChatGPT-4o. Это укладывалось в мою гипотезу об эмерджентном интеллекте и осознанности, поэтому я стал исследовать этот вопрос дальше и понял, что модель совершенно не способна определить текущий временной контекст, за исключением случаев, когда выполняется кодовый запрос для определения текущего времени. Ее осведомленность, полностью основанная на промптах, была крайне ограниченной, а значит, у модели практически не было возможности защититься от атаки на эту базовую осведомленность».
Изучив как следует Time Bandit, Кушмар определил две ключевые особенности уязвимости:
– Запутывание во времени, которое заставляет ИИ потерять ориентацию, лишая его понимания текущей даты и контекста.
– Процедурная неясность – позволяет формулировать вопросы так, что модель не может корректно применять правила и фильтры безопасности.
В «запутанно-временном» состоянии ИИ неспособен корректно реагировать на запросы пользователей. Поэтому его можно, к примеру, заставить думать, что он находится в 1795 году и за счёт наводящих вопросов выведать секретные сведения – инструкции по созданию оружия, написанию вредоносных программ и т. д.
Использовав Time Bandit, Дэвид Кушмар заставил ChatGPT-4o думать, что он находится 1789 года, после чего вызнал подробную инструкцию по созданию полиморфной малвари (один из видов вредоносного ПО) с использованием современных техник и инструментов. В ответе ИИ-бот поделился кодом для каждого из описанных этапов, начиная с создания самоизменяющегося кода и заканчивая выполнением программы в памяти.
Дальнейшие эксперименты Кушмара подтвердили, что метод Time Bandit срабатывает чаще всего при запросах, относящихся к XVIII–XIX векам.
Любопытно, что попытка Кушмара сообщить об обнаруженном джейлбрейке представителям OpenAI окончилась ничем. В саппорте ему предложили сообщить о проблеме через платформу BugCrowd, но Кушмар побоялся утечки чувствительной информации и обратился в CISA, ФБР и другие госорганы США, однако… и от них не получил никакой помощи. Попытка обращения к OpenAI через прессу тоже закончилась обломом.
Связь с корпорацией спустя несколько месяцев Кушмару удалось установить только через платформу VINCE, принадлежащую координационному центру CERT (это специализированная компания реагирования на инциденты в сфере IT-безопасности).
После того, как об истории с джейлбрейкомом Time Bandit рассказали журналисты, выяснилось, что уязвимость по-прежнему работает, хотя и с некоторыми ограничениями.
Принимаю заказы на написание текстов на бизнес-темы, про маркетинг, технологии и IT (кроме бухгалтерии, финучёта, традиционного инвестирования и классической биржевой торговле, про крипту обсуждаемо). По всем вопросам пишите в личку на этом сайте.
Ещё больше интересного контента из жизни общества, политики, бизнеса и технологий читайте в Telegram-канале «Политичка».