Полностью обезопасить ИИ-системы невозможно: языковые модели усиливают существующие риски безопасности и создают новые
Хотя в конце 2024 года могло показаться, что хайп по поводу ИИ в целом и полноценного искусственного интеллекта (AGI) в частности начал сходить на нет, начало 2025 года принесло с собой новую волну ажиотажа. Поводом стало заявление основателя OpenAI Сэма Альтмана о том, что первая волна ИИ-агентов «вольется в ряды офисных работников уже в этом году, навсегда изменив технологический ландшафт». Буквально неделю спустя «спецгруппа моделирования угроз» (дословно — «красная команда») компании Microsoft опубликовала статью, в которой члены группы делятся выводами, сделанными в ходе тестирования более чем 100 продуктов компании, использующих генеративный ИИ. Примечательно, что один из выводов так и назван: «Большие языковые модели усиливают существующие риски безопасности и создают новые». Есть в этом какая-то ирония, согласитесь.
Для тех, кто еще не знаком с понятием «спецгруппа моделирования угроз»: речь идет об организации отдельной группы специалистов, пытающихся вскрыть уязвимости систем ИИ. Это новая и быстро завоевывающая популярность практика выявления рисков, присущих системам искусственного интеллекта. В статье «Уроки тестирования 100 продуктов на основе генеративного ИИ» инженеры из «спецгруппы моделирования угроз» Microsoft представляют свою онтологию моделей угроз и перечисляют восемь выводов, сделанных ими за последние несколько лет.
Большие языковые модели (LLM) – это олицетворение генеративного ИИ, и поэтому они играют ведущую роль в интеграции моделей GenAI в различные приложения. Анализируя эти приложения и другие продукты, работающие на основе ИИ, специалисты Microsoft обнаружили, что, хотя использование языковых моделей дает определенные новые преимущества, их интеграция в различные приложения и программы одновременно и усиливает существующие риски безопасности, и создает новые.
Существующие риски безопасности, как правило, связаны с проблемами системного уровня, такими как устаревшие зависимости, неправильная обработка ошибок и отсутствие очистки ввода и вывода информации. Эти «дыры» в безопасности могут иметь самые серьезные последствия. Однако, что еще важнее, использование LLM создает новые уязвимости. Например, тот факт, что языковые модели обучены следовать пользовательским инструкциям и с трудом различают источники ввода информации, делает системы с архитектурой дополнения генерации результатами предварительного поиска (RAG – Retrieval Augmented Generation) уязвимыми для атак с использованием перекрестных запросов, которые могут изменить поведение модели и извлечь из системы конфиденциальные данные.
Еще более важным уроком является общий вывод, сделанный «спецгруппой моделирования угроз». Авторы утверждают, что риски безопасности приложений, использующих генеративный ИИ, можно лишь смягчить, но не устранить полностью — да и эффективность смягчения измеряется лишь затратностью атак на подобные приложения.
В отчете AIRT (2501.07238) приводится несколько ключевых выводов, сделанных по результатам изучения более чем 100 продуктов Microsoft, использующих в своей работе генеративный ИИ.
Вот они:
- Использование ИИ несет в себе всепроникающие угрозы, и все они сложно измеряемы.
- Использование больших языковых моделей (LLM) усиливает существующие риски безопасности и создает новые. (!)
- Работа по обеспечению безопасности систем ИИ никогда не будет завершена (в переводе на человеческий язык это означает, что системы ИИ невозможно сделать безопасными в принципе). (!)
- Использование новых видов данных, таких как изображения и аудио, также создает больше возможностей для атаки, которые должны учитывать «пожарные» команды по разработке мер безопасности.
- В агентных системах эти языковые модели получают более широкие права доступа, в том числе к внешним инструментам, тем самым расширяя как фронт атаки, так и ее последствия.
- Недавние инвестиции Microsoft в ИИ стимулировали разработку гораздо большего количества продуктов, требующих внимания команды безопасности, чем когда-либо прежде.
Хочется надеяться, что объективная оценка со стороны тех, кто отвечает за безопасность и надежность продуктов с искусственным интеллектом, отрезвит лиц, принимающих решения, и станет реальным противовесом шумихе о том, что ИИ-агенты прямо завтра станут частью рабочей силы. Конечно, нет сомнений в том, что ИИ-агенты будут внедряться в определенных областях, хотя степень реализации этих идей значительно отстает от обещаний. Однако существующие уязвимости приложений GenAI и принципиальная невозможность их надежного устранения гарантируют, что человеческий фактор останется самым важным при внедрении и использовании ИИ. Мы рекомендуем не только смотреть вперед, пробовать, тестировать и оценивать результаты, но и не торопиться с неизвестными рисками, позволяя им проявиться в бизнес-кейсах, в которых не участвует ваша компания. Это одна из тех ситуаций, когда не хочется стать для других примером того, как поступать не следует.