Облачный ИИ: что мы хотели бы знать, но боимся спросить
Доброго дня тебе, читатель! Это снова я, твой проводник в мире технологии ИИ, он же амбассадор инноваций, Илья Петухов. Напомню, что мы с командой уже 8 лет ведем разработку ИИ-сервисов для бизнеса (крупнейшего, крупного, среднего и малого) и не понаслышке знаем, какие стоп-факторы мешают повсеместному использованию ИИ, какие эффекты дает применение этой технологии.
Поговорим о доверии к облачному ИИ? Тому, что хостится на мощностях другой компании. К примеру, ChatGPT, GigaChat и даже нашумевший DeepSeek. В этом случае свои запросы и данные вы передаете куда-то, чтобы получить какой-то результат.
Именно эта неизвестность и пугает специалистов по информационной безопасности, и многие из них выступают строго против передачи каких-либо данных облачному ИИ.
Моя команда осенью 2023-го проводила исследование среди крупных и средних компаний: мы опрашивали ИТ-директоров, ответственных за цифровое развитие и генеральных директоров на предмет их готовности использовать ИИ в облаке для задач бизнеса. В итоге выяснили, что 85% из них к этому не готовы. Прошел год, и мы снова провели такое же исследование и получили 81% скептиков, не готовых использовать ИИ в облаке.
Удивительно другое. Местами прослеживается такая тенденция: «Мы используем облачную инфраструктуру, пока ИБ об этом не знает, просто у нас выхода другого нет. Как ИБ запретит, мы перенесем…». А от некоторых слышал: «Я ChatGPT использую для анализа отчетности по продажам, а что, какие-то данные могут утечь?».
Если вы занимаетесь инфобезом и у вас есть волосы на голове, на этом моменте они могли зашевелиться. Да, это реалии рынка. Кто-то перестраховывается и не использует ничего, а кто-то понимает ценность технологий и идет на обдуманный (или не очень) риск.
Однажды на конференции Directum Алексей Викторович Лукацкий из Positive Technologies сказал: «Если ИБ все запрещает, это плохое ИБ. Надо искать пути решения». Поэтому давайте вместе разберемся, что именно происходит с данными, которые мы передаем ИИ в облаке. Разбираться будем на примере алгоритмов LLM, так как модели ML или OCR можно локально развернуть на любой телефон и ноутбук, что снимет вопрос безопасности.
Какие данные вообще передаются?
Сделаю ремарку: я не эксперт по информационной безопасности, я эксперт по ИИ.
Но чтобы обсудить с вами тему безопасности облачного ИИ, я предварительно провел серию интервью с сотрудниками ИБ и еще продолжаю это делать.
Мне удалось выяснить, что на самом деле ИБ не выступают жестко против облачного ИИ, они ограждают чувствительные данные, утечка которых может нанести финансовый либо репутационный вред компании.
К таким данным обычно относят финансовые показатели, производственные, и прочие фишки самой компании, которые дают ей преимущество на рынке. При этом ИБ спокойно разрешает пользоваться LLM-моделью в облаке для вещей маркетинговых либо продажных (например, сделать картинку, описать товар для маркетплейса и пр.).
Особняком стоят персональные данные, которые, согласно 152-ФЗ, нельзя передавать третьей стороне без согласия владельца.
Разделив контент на «чувствительный» и не особо, предлагаю посмотреть на архитектуру одной из облачных LLM, чтобы понять, а попадают ли данные в чистом виде в модель ИИ, и как в ней организована безопасность.
Что находится в «черном ящике»?
Сразу скажу: я делаю выводы на основе открытой общей информации об архитектуре конкретной отечественной LLM-модели и информации, которую получил в ходе общения с представителями разработчика этой модели.
Рассмотрим схему, когда вы используете облачную LLM-модель через интеграцию по API. Попробуем повторить весь путь контента (промпт+контекст) по пути к LLM и обратно.
1. Доступ к сервису API осуществляется c помощью REST API через HTTPS (безопасный протокол) либо с помощью gRPC. При этом используется протокол OAuth 2.0
2. Сервис API находится в регионе Enablers, который предоставляется вендору LLM в рамках договора со стороны отечественного ЦОДа.
3. Сам ЦОД включает многоуровневую систему защиты информации, которая соответствует требованиям законодательства РФ и реализует лучшие мировые практики кибербезопасности, что подтверждается аттестатами и сертификатами соответствия (152-ФЗ УЗ-1, лицензии Роскомнадзора, ФСБ и пр.)
4. LLM-модель является stateless (не запоминает свое состояние), поэтому данные, которые она получает, попадают только в оперативную память карты (технически очень сложно вычислить конкретную карту в кластере из тысяч карт), и после выдачи ответа стираются (не сохраняются в памяти).
5. Сама модель не получает на вход текстовые данные, они преобразовываются в цифровые (эмбединги), и далее модель работает с ними и выдает на выходе цифровые данные, которые затем преобразовываются в токены (элементы слов, не слова).
Получается, контент идет по безопасному протоколу, не уходит за пределы страны, хостится в ЦОДе со всеми лицензиями и при обработке текст преобразовывается сначала в токены (да, да, те самые), а далее векторизуется в эмбединги. Сама LLM-модель на вход получает не текст, а преобразованный через матрицу цифровой контент.
При этом, чтобы восстановить обратно из векторных эмбедингов текст, надо иметь ту самую матрицу токенизации, которая есть у вендора. Это можно назвать «ключом к шифру». То есть в случае «взлома» или «утечки» к переданному мной контенту сложно будет восстановить либо получить доступ.
Допускаю, что мое описание может быть где-то поверхностным и с белыми пятнами. Поэтому делитесь в комментариях своими мыслями. Тема облачного ИИ явно не на одну статью.
Облако или локалка?
Складывается ощущение, что мы только приоткрыли крышку капота и взглянули на весь этот «двигатель» сверху. Но я думаю, многие читатели согласятся с тем, что использование облачного ИИ дает свои преимущества:
· Облачные сервисы, как правило, оснащены системами мониторинга и предотвращения атак, которые могут обнаруживать и реагировать на подозрительное поведение в реальном времени.
· Компании не устанавливают и не обслуживают серверы. Ниже вероятность технических ошибок и угроз безопасности, связанных с неправильной настройкой оборудования.
· Использование облачных сервисов может сократить финансовые затраты на IT-инфраструктуру.
· В облаке обеспечиваются регулярные обновления и поддержка, что помогает пользователям оперативно решать их вопросы.
Я думаю, что при правильном использовании и понимании принципов работы облачных сервисов применение генеративного ИИ в облаке может быть не только безопасным, но и эффективным инструментом для многих организаций и пользователей.
Локальный вариант несет свои преимущества по части безопасности, но вместе с ними большие финансовые затраты и дополнительные сложности. Пока что малоразмерные LLM-модели не дают достойного для бизнеса качества.
Использовать облачные LLM точно стоит для ускорения развития технологий ИИ.
Делитесь мнением в комментариях, пишите мне в телеграм https://t.me/pet_ilya, если вы ИБ-специалист и готовы пообщаться на тему облачного ИИ. И, конечно, подписывайтесь на мой канал https://t.me/pogovorimproAI.