Деперсонализация по новым требованиям Минцифры: Есть решение!

5 декабря Министерство Цифрового Развития, Связи и Массовых Коммуникаций (Минцифры) анонсировало подготовку законопроекта, который обязывает компании-операторов персональных данных передавать обезличенные данные своих клиентов в государственную информационную систему, определенную правительством. В этой статье разбиремся, чем это грозит и что нужно делать уже сейчас.

В чьих руках могут оказаться персональные данные ваших клиентов?
В чьих руках могут оказаться персональные данные ваших клиентов?

Материал подготовлен на основе опыта анонимизации персональных данных в компании N1 AI. За этот год мы построили очень точную систему деперсонализации для медицинской сферы, которой теперь могут воспользоваться компании из других отраслей, без необходимости разрабатывать собственное решение или пытаться натянуть устарелые системы в свою инфраструктуру, рискуя своей репутацией. Но об этом в самом конце. Сначала все по порядку.

Как это повлияет на ваш бизнес

Национальную систему управления данными (НСУД) придумали еще в 2019 году, а в 2022 г. Минцифры заключило договор с “Ростелекомом” на 390 млн рублей на создание такой системы. Так вот, 5 декабря начался следующий виток подготовки к запуску системы, вместе с новым анонсом Минцифры.

Суть системы в том, чтобы собирать обезличенные данные как с государственных органов, так и с частных компаний и на базе неё строить новые технологические продукты, в т.ч. в сфере ИИ. Помимо этого анонсировали, что компании смогут либо сами обезличивать данные, либо использовать решение от НИИ “Восход”.

Вероятнее всего это приведет к следующим последствиям:

  • В какой-то момент эта или подобная система даст нечестные конкурентные преимущества тем, кто начнет её использовать
  • При использовании централизованного средства обезличивания вырастут риски разглашения персональных данных т.к. оно будет единой точкой отказа, особенно при обезличивании вне контура компаний.
  • В какой-то момент передача данных для определенных типов компаний может стать обязательной.
  • Независимо от того, полетит ли конкретно история с НСУД, маркетплейсы данных и решений на базе ИИ будут развиваться на рынке РФ

Стоит отдельно упомянуть, что помимо самой системы, в новом законопроекте планируют усилить штрафы за несоблюдение требований по обработке персональных данных 😬

Таблица с предлагаемыми увеличенными штрафами
Таблица с предлагаемыми увеличенными штрафами

Думаю особенно остро сложности ощутят компании в сферах здравоохранения, банковская и телекоммуникации, где помимо общих требования из ФЗ №152 “О персональных данных” существуют еще специфические требования касательно медицинской, банковской тайны, а так же тайны личной переписки.

Последствия для бизнеса при несоблюдении требований по обработке персональных данных

  • Юридические риски: В случае утечки данных компания может столкнуться с судебными исками и штрафами, что приведёт к финансовым потерям, ухудшению репутации, дополнительным проверкам. Кроме того, за нарушения по отдельным типам данных (например врачебной тайны), предусмотрена уголовная ответственность.
  • Потеря доверия клиентов: Если клиенты узнают, что их данные могут быть деанонимизированы и попасть в 3-и руки, это может серьёзно подорвать их доверие к компании. Для бизнеса это означает потерю лояльности ⇒ снижение прибыли.
  • Дополнительные траты: Поддержание соответствия требованиям законодательства о защите данных становится более сложным и ресурсоёмким из-за новых законов, особенно если не озаботиться вопросом заранее.

❗ Одну из самых главных угроз представляет деанонимизация и возможное нарушение конфиденциальности.

Алгоритм действий для подготовки к соблюдении требований Минцифры по обезличиванию персональных данных

Повторюсь, в первую очередь я бы прорабатывал вопрос будучи представителем крупной компании в сферах медицины, банкинга и телекоммуникаций.

Учитывая, что закон точно примут и будут его совершенствовать, а маркетплейсы данных и ИИ решений на базе этих данных будут развиваться, стоит уже сейчас продумывать свою стратегию в этой области. Первые, кто начнут использовать преимущества работы с аномизированными данными, как минимум избегут лишних трат и штрафов, а как максимум снимут все сливки в своей нише за счет масштабирования развертывания продвинутых ИИ решений.

Я уже упомянул, что мы примерно год назад начали серьезно заниматься этой темой и за это время, для одного из лидеров оказания медицинских услуг собрали, решение, позволяющее анонимизировать сложные медицинские данные. Забавно, что мы тогда и не мечтали, что такой сервис потребуется всем.

💡 Важно: любая система деперсонализации не может давать 100% результат, всегда могут быть ложные срабатывания и пропуски. Нужно заранее определять требуемую для компании точность аномизизации, например 99.99%

Давайте на примере нашего проекта, рассмотрим, какие шаги нужно предпринять, без скучного бюрократического булшита.

Контекст

Наш клиент принял решение инвестировать в развитие продуктов на базе медицинских данных, но уперся в проблему анонимизации. Они сделали несколько подходов к решению этой задачи, но не смогли добиться приемлемых результатов ни по качеству, ни по скорости ни по стоимости аномизации. Пробовали разные подходы и их комбинации — и существующие на рынке DLP (data loss prevention) системы, и внутренние разработки и ручной труд.

В итоге обратились к нам, и мы начали работу руководствуясь следующим алгоритмом действий:

1. Разобраться в том какие данные у вас есть, как они хранятся и как их можно применять для пользы бизнеса.

В нашем примере, у клиник данные хранятся в Медицинской Информационной Системе (МИС). Кроме того, обычно они сливаются в единую базу, из которой дальше эти данные можно доставать и с ними работать.

В разных типах записей могут встречаться персональные данные клиентов — как в местах где это ожидается (профиль клиента), так и в полях, явно для этого не предназначенных.

2. Выбрать кейс для эксперимента

Мы выделили отдельный кластер текстовых записей о приемах пациентов, куда врач обычно пишет данные осмотра пациентов, их жалобы, семейный анамнез и тому подобные вещи. Эти данные — золото на котором сидят медицинские учреждения, т.к. они содержат в себе огромное количество информации, на базе которой можно строить решения, значительно улучшающие качество обслуживания клиентов и выручку клиник.

Проблема в том, что эти данные заносятся в свободной форме, с ошибками, сокращениями и могут содержать персональные данные, что затрудняет их использование.

Пример работы системы анонимизации N1 AI (в тексте намеренно допущены ошибки, все совпадения с реальными именами и названиями случайны)
Пример работы системы анонимизации N1 AI (в тексте намеренно допущены ошибки, все совпадения с реальными именами и названиями случайны)

3. Отловить все типовые кейсы, где могут встречаться персональные данные

Нужно понять не только какие могут быть персональные данные по типам (номер паспорта, ФИО, контактные данные и т.д.). При этом важно не забыть и про данные, позволяющие идентифицировать человека по косвенным признакам.

Например, если в медицинской записи указано, что человек поступил в определенное время, в определенное отделение, определенной больницы с определенной проблемой, то набрав достаточное количество таких фактов, можно довольно точно идентифицировать человека.

💡 Важно не забыть и про данные, позволяющие иденифицировать человека по косвенным признакам.

Кроме того, стоит учитывать и различные паттерны, как могут быть записаны персоральные данные — с маленькой буквы, в верхнем регистре, с опечатками и т.д.

4. Запустить пилот решения на конкретной бизнес задаче

Мы в кейсе с медицинским учреждением выбрали поднабор данных, который нужно анонимизировать для решения конкретной бизнес задачи, и решили обкатать решение на нём. Это важный момент с точки зрения получения первых измеримых бизнес результатов на первых этапах проекта — это сильно поднимает и мораль команды, и упрощает переговоры о бюджете на дальнейшее развитие проекта 😉.

5. Масштабировать решение

С одной стороны тут кажется все понятно, с другой можно напороться на сложности. Чтобы этот этап прошел гладко, вам уже на этапах 3-4 нужно продумывать архитектуру, интеграцию системы анонимизации в вашу инфраструктуру, а так же сформулировать более полное видение продукта. В таком случае будет легче и договориться со стейкхолдерами и самим на ранних этапах заложить правильный технический фундамент, спланировать этапность дальнейшего внедрения.

Мы именно так и поступили в N1 AI — это упражнение заняло совсем немного времени, но значительно облегчило диалог с клиентом на тему того, как развивать и встраивать систему внутрь контура.

Самый первый драфт архитектуры N1 AI, нарисованный “на салфетке”
Самый первый драфт архитектуры N1 AI, нарисованный “на салфетке”

Более того, заложив правильную архитектуру с самого начала, мы подготовили платформу для дальнейшей структуризации данных и построения умных рекомендательных продуктов в сфере медицины — ведь анонимизация для нас является частью более общей задачи структуризации данных.

График с точностью детектирования персональных данных после нескольких итераций прогонов обучения модели N1 AI
График с точностью детектирования персональных данных после нескольких итераций прогонов обучения модели N1 AI

На что еще обратить внимание при анонимизации

При проектировании и разработке системы анонимизации данных от N1 AI мы выделили несколько ключевых вещей, которые полезно будет учитывать и вам при выборе или построении такой системы:

  1. Система должна уметь деперсонализировать большие объемы данных, чтобы иметь возможность привлекать разработчиков ML моделей без раскрытия информации о клиентах.
  2. Система должна уметь адаптироваться к данным конкретной отрасли, т.к. например в телекоме и в медицине могут быть совсем разные документы, содержащие в себе персональные данные.
  3. Система должна находить не только данные позволяющие однозначно идентифицировать человека (напр. ФИО или номер паспорта), но и косвенные данные, по которым можно его идентифицировать.
  4. Система должна уметь обрабатывать данные как в режиме реального времени, так и подцепляться к различным источникам данных (иметь коннекторы / конвертеры) для более эффективной обработки исторических данных.
  5. Система должна с высокой точностью размечать данные даже с учетом опечаток, написания в разном регистре и форматов, сокращений, редких и иностранных фамилий.

В нашем случае, пройдя все эти шаги мы создали решение, которое позволило с высокой точностью обезличивать данные даже в самых нетривиальных кейсах таких как медицинские данные. Конечно, решал не только подход, но и то, что нашим инженерам пришлось довольно глубоко погрузиться в тему и сделать много итераций для того, чтобы научиться отлавливать даже самые сложные кейсы с опечатками и не типичными ФИО.

💡 Если вы дочитали до конца, то вы поняли, что на самом деле нет никакого смысла создавать собственное решение, не понимая сложности задачи и объема затрат. В теме анонимизации слишком много деталей, а самое главное большие репутационные риски.


Проще связаться с нами через форму https://n1ai.ru/, и договориться о пилотном тесте нашего сервиса, который поможет Вам соблюдать законодательство и увеличить доход.

1111
5 комментариев

С одной стороны идея допустим собирать медицинскую статистику хорошая - позволит как то изучать итп.
С другой стороны они это делают не для мед данных явно, а просто для всего и при этом в обязательное - очень так себе. Основная идея как и пакеты яровой - чтобы было, чтобы было откуда взять и посмотреть. А что сделать придумаем.
Вот с последним обычно всё очень не лицеприятно.

Попытка структурировать и сделать подходы к работе в ответ на такие законы гос-ва это помощь всем. Но так же это показатель возникновения еще одного "налога" который будет продолжать гнать инфляцию непонятно во что, усложняя и усложняя работу компаний, сковывая текущих и усложняя появление новых компаний

обязывает компании-операторов персональных данных передавать обезличенные данные своих клиентов в государственную информационную систему, определенную правительством.

Национальную систему управления данными (НСУД) придумали еще в 2019 году, а в 2022 г. Минцифры заключило договор с “Ростелекомом” на 390 млн рублей на создание такой системы. Так вот, 5 декабря начался следующий виток подготовки к запуску системы, вместе с новым анонсом Минцифры.

Суть системы в том, чтобы собирать обезличенные данные как с государственных органов, так и с частных компаний

1
Ответить

Все так, идеи во благо, платить реальному бизнесу и конечным гражданам, положительный эффект не гарантирован.

У нас есть идея сделать аналогичную мед систему анонимизированную, только частную 🙃

Ответить

ЛШТШФУМ Ащьф

Ответить

ну что ж, ждем новые аресты)

Ответить

Кого арестовывать будем?

Ответить