Как ИИ может идентифицировать людей даже в анонимизированных массивах данных

EMINUIT/ISTOCK UNRELEASED/GETTY IMAGES PLUS
EMINUIT/ISTOCK UNRELEASED/GETTY IMAGES PLUS

То, как вы взаимодействуете с множеством разных людей, может помочь выделить вас из толпы, по крайней мере, искусственному интеллекту.

Получая информацию о взаимодействиях конкретного пользователя мобильного телефона, а также о взаимодействиях людей, с которыми он контактирует, искусственный интеллект [ИИ] может правильно выделить человека из более чем 40 000 анонимных абонентов мобильной связи более чем в половине случаев, сообщают исследователи 25 января в Nature Communications.

Полученные данные свидетельствуют о том, что люди общаются таким образом, что это можно использовать для вычленения их из наборов данных, которые якобы являются анонимизироваными.

Неудивительно, что люди, как правило, остаются в пределах установленных социальных кругов и что эти регулярные взаимодействия формируют стабильную модель с течением времени, говорит Джайдип Шривастава, учёный-информатик* из Миннесотского университета в Миннеаполисе, не участвовавший в исследовании. "Но тот факт, что вы можете использовать этот паттерн для идентификации человека, вот что удивляет."

*математик и технический специалист в равной степени. Он обладает математическими знаниями и объясняет, как и почему работает тот или иной инструмент, решение или алгоритм. Также CS свойственна специализация в одной или нескольких сферах – ИИ, нейронные сети, теория языков программирования, базы данных. Источник.

Согласно Общему регламенту ЕС по защите данных и Калифорнийскому закону о конфиденциальности потребителей, компании, которые собирают информацию о повседневном взаимодействии людей, могут делиться или продавать эти данные без согласия пользователей. Загвоздка в том, что данные должны быть анонимизированы. Некоторые организации могут предположить, что они соответствуют этому стандарту, давая пользователям псевдонимы, говорит Ив-Александр де Монтжойе [Montjoye], исследователь информационной конфиденциальности в Имперском колледже Лондона. "Наши результаты показывают, что это не так".

Де Монтжойе и его коллеги предположили, что социальное поведение людей можно использовать для выделения их из наборов данных, содержащих информацию о взаимодействиях анонимных пользователей. Чтобы проверить свою гипотезу, исследователи научили искусственную нейронную сеть распознавать закономерности в еженедельных социальных взаимодействиях пользователей.

Для одного теста исследователи обучили нейронную сеть на данных службы мобильной связи, о которой ничего не сообщается, в которых подробно описаны взаимодействия 43 606 абонентов за 14 недель. Эти данные включали дату, время, продолжительность каждого взаимодействия, тип (звонок или смс), псевдонимы вовлеченных сторон и инициатора коммуникации.

Данные взаимодействия каждого пользователя были организованы в веб-структуры данных, состоящие из узлов, представляющих пользователя и его контакты. Строки с данными о взаимодействии соединяли узлы. ИИ показывали интерактивную сеть известного человека, а затем отправляли на поиск анонимизированных данных в сети, которые имели с ним наибольшее сходство.

Нейронная сеть связала только 14,7 процента людей с их анонимными личностями, когда ей были показаны сети взаимодействия, содержащие информацию о телефонных взаимодействиях цели, которые произошли через неделю после последних записей в анонимизированном наборе данных. Но идентифицировал 52,4 процента людей, когда ему была предоставлена информация не только о взаимодействиях цели, но и в том числе, взаимодействиях её контактов.

Когда исследователи предоставили ИИ данные о взаимодействиях цели и контактов, собранные через 20 недель после анонимного набора данных, ИИ по-прежнему правильно идентифицировал пользователей в 24,3% процента случаев, предполагая, что социальное поведение остаётся идентифицируемым в течение длительных периодов времени.

Чтобы увидеть, может ли ИИ профилировать социальное поведение в других обстоятельствах, исследователи проверили его на наборе данных, состоящем из четырехнедельных данных с мобильных телефонов 587 анонимных студентов университета, собранных исследователями в Копенгагене. Что включало данные о взаимодействии, состоящие из псевдонимов студентов, времени встречи и мощности полученного сигнала, что указывало на близость к другим студентам. Эти показатели часто собираются приложениями для отслеживания COVID-контактов. Учитывая данные о цели и о взаимодействии её контактов, ИИ правильно идентифицировал студентов в наборе данных в 26,4% случаев.

Выводы, отмечают исследователи, вероятно, не применимы к протоколам отслеживания контактов Google и системе уведомления Exposure Notification компании Apple, которая защищает конфиденциальность пользователей, шифруя все метаданные Bluetooth и запрещая сбор данных о местоположении.

Де Монтжойе надеется, что исследование поможет представителям правительственных структур улучшить стратегии по защите информация, идентифицирующей личность пользователей. По его словам, законы о защите данных позволяют обмениваться анонимизированными данными для поддержки полезных исследований. "Однако для того, чтобы это работало, важно убедиться, что анонимизация действительно защищает конфиденциальность людей".

редактура и адаптация Дмитрий Бобров

11
1 комментарий

Огромная просьба, если вы нашли какие то неточности (в том числе в переводе) или опечатки - сообщите тут.