Как
сообщает издание Technology Review, исследователи из IBM разработали алгоритм, который делает предположение о месте жительства пользователя сервиса микроблогов на основе его последних 200 твитов.
Как известно, в Twitter можно прикреплять к сообщениям информацию о своем местоположении — это удобно, если вы не прочь дать знать другим людям, где находитесь, или для того, чтобы самому запомнить какие-то интересные места. Кроме того, эта возможность еще и дает исследователям материал для анализа географического распределения твитов.
С другой стороны, некоторые пользователи даже не подозревают о том, что не отключили вывод геоданных, что в свою очередь, поднимает вопросы конфиденциальности и безопасности личной информации. Таким образом стали известны места жительства многих звезд, а в 2007 году случилось куда более страшное: вертолеты Apache американской армии были уничтожены из минометов, когда повстанцам удалось определить координаты с помощью фотографий с геотегами, опубликованных солдатами в Twitter.
Подобные опасения являются одной из причин, по которой так мало твитов содержат геометки — по данным нескольких исследований, общее число сообщений с географическими метаданными не превышает 1 процента от общего числа твитов.
Однако отсутствие меток еще не означает, что ваше местоположение является секретом. Джалал Махмуд и несколько специалистов из подразделения IBM Research разработали алгоритм, который может анализировать 200 последних твитов любого человека, и на основе этих данных определить город его проживания с точностью до 70%.
Эта возможность представляет интерес для исследователей, журналистов, маркетологов и всех, кто по каким-либо причинам хочет знать географическое распределение твитов. Естественно, опять возникают этические вопросы, ведь пользователи намеренно скрывают эту информацию, а теперь ее, получается, можно извлечь без их согласия.
Метод, предложенный экспертами IBM, работает довольно прямолинейно. Они отфильтровали твиты, содержащие геометки из 100 крупнейших городов США, отправленные пользователям Twitter в период с июля по август 2011 года, и нашли 100 человек в каждом из них. Затем был загружен архив из 200 сообщений каждого из таких пользователей (кроме твитов, закрытых настройками приватности). Полученный объем данных составил более 1.5 млн твитов от почти десяти тысяч человек.
Затем этот набор данных был разделен на две части — 90% данных использовались для обучения алгоритма, а 10% для его тестирования.
Суть эксперимента в том, что ученые сделали предположение о том, что в твитах содержится важная для определения местоположения информация. Например, среди собранных данных более 100 000 сообщений были сгенерированы с помощью Foursquare и содержали ссылку на конкретные места в городе. А еще в 300 000 сообщений встречались названия городов из справочника геологической службы США.
Еще некоторое количество твитов содержали слова, косвенно указывающие на место жительства автора. Например фраза "Let's Go Red Sox" говорит о том, что автор сообщения находится в Бостоне, или, по крайней мере, болеет за бейсбольную команду из этого города. Более того, исследователи обнаружили и то, что распределение твитов, сделанных конкретыми пользователями, по времени суток остается примерно одинаковым — что дает представление о том, в каком часом поясе они живут.
Вопрос заключался в том, можно ли будет использовать эту информацию для предсказания места жительства пользователя. Для проверки работы этого алгоритма как раз и понадобились собранные данные с геометками.
Результаты окзались весьма интересными. По словам ученым, если исключить из эксперимента людей, которые очевидно находятся в путешествии, то алгоритм корректно определяет город человека в 68% случаев, его штат в 70%, а временную зону - с точностью 80%. Для того, чтобы проанализировать твиты конкретного пользователя и узнать всю эту информацию, уходит меньше секунды.
Такой алгоритм мог бы оказаться полезным для людей разных профессий. Например, журналисты с его помощью могли бы определять, какие твиты сделаны из эпицентра событий (вроде землятрясений), а какие принадлежат комментаторам, находящимся далеко от этого места. Маркетологи могли бы использовать его для выяснения ситуации с популярностью продуктов своей компании в конкретных городах.
Ученые надеются, что смогут улучшить точность своего алгоримта. В частности, они считают, что смогут добиться лучшего результата, анализируя сообщения на предмет наличия в них упоминаний конкретных местных ориентиров, которые можно нанести на карту с большей точностью.
Помимо конкретной пользы для различных исследователей, вполне возможно, появление таких средств анализа поможет обратить внимание пользователей на то, что для сохранения в тайне тех данных, которые они не хотели бы разглашать, следует не только ставить соответствующие галочки в настройках своих профилей, но и поменьше рассказывать об этом в соцсетях.