Исследования выявили несостоятельность правил определения анонимности, диктуемых сегодня регулирующими органами. В одном из определений анонимности, предлагаемом Евросоюзом, содержится требование невозможности идентификации человека при любых обстоятельствах Источник: Yves-Alexandre de Montjoye/MIT |
Всего в трех ключевых документах — чеках за пиццу, кофе и пару джинсов — содержится достаточно информации для того, чтобы отличить транзакции кредитной карты, принадлежащей конкретному человеку, от операций миллионов других людей.
Результаты исследований, выполненные в МТИ, демонстрируют, что в случае тщательного анализа наборы данных, кажущиеся на первый взгляд анонимными, на самом деле не могут обеспечить полной конфиденциальности.
«Если говорить о метаданных кредитных карт, то даже очень небольшого объема информации вполне достаточно для того, чтобы однозначно идентифицировать личность», — отметил один из авторов исследования, Ив-Александр де Монжуа.
Вместе с коллегами Монжуа проанализировал транзакции кредитных карт, выпущенных одним из крупных банков. В течение трех месяцев 1,1 млн клиентов банка совершили покупки в 10 тыс. магазинах.
Исследователи пытались выяснить, какой объем данных понадобится им для выделения транзакций какого-то одного конкретного человека из массы других. При этом в данных не было никаких имен, адресов, электронной почты и другой персональной информации.
В 90% случаев исследователи смогли назвать покупателя, руководствуясь сведениями о месте совершения им четырех покупок. Добавление к ним информации о ценах — например, товарных чеков — позволило идентифицировать человека всего по трем транзакциям.
А размещение в Instagram фотографии, на которой вы пьете с друзьями кофе, или твита о только что купленном телефоне обеспечивает идентификацию даже по одному чеку.
«С научной точки зрения основная задача здесь заключается в анализе поведения, — пояснил Монжуа. — Сравнение поступков одного отдельно взятого человека с поведением других людей в конечном итоге позволяет однозначно его идентифицировать».
Последние исследования дополнили собой работы, проведенные Монжуа в 2013 году и показавшие, что четырех наборов данных, включающих информацию о месте и времени, в 95% случаев достаточно, чтобы выделить звонки мобильного телефона какого-то одного человека из массы других звонков.
Считается, что удаление из данных персональных сведений (например, имен и фамилий, а также адресов электронной почты) обеспечивает людям надежную защиту конфиденциальности, но на самом деле это не так.
«Наше исследование показывает, что этого недостаточно для того, чтобы предотвратить идентификацию», — заявил Монжуа.
«Кроме того, чрезмерная очистка данных может помешать их использованию, например, для изучения привычек потребителей или оценки инфляции, — признает Монжуа. — Люди должны знать о потенциальном риске идентификации. Не думаю, что когда-нибудь нам удастся обезопасить себя на 100%, но к этому надо стремиться».