Ассоциация больших данных и HFLabs протестировали модель оценки рисков повторной идентификации с использованием решения для обезличивания данных «Маскировщик». Оно обеспечивает умное маскирование персональных данных и снижает риск утечки во время тестирования ИТ-систем, сохраняя при этом качество тестов. О реализации проекта рассказывают Марат Тахавиев, руководитель GR-проектов Ассоциации больших данных, и Никита Назаров, технический директор HFLabs, – номинанты на премию Data Award.
- Несколько слов про историю этого проекта. Как появилась модель оценки рисков повторной идентификации?
Марат Тахавиев: АБД уже более трех лет работает над внедрением риск-ориентированного подхода к регулированию оборота обезличенных данных. Для этого мы разработали модель оценки рисков повторной идентификации, которая позволяет математически оценить вероятность выявления персональной информации в обезличенных наборах данных. В этом проекте мы поставили целью проверить, как будет работать риск-модель в продуктах, которые востребованы участниками рынка. Для тестирования был выбран продукт «Маскировщик», созданный HFLabs.
Цель проекта – убедиться, что решение «Маскировщик» и используемые в нем алгоритмы могут безопасно применяться для обезличивания данных и сохранять при этом их смысл и качество.
- Почему эта проблема важна?
М.Т.: Проект призван снять напряженность в бизнес-среде и у государственных органов в восприятии процесса обезличивания. Это особенно актуально в контексте крупных госпроектов, таких как «госозеро» данных.
До создания риск-модели не существовало решений, с помощью которых можно было оценить эффективность и безопасность алгоритмов обезличивания. Работающие на рынке вендоры заявляют только набор преднастроенных шаблонов и скорость работы, однако ни то, ни другое не относится к качественным характеристикам.
Никита Назаров: Этот проект – совместная работа АБД и HFLabs, и он был интересен обеим сторонам. Нам хотелось проверить, что наш «Маскировщик» формирует по-настоящему безопасные данные.
- В чем конкретно заключался проект?
М.Т.: В рамках тестирования специалистами-методологами АБД были смоделированы кибератаки с целью получения персональной информации из обезличенных наборов данных, подготовленных с помощью «Маскировщика» для кейсов «Оценка оттока банковских клиентов» (Churn Rate) и «Маркетинговая атрибуция на независимых наборах».
Первый кейс моделировал утечку банковской информации. С его помощью мы протестировали атаку с целью связывания обезличенного банковского набора с ранее утекшим набором интернет-доставки. Второй кейс – «маркетинговое касание» – моделировал конфиденциальное объединение данных рекламной площадки и набора с банковскими транзакциями для оценки эффективности рекламной кампании.
По результатам этих «атак» был осуществлен расчет рисков повторной идентификации, а также подготовлены рекомендации по адаптации параметров маскирования.
- Какие данные использованы при моделировании?
Н.Н.: Для проекта использовались синтетические наборы данных, специально подготовленные для кейсов «Оценка оттока банковских клиентов» и «Маркетинговая атрибуция на независимых наборах». Данные были обезличены с помощью «Маскировщика». Также были синтезированы данные «утекшего» датасета из сервиса доставки.
- Какие результаты достигнуты?
М.Т.: По результатам тестирования риск-модель доказала свою работоспособность, а также была дополнена подходами по симуляции атак, которые углубляют понимание рисков повторной идентификации за счет учета рисков выделения и связывания.
Н.Н.: Применение мер защиты незначительно снизило качество данных – как по метрикам, так и по целевым бизнес-характеристикам. Ожидаемое соотношение – при увеличении шума снижаются метрики риска, включая риски атак (растет степень защиты), но также снижается качество.
В ходе эксперимента комплексные риски маскированных данных были снижены на 97,5% при сохранении их высокого показателя полезности, который составил 71%. Эти результаты подчеркивают эффективность методов обезличивания и их способность защищать конфиденциальность данных без ущерба для их аналитической ценности.
- В чем роль проекта для каждой из сторон?
Н.Н.: HFLabs доработал решение и получил подтверждение, что продукт «Маскировщик» надежно обезличивает данные, сохраняя их качество и контекст. Данные остаются максимально похожими на оригинальные, но риск повторной идентификации значительно снижен.
М.Т.: АБД, в свою очередь, убедилась, что разработанная ею методология эффективно работает. В дальнейшем она может быть взята за основу для проверки алгоритмов обезличивания, в том числе при реализации масштабных государственных проектов.
- Какова социальная значимость проекта?
М.Т.: Проект имеет высокую социальную значимость, учитывая перспективы создания «госозера» данных и рост числа утечек, которые негативно влияют на социальное и экономическое благополучие россиян.
Использование технологий повышения конфиденциальности лежит в «серой» зоне нормативного регулирования, не успевающего за их развитием. Модель оценки рисков повторной идентификации будет способствовать быстрому развитию технологий по обезличиванию, расширит доступ компаний к обезличенным наборам данным, гарантируя конфиденциальность информации субъектов персональных данных.
Модель подтвердила существование технологии снижения риска реидентификации до околонулевых значений даже при использовании дополнительной информации. Некоторые наборы данных не могут быть деобезличены даже с использованием данных из даркнета.
- Каково значение проекта для отрасли данных?
Н.Н.: Это первый и единственный на данный момент открытый проект по оценке качества алгоритмов обезличивания персональных данных. Разработка риск-модели и ее валидация – большой шаг к выводу обезличенных данных из «серой» зоны, который позволит позволит продвинуться к легализации их использования в бизнес-среде.
М.Т.: Модель оценки рисков повторной идентификации позволяет рассчитать вероятность выделения персональной информации в обезличенном датасете. Основываясь на этой оценке, бизнес может принимать обоснованные решения об используемых средствах защиты и методах обработки данных.
По сути, все игроки рынка получили работающий алгоритм, с помощью которого они могут убедиться, что при обезличивании данных риски повторной идентификации сведены к минимуму.