Личности 87% американцев можно однозначно установить, зная дату рождения, пол и почтовый индекс.
В продолжающихся дискуссиях о том, как защитить личную информацию, главное внимание уделяется тому, должно ли (и до какой степени) государство ограничивать объем личной информации, которую допускается запрашивать или распространять.
С недавних пор, однако, некоторые исследователи предпринимают шаги в совершенно ином направлении. Они создают программный инструментарий, который позволит хранить в тайне имена, адреса, данные о состоянии здоровья и другую информацию и вместе с этим выявлять в крупных наборах данных определенные шаблоны. Такие шаблоны служат индикатором важных социальных тенденций — изменения спроса, серьезных угроз здоровью населения или террористических атак.
Часть этого программного обеспечения запатентована и используется госструктурами в США. Другие алгоритмы найдут практическое применение лишь через несколько лет. Этот инструментарий, возможно, будет применяться учреждениями здравоохранения, фирмами, предлагающими финансовые услуги, а также правительственными агентствами для сбора и анализа информации, полученной от частных лиц.
Некоторые из уже существующих инструментальных средств ориентированы в первую очередь на сохранение анонимности. Так, браузер Freedom канадской компании Zero-Knowledge Systems не позволяет передавать по Internet-соединению личную информацию без ведома пользователя.
Одна из самых серьезных проблем заключается в том, что люди уверены в анонимности своих данных, хотя это не так Латаня Свини, профессор Университета Карнеги-Меллона |
К примеру, сотрудники института IBM Privacy Research Institute работают над реализацией подхода, который предусматривает изменение данных перед их передачей. Компания, работающая в Web, может использовать собранные сведения для получения важной демографической информации, не зная конфиденциальных данных индивидуального потребителя.
Пользователи могут указывать свой возраст, размер зарплаты и вес, а программное обеспечение будет эту информацию случайным образом изменять, добавляя или вычитая к числам некую случайную величину. Эта величина, индивидуальная для каждого пользователя, имеет вместе с тем известное статистическое распределение. Программное обеспечение будет использовать эти обработанные значения и диапазон рандомизации для поиска статистической оценки истинного значения. По словам Ракеша Агравала, сотрудника IBM Research, работающего над этим проектом, эксперименты показывают, что точность таких данных снижается не более чем на 5%, даже если с помощью этого алгоритма были обработаны все данные.
В Университете Карнеги-Меллона озаботились проблемой защиты личной информации, которая уже стала публичной, такой как регистрационные данные при голосовании и сведения о выписке больных из лечебных учреждений. «Одна из самых серьезных проблем заключается в том, что люди уверены в анонимности своих данных, когда, на самом деле, они таковыми не являются», — подчеркнула Латаня Свини, профессор вычислительной математики, работающая в этом университете.
По оценкам Свини, личности 87% американцев можно однозначно установить, зная только дату рождения, пол и пятизначный региональный код.
Свини принимала участие в создании компании DatAnon, сформированной в августе этого года с целью коммерческой реализации технологии, разработанной в Университете Карнеги-Меллона. Ее инструментарий анализирует личные записи в базе данных, определяет, какие элементы записи обеспечивают ее уникальность, и затем изменяет только те элементы, которые необходимы для обеспечения ее анонимности. Например, вместо полной даты рождения могут быть оставлены сведения только о годе рождения.
Еще одно инструментальное средство DatAnon, называемое Datafly, может быть установлено в организациях здравоохранения, занимающихся вопросами предотвращения биотерроризма, для изменения стандарта анонимности в наборах данных в случае необходимости чьей-либо идентификации. Например, если в определенном регионе заболела большая группа людей, которые вследствие этого не вышли на работу, представители организации здравоохранения могут временно снизить стандарт анонимности в записях о выписке больных из лечебных учреждений и другую необходимую информацию, чтобы связаться с этими людьми и выяснить причины заболевания.
Свини также работает со студентами Университета Карнеги-Меллона над видеосистемами, сохраняющими анонимность, которые маскируют изображения непричастных людей на записях, сделанных камерами слежения.
Другой принцип, обеспечивающий поддержку конфиденциальности, состоит в хранении различных фрагментов данных в разных базах, в силу чего из одного источника невозможно получить полную информацию, которая может использоваться для вмешательства в частную жизнь человека. Этот метод, по словам Криса Клифтона, доцента университета Пурди, требует зашифровывать данные таким образом, чтобы никто не мог сообщить, из какого источника они получены. Имя пациента, например, может храниться в одной базе данных, его история болезни — в другой, а назначенное лечение — в третьей. Доступ ко всей информации в целом могут получить только пользователи, имеющие соответствующие полномочия. Это могло бы оказаться полезным, к примеру, если бы фармацевты и врачи захотели проводить совместную работу, касающуюся дозировки новых лекарственных препаратов.
Клифтон уверен, что пройдет еще несколько лет, прежде чем появятся коммерческие версии инструментальных средств, автоматически выполняющих сопоставление демографической информации, сохраняя при этом в тайне личные данные.
«Инструментарий, используемый сейчас для изменения личных данных, крайне ограничен и работает лишь с определенными наборами данных, причем применить его к другой информации крайне сложно», — подчеркнул он.