Гради Буч — главный научный сотрудник IBM Research, создатель объектно-ориентированного подхода к проектированию и разработке программного обеспечения и языка UML.В ходе переписи населения в Индии в 2011 году был проведен грандиозный эксперимент — все граждане должны были сфотографироваться, снять отпечатки пальцев и ответить на вопросы о своем семейном положении, образовании и роде занятий. В общем-то, в этом нет ничего необычного: перепись населения регулярно проводится во многих государствах уже давно. Однако в данном случае масштабы сбора таких объемов цифровой информации оказались беспрецедентными.

Перепись населения известна нам со времен Римской империи — то же самое делали и норманны, о чем свидетельствует «Книга Судного дня» (кадастровая книга Вильгельма Завоевателя), а в США в первой статье второго раздела конституции полномочиями проведения переписи наделяется конгресс, причем данные, собранные в результате переписи, защищены 13-й главой свода законов США, согласно которой они не разглашаются в течение 72 лет. Особенно интересно проследить за тем, как с течением времени менялись вопросы, задававшиеся в ходе переписи. В 1790 году в каждом домохозяйстве подсчитывалось число свободных белых мужчин и количество рабов. В 1890 году в ходе переписи спрашивали: «Имеются ли у вас психические отклонения или нарушения зрения, слуха и речи?», а также «Умеете ли вы читать и писать?». В 1990 году вопросы отражали уже иную культуру: «В какое время вы обычно выходите из дома, отправляясь на работу?», «Каков ваш совокупный доход?». В 2000 году в связи с ростом числа мигрантов в опросном листе появился пункт: «Являетесь ли вы гражданином Соединенных Штатов?». И наконец, в 2010 году перед жителями США поставили более прямой вопрос: «Являетесь ли вы выходцем из Испании, Латинской Америки или испаноговорящим?».

Применение и злоупотребление

Государства проводят перепись населения по ряду вполне понятных причин — им нужно планировать бюджет и социальную политику. Все чаще, однако, мы видим злоупотребления данными переписи. В мае 1943 года, через пять месяцев после бомбардировки Перл-Харбора, все жители США японского происхождения были перемещены в лагеря для интернированных, включая и тех, кто был законопослушным гражданином Соединенных Штатов. Как идентифицировали этих людей? По переписи 1940 года, хотя по закону эти персональные данные следовало держать в тайне!

Как говорил основоположник кибернетики Норберт Винер, «чтобы добиваться в жизни желаемых результатов, надо обладать необходимой информацией». И это действительно так, но он же указывал: «Наказание за недальновидные поступки и сейчас может оказаться весьма суровым, а в перспективе, при активном использовании средств автоматизации, его сила многократно возрастет». Винер высказывал свою точку зрения в контексте Второй мировой и холодной войны, но, как заметил недавно Эрик Шмидт из Google, сегодня мы находимся как раз в той ситуации, о которой когда-то говорил Винер. «С момента зарождения цивилизации и до 2003 года человечество накопило пять экзабайт данных, — подчеркнул Шмидт. — Сейчас те же пять экзабайт мы генерируем за два дня» [1]. Пол Ом, правовед и автор многочисленных публикаций, посвященных Большим Данным, обеспокоен нежелательными последствиями стремительного увеличения объемов данных: «Базы данных продолжают расти, и уже скоро каждый пользователь будет иметь доступ по крайней мере к одному тщательно охраняемому секрету» [2]. Сейчас, по словам Кейт Кроуфорд из Microsoft, мы пришли к фундаментальной потребности в Больших Данных: благодаря им мы становимся ближе к объективной реальности [3].

Доверие к Большим Данным

Коллекции неперсональных Больших Данных имеют свойство расширяться. Большой адронный коллайдер, телескоп Square Kilometer Array и метеорологические данные — вот только три примера областей физического мира, где накапливаются огромные объемы информации. Однако и области персональных Больших Данных также расширяются аналогичными темпами. Президентские выборы 2012 года сопровождались интенсивным сбором и обработкой данных, бизнес-модели Facebook, Amazon, Google, eBay, Wal-Mart и многие другие изначально основаны на Больших Данных, в которых каждый человек является одновременно и их пользователем, и объектом тщательного исследования. Использование этими компаниями персональных данных не должно быть неожиданностью для людей, ведь полезную информацию эти компании получают за счет сбора и анализа данных о нашей деятельности. Сведения эти черпаются из самых разных событий, происходящих в физическом мире, — телефонных звонков, перемещения смартфонов, показаний интеллектуальных датчиков и т. д., — после чего все это объединяется с другой информацией и используется без нашего ведома. Речь идет о пересечении возможного и желательного, при этом морально-этические аспекты использования Больших Данных остаются неясными.

Можно предположить, что Большим Данным присущи и другие особенности, по отношению к которым пока нет определенности. Как лучше развивать модели, лежащие в основе наших данных? Кому принадлежат данные? Кто несет ответственность в тех случаях, когда правила использования данных нарушаются на протяжении их жизненного цикла?

Значимость Больших Данных

Наблюдая компьютерную индустрию изнутри, я понимаю, что сами по себе данные нейтральны, но мне известно и то, что использование средств, которыми мы анализируем данные, и наши действия, предпринимаемые на основе этого анализа, влекут за собой вполне реальные последствия для людей. Комиссия по вопросам юстиции Евросоюза четко подчеркнула, что право на тайну частной жизни относится к числу фундаментальных прав человека. Администрация Обамы в документе «Конфиденциальность данных потребителей в сетевом мире» заявляет: «Потребители вправе ожидать от компаний, собирающих, использующих и раскрывающих их персональные данные, соблюдения условий, на которых эти данные им предоставляются» [4]. Вместе с тем, такие утверждения оставляют место для самых разных интерпретаций.

Зная компьютерные технологии и входя в состав различных профессиональных организаций, мы несем ответственность за правильный этический выбор. Согласно заявлениям Международного совета по этическому кодексу в вопросах проектирования систем, «практика проектирования систем может принести немалые выгоды как в экономической, так и в социальной сфере, но только в том случае, если все побочные и нежелательные эффекты учтены и нивелированы». Этический кодекс IEEE гласит: «Мы, члены IEEE, признавая важность влияния наших технологий на повышение качества жизни в мире, обязуемся стать их техническими и профессиональными проводниками». В этическом кодексе разработки программ ACM сказано еще более конкретно: «Разработчики программного обеспечения имеют широкие возможности действовать как во благо, так и во вред, открывать поле для деятельности во благо или во вред другим и влиять на то, чтобы другие действовали во благо или во вред».

Большие Данные во благо

Во время эпидемии холеры в Лондоне в 1854 году Джон Сноу составил карту распространения холеры в городе. Из этого визуального представления стало очевидно, что основной причиной вспышки заболевания стала загрязненная насосная станция, а ее отключение способствовало началу устранения последствий бедствия. Благодаря работам Крейга Вентера и Национального института по проблемам старения сегодня мы имеем возможность получать последовательности человеческого генома. Стоимость такого анализа продолжает стремительно падать — начавшись с миллионов долларов за последовательность и затем снизившись до нескольких сотен тысяч, сегодня она уже приближается к тысяче долларов за обследование одного человека. Недалек тот день, когда последовательность индивидуальной ДНК можно будет получить за 100 долл. При таких ценах в экономике Больших Данных, связанных с изучением генома, произойдут серьезные изменения. Следует ли разрешать проведение структурного анализа таких данных? Должны ли родители иметь право вмешиваться в судьбу своих детей на генетическом уровне? Что делать, если анализ покажет генетические нарушения у еще не родившегося ребенка?

Чарльз Бэббидж жил в мире, в котором статистические исследования только начинали первые шаги. Королевское статистическое общество гордилось проведенным в 1842 году изучением числа незаконнорожденных в Англии и Уэльсе на основе реестров рождаемости, а сегодня, в эпоху Интернета вещей, мы можем собирать данные любого рода. На основе записей о регистрации транспортных средств, например, можно получать беспрецедентные объемы информации о любой машине в реальном времени. В то же время Национальная стрелковая ассоциация США — организация, которая имеет, наверное, наиболее полную информацию о владельцах оружия, — выступает против создания национального реестра оружия. Воздержусь от комментариев политических причин такого решения, но в стране явно назрела потребность в определении государственной политики по отношению к Большим Данным. Возникает вопрос: какие ограничения культура или политика может накладывать на жизненный цикл данных?

В 1590 году между Тихо Браге и Иоганном Кеплером разгорелся нешуточный спор о доступе к данным. Браге сумел собрать большой объем информации о движении планет, но не имел достаточной математической подготовки для ее обработки. Кеплер, напротив, считался одним из наиболее заслуженных ученых, но у него не было данных. К счастью для Кеплера, но не для Браге, ситуация разрешилась сама собой после смерти последнего. Сегодня, когда в мире правит бал целевая реклама, наиболее мощные игроки вроде Google ведут аналогичную битву за обладание данными. Какие данные компании имеют право собирать на законных основаниях? Изменится ли ваш ответ, если эти данные будут касаться непосредственно вас? А если они будут касаться ваших детей?

Представители секты аманитов известны своей осмотрительностью. И к использованию новых технологий они подходят очень осторожно. Недавний опрос их лидеров показал, что их волнует не только характер использования технологий, оказывающих влияние на их жизнь, но и перемены, происходящие в людях, которые применяют эти технологии.

***

Профессионалам в области создания программного обеспечения сегодня уже недостаточно всего лишь «не делать зла» — мы должны призывать к тому, чтобы все наши действия приносили максимальную пользу. И хотя не все здесь так просто, с этим призывом придется столкнуться каждому из нас, как на работе, так и в личной жизни.

Литература

  1. R. Smolan and J. Erwitt. The Human Face of Big Data, Against All Odds Productions, 2012.
  2. P. Ohm. Don’t Build a Database of Ruin. Harvard Business Review, blog, 23 Aug. 2012. http://blogs.hbr.org/2012/08/dont-build-a-database-of-ruin.
  3. Q. Hardy. Why Big Data Is Not Truth. New York Times, blog, 1 June 2013. http://bits.blogs.nytimes.com/2013/06/01/why-big-data-is-not-truth.
  4. Consumer Data Privacy in a Networked World, white paper, The White House; http://www.whitehouse.gov/sites/default/files/privacy-final.pdf.

Гради Буч (grady@computingthehumanexperience.com) — главный научный сотрудник IBM Research, создатель объектно-ориентированного подхода к проектированию и разработке программного обеспечения и языка UML.

Grady Booch, The Human and Ethical Aspects of Big Data, IEEE Software, Jan/Feb 2014, IEEE Computer Society. All rights reserved. Reprinted with permission.