Электронный надзор и Большие Данные

В статьях мартовского выпуска журнала Computer (IEEE Computer Society, Vol. 49, No. 3) рассматриваются технологии наблюдения за субъектами электронных систем связи, применяемые как силовыми структурами, так и злоумышленниками, а также проблемы, связанные с разработкой нормативно-правовых актов, регулирующих государственную слежку. Разработчики законов катастрофически не поспевают за многочисленными новшествами, появляющимися в мире ИТ, — недавний судебный конфликт между ФБР и Apple, когда силовики потребовали от компании разработать специальную версию iOS с «черным входом» для извлечения из iPhone зашифрованных данных, с новой силой разжег дискуссии о сборе информации, слежке, приватности, безопасности, секретности, связи и доверии.

Слежка в системах электронных коммуникаций, осуществляемая правительством или киберпреступниками, — суровая реальность современной жизни. Граница между законной и незаконной слежкой размыта, что хорошо видно на примере скандально известной программы АНБ PRISM, публично разоблаченной Эдвардом Сноуденом в 2013 году. Но, так или иначе, технологии слежки в системах связи продолжают развиваться.

В статье «Незащищенная слежка: технические сложности удаленного обыска компьютеров» (Insecure Surveillance: Technical Issues with Remote Computer Searches) Стивен Белловин (Steven Bellovin), Мэтт Блейз (Matt Blaze) и Сюзан Ландау (Susan Landau) пишут о недавнем законопроекте, регламентирующем правила проведения дистанционного обыска компьютеров. Авторы исследуют потенциальные недоработки в нем, убедительно демонстрируя возможность несправедливого обвинения легитимных пользователей. Например, обнаруженное в ходе подобного обыска легально применяемое ПО для маскировки местонахождения может быть воспринято как свидетельство криминальной деятельности. Показывая, что в нынешнем виде предложенные правила могут создать серьезные проблемы с безопасностью, авторы предлагают собственные варианты поправок.

Немаловажную роль в деле защиты от слежки играют механизмы безопасности телефонных звонков. Поскольку нынешние средства неполноценны и имеют свои ограничения, возникает потребность в более совершенных разработках. Стивен Мердок (Steven Murdoch) рассматривает эту тему в статье «Преднамеренно незащищенные протоколы шифрования телефонных звонков» (Insecure by Design: Protocols for Encrypted Phone Calls), которая посвящена стандарту шифрования голосовой связи MIKEY-SAKKE, предложенному британским правительством. Автор приходит к выводу, что этот протокол не отвечает большинству требований к стандартам надежного шифрования голоса и не обеспечивает приемлемого уровня приватности пользователей. В статье приводятся примеры более надежных систем защиты голосовой связи.

В публикации «Нужен анализ требований — иначе целенаправленный мониторинг превратится в тотальный» (Requirements Analysis Required — Otherwise Targeted Monitoring Enables Pervasive Monitoring) Стивен Фаррел (Stephen Farrell) обсуждает проблемы, связанные с технологиями направленного перехвата информации, применяемыми правоохранительными органами. По мнению автора, если подобные системы разрабатываются без предварительного всестороннего анализа требований, их можно легко задействовать для организации тотальной слежки, которая будет вторжением в частную жизнь законопослушных пользователей. Автор убежден, что благодаря открытой переоценке требований к таким технологиям, осуществляемой совместно правозащитными организациями, госструктурами, техническими специалистами и поставщиками услуг связи, протоколы Интернета можно было бы переработать таким образом, чтобы обеспечить безопасность и тайну личной жизни граждан, а также долговечность самой Всемирной сети.

Использование средств анонимизации связи через Интернет растет, и одним из главных инструментов такого рода является Tor. Роберт Кох (Robert Koch), Марио Голлинг (Mario Golling) и Габи Дрео Робосек (Gabi Dreo Robosek) опубликовали статью «Насколько анонимна сеть Tor? Долгосрочное исследование, проведенное по принципу черного ящика» (How Anonymous Is the Tor Network? A Long-Term Black-Box Investigation). В ходе полуторалетнего исследования был собран массив данных, которые мог бы получить крупный провайдер или сервис анализа трафика. Авторы обнаружили существенный дисбаланс между количеством теоретически доступных выходных узлов Tor и реальным числом использовавшихся. Более того, выходные узлы, которыми пользовались, принадлежат весьма ограниченному количеству провайдеров или не слишком разнесены географически, что значительно облегчает сбор данных и анализ трафика.

В Интернете довольно широко распространены онлайн-трекеры, собирающие информацию, по которой можно установить личность пользователя, в целях формирования досье для рекламных или иных нужд. Авторы статьи «Пассивное обнаружение онлайн-трекеров» (Using Passive Measurements to Demystify Online Trackers) Хассан Метволли (Hassan Metwalley), Стефано Траверсо (Stefano Traverso) и Марко Мелья (Marco Mellia) оценили масштабы использования трекеров по собственной методике. Было обнаружено более 800 активных трекеров, из которых примерно 100 регулярно применяются 40% активных пользователей Интернета. Таким образом, распространенность трекеров в WWW высока, при этом блокирующие их плагины для браузеров применяются относительно редко (они обнаружены только на 12% компьютеров). Авторы предлагают внести в законодательство дополнения, которые бы регулировали использование сторонних трекеров.

Технологии Больших Данных избавляются от недостатков

Темой апрельского выпуска Computer (IEEE Computer Society, V. 49, No. 4) стали современные тенденции в мире СУБД, алгоритмов и приложений, применяемых для работы с Большими Данными.

Согласно «Циклу зрелости технологий» Gartner, технологии Больших Данных уже прошли этапы «пика чрезмерных ожиданий» и «избавления от иллюзий» и сейчас уверенно продвигаются по пути «избавления от недостатков». Вследствие стремительной цифровизации современного мира, Большие Данные становятся стержнем не только научных исследований и инженерного проектирования, но также всевозможных гуманитарных и творческих дисциплин. Базы NoSQL относятся к числу технологий, с которыми начали ассоциировать революцию Больших Данных, и хотя начальные этапы цикла зрелости NoSQL уже позади, на сегодня все еще нет единого мнения о том, что именно в них включать. Джигнеш Пател (Jignesh M. Patel) рассматривает этот вопрос в статье «Системы NoSQL для оперативной обработки транзакций: что нового и что дальше?» (Operational NoSQL Systems: What's New and What's Next?).

В статье «Ренессанс в мире СУБД: как сделать выбор из возможных кандидатов» (Renaissance in Database Management: Navigating the Landscape of Candidate Systems) Венкат Гудивада (Venkat Gudivada), Дана Рао (Dhana Rao) и Виджай Рагаван (Vijay Raghavan) проясняют ситуацию с доступным на сегодня выбором архитектур систем Больших Данных.

Джованни Черубини (Giovanni Cherubini), Дженс Джелитто (Jens Jelitto) и Винод Венкатесан (Vinodh Venkatesan) в статье «Когнитивное хранение Больших Данных» (Cognitive Storage for Big Data) выдвигают идею систем хранения нового типа. В отличие от традиционных, когнитивная система учитывает такие показатели, как ценность, популярность и степень устаревания данных.

В статье «Перемещающиеся алгоритмы анализа Больших Данных» (Nomadic Computing for Big Data Analytics), авторами которой являются Сян Фу Юй (Hsiang-Fu Yu), Чжо Жуй Се (Cho-Jui Hsieh), Хе Кхун Юн (Hyokun Yun), С.В.Н. Вишванатан (S.V.N. Vishwanathan) и Индерджит Диллон (Inderjit Dhillon), предлагается метод анализа Больших Данных с помощью «перемещающихся» (nomadic) алгоритмов. Авторы демонстрируют, как можно организовать параллельную обработку более эффективно, чем это делается с применением преобладающего сейчас подхода MapReduce.

Асмаа Элбадрави (Asmaa Elbadrawy), Агорица Полизу (Agoritsa Polyzou), Чжиюнь Жэнь (Zhiyun Ren), Макензи Суини (Mackenzie Sweeney), Джордж Карипис (George Karypis) и Хузефа Рангвала (Huzefa Rangwala) опубликовали статью «Прогнозирование результативности учащихся с помощью персонализированной аналитики» (Predicting Student Performance Using Personalized Analytics), посвященную использованию Больших Данных в контексте массовых открытых онлайн-курсов. Авторы описывают инструменты, позволяющие прогнозировать количество студентов, которые пройдут курс целиком, оценивать успеваемость и предсказывать результаты экзаменов.

Александр Тыренко (shoorah@osp.ru) — обозреватель «Computerworld Россия» (Москва).