Технологии Больших Данных можно разделить на три кластера, ориентированных на массивы данных, их потоки, а также на мультимедийные данные.
В кластер работы с большими массивами данных входят технологии массовой обработки неструктурированной информации. Классический пример — Hadoop, вместе с распределенной базой Hbase позволяющий отыскивать данные, соответствующие определенным требованиям. Причем предполагается распределенная обработка Больших Данных, где каждый отдельный элемент системы по общим правилам обрабатывает свой небольшой фрагмент данных. Но все вместе такие элементы не должны пропустить ни одного фрагмента — за этим следит Hadoop. Подобные решения массовой обработки больших массивов хороши, например, для анализа системных журналов и корпоративных баз данных, в которых часто можно найти много ценных для обеспечения безопасности сведений.
Технологии кластера потоков данных направлены на исследование множества потоков, в которых нужно заранее выделить определенные шаблоны и применить для найденных фрагментов соответствующие правила обработки. В качестве примера можно назвать проект Storm, использующий в своей работе социальную сеть Twitter. В этом случае каждый отдельный элемент распределенной системы контролирует свой, относительно небольшой поток информации, выделяя в нем общие шаблоны, а все вместе элементы могут обработать достаточно большой поток сообщений. Решения такого класса эффективны при обработке сетевых протоколов — например, для защиты от DDoS-атак или выявления аномальных сетевых соединений.
Технологии Больших Мультимедийных Данных еще только начинают развиваться и предназначены для выделения определенных шаблонов в медийном потоке, содержащем, например, геоинформационные данные. Проектов, использующих технологии подобного класса, еще мало, — в частности, есть решения по обработке мультимедийных данных средствами СУБД MongoDB. Каждый экземпляр базы хранит сведения о своем бинарном объекте, например изображении, выявляя в нем общие признаки, а все экземпляры вместе позволяют обнаруживать сложные взаимосвязи между бинарными объектами. Применять технологии из данного кластера можно для анализа телефонных переговоров на предмет выявления мошенничества, для изучения содержимого видеопотоков от камер видеонаблюдения и т. п.
Таким образом, видно, что средства защиты вполне могут быть построены на технологиях Больших Данных, однако пока речь идет о достаточно простых решениях, применяющих во многом очевидные правила к потоку корпоративных данных. Например, если сотрудник начинает часто посещать сайты для поиска работы, то это означает увеличение риска его потери для предприятия, но сотрудники посещают самые разнообразные ресурсы, а технологии Больших Данных позволяют выделить из этого потока именно те, которые относятся к заданному шаблону поведения. Однако у каждого предприятия свои угрозы: для кого-то уход одного сотрудника может повлечь разрушение ключевого коллектива разработчиков, а для кого-то текучка кадров несущественна — поэтому для создания актуальных именно для конкретного предприятия и для данного времени шаблонов нужно привлекать аналитиков, которые бы выявляли закономерности и формулировали правила работы распознающей системы, построенной на основе набора технологий Больших Данных. Но экспертов, которые могли бы работать в таких отделах, в России еще мало, поэтому на первом этапе технологии защиты будут применяться в режиме веб-сервисов, поддержкой которых будет заниматься производитель, специализирующийся на средствах защиты. В этом случае все данные клиента пересылаются в облако оператора сервиса, обрабатываются, а затем по ним формируются рекомендации агенту системы защиты.
Следует напомнить, что технологии Больших Данных эффективно работают именно на больших объемах данных и малом наборе правил, поэтому тем, кто создает подобные решения, будет выгодно собирать как можно больше данных, выбирая для этого в качестве клиентов максимально похожие компании и решать для них схожие задачи. Скорее всего, максимальная выгода от использования таких сервисов будет достигаться при предоставлении массовых услуг небольшим компаниям или частным пользователям.
Приведем примеры защитных механизмов на основе технологий Больших Данных.
Защита от DDoS-атак. Поток данных, генерируемый зомби-сетью для проведения DDoS-атаки, вполне можно отнести к разряду Больших, причем из него нужно выделить реальных пользователей, запросы которых надо передать по назначению, а паразитный трафик задержать. Решение может быть распределенным, построенным по принципам сети распространения контента (Content Distribution Network, CDN). Владельцы такой сети стремятся максимально приблизить данные к пользователю, передавая наиболее востребованные из них напрямую к провайдерам доступа, которые пользуются сервисом. Эту архитектуру можно «перевернуть», установив у провайдеров доступа фильтры, каждый из которых обрабатывает получаемые от пользователей запросы и фиксирует те из них, которые являются элементами DDoS-атаки. В этом случае каждый кластер отвечает за обработку запросов, исходящих от пользователей только одного провайдера, чтобы не допустить сбора всего трафика DDoS-атаки в одной точке, которая быстро может стать бутылочным горлом. Поскольку этот сервис предполагает обработку больших потоков данных, то для его реализации лучше всего применять решения типа Storm.
Сетевая защита. Технологии Больших Данных можно применять для поиска аномалий в сетевом трафике, что весьма полезно для защиты от целевых атак, использующих нестандартные приемы работы с сетью, такие как туннелирование в IPv6 или DNS-VPN, когда канал утечки организуется с помощью подконтрольного злоумышленнику DNS-сервиса, обменивающегося с троянцем запросами по заранее определенному протоколу. Стандартными средствами обеспечения безопасности, рассчитанными на массовые нападения, практически невозможно блокировать целевые атаки, поэтому сейчас появляются компании, которые предлагают сервисы анализа всего сетевого трафика организации для выделения необычных фрагментов. Например, компания BitSight Technologies предложила набор сервисов BitSight Partner SecurityRating для обнаружения аномалий. Клиенты пропускают через устройство компании весь поток данных, которые анализируются на предмет поиска в них признаков DDoS-атак, работающих зомби и других угроз. По результатам анализа сотрудникам информационной безопасности организации предлагается рейтинг состояния защищенности их корпоративной системы. В принципе, здесь также обрабатываются потоки, поэтому лучше использовать Storm, однако сетевая защита может работать с сохраненными в виде системных журналов записями и тогда можно применить Hadoop.
Системы предотвращения вторжений. Такие системы, работающие на компьютерах компании, могут быть перенесены на облачные платформы, поддерживающие технологии Больших Данных. Специальный агент собирает сведения о файлах, процессах, состоянии памяти и сети и пересылает их в облако для обработки с целью выявления аномалий в поведении приложений. По ряду признаков можно определить типы вредоносного кода — от вирусов, кардинально меняющих поведение процессов, до программ-невидимок, вмешивающихся в работу ОС. В частности, именно такую услугу сейчас разрабатывает петербургская компания Cesarity, входящая в группу InfoWatch. Новый сервис будет полезен при защите от целевых атак, в случаях, когда не совсем понятно, от чего именно нужно защищаться. Здесь также предполагается большой поток данных со всех защищаемых устройств.
Анализ корпоративных баз. В компаниях сегодня собирается много сведений о сотрудниках, их интересах, просматриваемых веб-страницах, опыте и т. п. — все это может быть использовано для организации защиты от внутренних угроз. В основу решения может быть положен аппарат управления рисками — система собирает данные из различных источников и по относительно простым правилам высчитывает риски для каждого отдельного сотрудника, а потом вычисляет общий риск. Учитывая большие объемы сведений, технологии Больших Данных будут здесь весьма кстати. Аналитики говорят, что появления на рынке продуктов такого класса можно ожидать в ближайшие три — пять лет. Однако решение подобных задач не универсально и зависит от конкретных бизнес-процессов компании, к тому же внутренние угрозы обычно уникальны и объединить их по всем компаниям будет трудно. В то же время для отдельной компании эффективнее будет аналитическое решение, а не распределенная система массовой обработки, полезная только в случае определенного класса задач, универсальных для различных компаний: выявление мошенничества, контроль соблюдения корпоративной политики доступа и т. п. Поскольку здесь предполагается массовый анализ документов, то для его реализации лучше подойдет документальная база данных, например MongoDB.
Видеоаналитика. Сегодня технологии Больших Данных еще недостаточно широко применяются для обработки видеопотоков, тем не менее уже появляются решения по распределенному выявлению объектов и событий — например, уже имеется потребность в распределенной обработке потоков данных, поступающих с камер видеонаблюдения для обеспечения автоматической реакции на нерегулярные явления. Системы обработки видеопотоков должны быть распределенными, и правила для них должны быть универсальными для всех охраняемых объектов, поэтому здесь вполне могут быть использованы технологии Больших Данных.
***
Технологии Больших Данных становятся все более доступными, а в комплексных системах безопасности есть потребность в массовой обработке большого количества сведений по небольшому набору правил. Перечисленные примеры — только часть возможных применений технологий Больших Данных для решения задач обеспечения информационной безопасности, и вполне возможно, что скоро появятся новые сервисы, построенные на том же наборе средств. Для успешной реализации подобных проектов нужны инженеры данных, в задачу которых входят анализ хитросплетения данных и выявление в массивах и потоках данных скрытых закономерностей, но пока таких специалистов мало.