Большие Данные рассматриваются отраслевым сообществом как один из ключевых инструментов цифровой трансформации предприятий и организаций. Этот инструмент предоставляет им огромные возможности для обогащения «сырой руды» данных и превращения ее в знания, помогающие совершенствовать деловые и организационные процессы, повышать эффективность бизнеса и конкурентоспособность. Но у каждой продуктивной идеи есть свои ограничения, и применить означенные возможности на практике не так просто, а иногда эти усилия сопряжены с риском компрометации важной информации.
Цифровой дуализм
По мнению Алексея Лукацкого, эксперта Cisco в области информационной безопасности, Большие Данные – это и благо, и зло для любого предприятия, ступившего на путь их освоения. Благо – потому что Большие Данные при должном умении действительно могут дать доступ к таким сведениям, которые нельзя получить при традиционной обработке информации. Зло – потому что мало кто умеет работать с такими данными и извлекать из них ценность.
«Неверные выводы, которые можно сделать на основе Больших Данных, – вот основная проблема при их использовании. И угрозы информационной безопасности обычно уходят в такой ситуации на второй план. Вообще, каких-то особых и новых угроз для Больших Данных нет. Красть такие данные, не имея представления о том, как их можно использовать, смысла нет (да и красть колоссальные объемы данных довольно проблематично). Вносить в них изменения? При условии неопределенности принимаемых на их основе решений – тоже бессмысленно», – рассуждает Лукацкий.
Но это, скорее, концептуальный взгляд на проблему. В реальности же злоумышленники, получив доступ к Большим Данным, могут нанести очень серьезный ущерб их владельцам. Вот, например, какой случай описывает в своей статье известный архитектор встраиваемого программного обеспечения, инженер-консультант компании Emulex Тим Джонс (статья размещена на сайте IBM). Дело было в 2006 году. Тогда компания Netflix в рамках конкурса по совершенствованию рекомендательного сервиса выбора кинофильмов предоставила разработчикам большой пакет данных. Это было нужно для совершенствования поисковых алгоритмов сервиса. В пакете содержались внутренние данные Netflix, из которых предусмотрительно была удалена информация, позволяющая точно идентифицировать клиентов компании. Однако разработчики смогли легко выявить всех клиентов по их идентификаторам в базе данных Netflix, сопоставив анонимные рецензии в предоставленном Netflix пакете и рецензии, опубликованные на одном из специальных сайтов.
«Этот случай наглядно показал, что даже анонимные данные можно отследить вплоть до истинных пользователей, установив взаимосвязь между имеющейся информацией из базы данных и сведениями из других общедоступных источников», – подчеркивает Джонс.
Берегите базы данных
Дмитрий Частухин, директор департамента аудита SAP в компании Digital Security, подтверждает наличие подобных рисков: «Конечно же, основные проблемы у крупных предприятий, реализующих концепцию Больших Данных, начинаются тогда, когда атакующий получает доступ к базам данных и происходит, собственно, нарушение целостности, доступности, конфиденциальности информации. Можно представить, какой простор возможностей по монетизации атак открывается для злоумышленника, например, получившего доступ к данным о работе крупной корпорации за последние десять лет или к предпочтениям людей в выборе продуктов питания».
По словам Частухина, атакующий может реализовывать множество сценариев нападений на Большие Данные, ведь схемы компрометации инфраструктуры, работающей с ними, мало чем отличаются от тех схем, которые применяются во время атак на общую инфраструктуру предприятий. Социотехнические атаки, уязвимости в программном обеспечении, неверно разграниченный доступ и другие уязвимости – все это в конечном итоге может привести к тому, что данные, бережно накапливаемые и хранимые компанией для анализа, окажутся доступны третьим лицам.
Лукацкий же считает: основная проблема в контексте информационной безопасности, встающая перед владельцами Больших Данных, – это приватность. Он приводит в пример известный случай, когда крупный американский магазин сделал вывод о беременности своей покупательницы только по анализу ее поведения в онлайн-магазине.
Впрочем, собираемые по отдельности сведения о человеке могут не представлять большого интереса ни для него самого, ни для злоумышленников. Владелец таких сведений, поскольку считает их малозначащими, может даже не заботиться о защите.
«Только в комбинации с множеством других малозначащих данных они превращаются в мощное оружие (если его умело использовать). И как бороться с нарушением приватности, пока никто не знает. Где та граница, за которой разрозненные данные становятся Большими и важными? Как соблюсти баланс между бизнес-потребностями и предотвращением вторжения в частную жизнь гражданина? Эти вопросы задают сегодня многие специалисты по праву, информационной безопасности, ИТ. И ответа пока что нет. Каждый руководствуется принципом целесообразности, а целесообразность у всех своя», – таков взгляд на проблему эксперта из Cisco.
Опасная масштабируемость
На прикладном же уровне безопасность Больших Данных во многом определяется защищенностью того, что называют их «столпом», а именно – инфраструктурой Hadoop.
Специалисты проверили наиболее распространенные Hadoop-окружения и нашли ряд критичных уязвимостей, способных омрачить репутацию Больших Данных как продуктивного инструмента цифровой трансформации
Якуб Калюжный, старший консультант по ИТ-безопасности компании SecuRing, рассказал на международной конференции ZeroNights, что их специалисты проверили наиболее распространенные Hadoop-окружения и нашли ряд критичных уязвимостей, способных омрачить репутацию Больших Данных как продуктивного инструмента цифровой трансформации. По его словам, злоумышленники могут попытаться скомпрометировать данные, атаковав как внешние, так и внутренние интерфейсы в экосистеме Hadoop, а также ее отдельные элементы, включая каналы связи с базами данных, системы администрирования и т. д. Так, одно из главных преимуществ Hadoop – почти неограниченная масштабируемость – является и одним из главных источников угроз для безопасности. Ведь масштабируемость Hadoop обеспечивается тем, что данные размещаются на множестве узлов обработки, объединенных в кластер. Это серьезно осложняет и администрирование доступа к данным, и их защиту от потерь путем резервного копирования.
Учитывая сложность и масштаб систем на основе Hadoop, можно говорить, что поддержание безопасности в них само по себе является сложнейшей задачей и защитная система, чтобы обеспечить безопасность на надлежащем уровне, должна быть интегрирована со всей инфраструктурой Hadoop, а у нее есть свои природные слабости, подчеркивает Тим Джонс.
В частности, файловая система Hadoop Distributed File System реализуется поверх другой файловой системы (например, ext3). И средства контроля доступа для Hadoop реализуются с использованием разрешений на основе файлов, соответствующих модели разрешений UNIX. Эта модель предоставляет разрешения на уровне файлов в рамках HDFS, однако ей не хватает детализированных средств управления доступом. Недостаточная эффективность системы управления доступом чревата серьезными последствиями для безопасности.
Приоритет – комплексность
Частухин дополняет перечень угроз, специфичных для концепции Больших Данных: «Например, могут быть предприняты атаки на нейронные сети или классификаторы. Не секрет, что Большие Данные обычно хранятся неструктурированными и для работы с ними могут применяться разного рода алгоритмы. Скомпрометировав методы обработки Больших Данных, можно нанести ущерб компании, изменив, допустим, алгоритмы, принимающие решения о выдаче кредитных займов или закупках тех или иных товаров».
В Digital Security полагают, что большинство атак на инфраструктуру Больших Данных имеют направленный характер, преследуют конкретные цели, в основном – преступным путем заработать деньги. Для того чтобы атаковать такого рода системы, злоумышленникам все же необходимо обладать специальными знаниями, впрочем, как и для успешных атак на системы ERP и SCADA. Тем не менее подход к защите Больших Данных должен быть комплексным. Поставив перед собой цель скомпрометировать данные, злоумышленник будет использовать для атаки самые незащищенные элементы системы. Это могут быть программное обеспечение или человеческие ресурсы. Именно поэтому одинаково важно применять на практике как организационные, так и программные механизмы обеспечения безопасности, утверждают эксперты.