О проблеме Больших Данных в последние месяцы наперебой заговорили аналитики, консультанты, крупнейшие вендоры и системные интеграторы. Даже если отбросить неизбежный в таких случаях маркетинговый флер, становится очевидно, что стремительное разрастание объемов данных заставляет пересмотреть традиционные подходы к их обработке, особенно в связи с отсутствовавшими в конце прошлого века источниками генерации таких данных (облачные сервисы электронной почты, хранения документов и видео, социальные сети, исследования генома, медицинские изображения, интернет-вещание и др.). В силу ресурсных ограничений оперирование Большими Данными зачастую оказывается не по силам даже крупным организациям, и в этой связи взоры и ИТ-компаний, и заказчиков все чаще поднимаются к облакам.
Что имеем, то храним
Простейший запрос в Google выдает почти 50 млн ссылок, так или иначе посвященных связке «Big Data + Cloud Computing». Общее мнение сводится к тому, что Большие Данные и облака – «близнецы-братья». Действительно, перенос Больших Данных в облака прекрасно проецируется на модель SaaS, дополненную управляемыми сервисами. В то же время синергия двух новомодных ИТ-ипостасей зачастую трактуется весьма однобоко.
Первое применение облачных сервисов к Большим Данным напрашивается само собой —платформа хранения. Процесс разрастания объемов данных в ряде организаций сегодня зашел так далеко, что существующие корпоративные системы хранения в принципе не способны справиться с возложенной на них задачей. Построение в этой ситуации частного облака, по сути, лишь сводится к изменению терминологии, зато требует немалых инвестиций. Вот почему в общедоступных облачных сервисах сегодня многие видят панацею от лавинообразного роста объемов данных.
Как ни странно, далеко не все провайдеры облачных услуг уже готовы к такой постановке вопроса. Первое время облака рассматривались в основном как инфраструктура для выполнения различных приложений, и, несмотря на то что сервисы хранения пользовательских документов, изображений и видео в Интернете имеют сравнительно давнюю историю, не многие предполагали, что их логичным продолжением станет перемещение в облака Больших Данных. В отличие от контента частных пользователей, Большие Данные требуют принципиально нового подхода не только к построению собственно систем хранения, которые должны обладать необходимой емкостью, высокой эластичностью и масштабируемостью. Не меньшее значение имеет возможность их эффективного распределения между разными компонентами, высокая производительность операций поиска, а затем и ввода-вывода данных и ряд других функций, объединяемых понятием управления жизненным циклом информации (ILM).
Заоблачные выси
И все-таки сведение проблематики Больших Данных исключительно к организации их эффективного хранения в облаке выглядит настоящим расточительством. При всей актуальности процессов ILM и разграничения доступа к данным они играют лишь вспомогательную роль по отношению к задачам извлечения из Больших Данных максимума информации, необходимой при принятии решений. Аналитические приложения, работающие с Большими Данными в облаке, оказываются в первую очередь востребованными средним бизнесом, которому выгоднее воспользоваться моделями IaaS и SaaS, нежели развертывать собственные хранилища данных и приобретать традиционные лицензии на BI-программы.
Эксперты отмечают по крайней мере три ключевых фактора, позволяющих рассматривать облака в качестве идеальной среды для работы с Большими Данными. Один из них связан с эластичностью доступных вычислительных мощностей в облаке, что является крайне важным при обработке Больших Данных, которая характеризуется высокой степенью параллелизма. Другой имеет отношение к стандартам де-факто вроде платформ Hadoop и MapReduce, сделавшим возможным активное использование модели PaaS при создании новых облачных приложений для обработки Больших Данных. Наконец, немаловажным фактором является растущее распространение публичных облаков, поскольку расходы на развертывание частного облака для операций с Большими Данными во многих организациях оказываются запредельными.
Сегодня многие облачные программы бизнес-аналитики базируются на платформе MapReduce, разработанной компанией Google в 2004 году в целях поддержки гигантских распределенных массивов данных на компьютерных кластерах. Важным достоинством этой платформы является способность обрабатывать как структурированные, так и неструктурированные данные. За годы, прошедшие после ее создания, на рынке появилось множество основанных на MapReduce разработок, в том числе с открытым кодом. Сегодня MapReduce обычно используется в связке с платформой Hadoop, распределенная файловая система которой (HDFS) формирует отказоустойчивую инфраструктуру хранения и обработки Больших Данных. MapReduce позволяет писать программы для параллельной обработки гигантских массивов неструктурированных данных на многопроцессорном кластере либо в распределенной среде, состоящей из отдельных компьютеров. Платформа Hadoop, первоначально разработанная компанией Yahoo!, а сегодня поддерживаемая Apache Software Foundation, предоставляет корпоративным клиентам удобный инструментарий для работы со сложными данными при помощи аналитических средств, учитывающих специфику данных и характер клиентских запросов.
Открытые платформы Hadoop и MapReduce заменили множество разрозненных инструментов, применявшихся пользователями для обработки Больших Данных. Неохваченными, по крайней мере на сегодняшний день, остались лишь информационная безопасность и управление IT.
Волков бояться...
Проблема надежной защиты данных, передаваемых за пределы организации, в том числе в публичное облако, традиционна. В случае Больших Данных острота ее уменьшается, причем, грубо говоря, обратно пропорционально объему данных, переносимых в облако. Объяснения этой парадоксальной ситуации следует искать в природе Больших Данных: кража таких колоссальных объемов данных представляет серьезную техническую проблему для злоумышленников и может быть легко пресечена «на месте». Выуживание из нагромождения хранящихся данных действительно ценной информации (умеренного объема) для ее последующего хищения также требует значительных усилий. Более того, на рынке начинают появляться технологии, которые позволяют специальным образом преобразовывать огромные массивы данных с целью скрыть их истинное содержание, что, впрочем, не мешает использовать такие данные в качестве входного материала для инструментов бизнес-аналитики.
Безусловно, сказанное не означает, что появление в облаке Больших Данных решает проблемы информационной безопасности автоматически. Да и злоумышленники не перестают совершенствовать свои технологии. Можно лишь прогнозировать, что развитие облачной обработки Больших Данных вызовет появление новых технологий и инструментов защиты и переведет весь рынок систем ИБ на качественно новый уровень.
Первый блин не комом
Тезис о том, что Большие Данные и облака буквально созданы друг для друга, постепенно находит подтверждение на практике. Хотя развитие этого «тандема» находится в зачаточной стадии, ряд производителей уже предлагают различные продукты, основанные на «золотой комбинации».
Компания Quantivo в начале сентября представила облачную версию своей аналитической платформы, которая способна объединять огромные массивы корпоративных данных из нескольких источников, а затем преобразовывать их к требуемым форматам для последующей обработки в облаке с доступом через интерфейс, специально разработанный для этой цели. Учитывая, что выдача корректных запросов является одним из наиболее трудных этапов работы с Большими Данными, Quantivo реализовала технологию частичного предугадывания возможных запросов на основе интеллектуального автоматического составления перечня паттернов, содержащихся в пользовательских данных.
Не более известная российским заказчикам компания 1010data начала предоставлять услуги в области Больших Данных (хранилища данных, развитая бизнес-аналитика) больше десяти лет назад, то есть когда об облаках не было и речи. Для доступа к подобным услугам используются электронные таблицы и другие знакомые пользователям инструменты, существенно упрощающие работу с гигантскими массивами данных.
Opera Solutions разработала высоко защищенную и при этом достаточно гибкую платформу бизнес-аналитики Vektor для работы с Большими Данными. Загрузив корпоративные данные на эту платформу, участники бизнес-процессов получают рекомендации и отчеты на основании анализа «сигналов» и иных паттернов в Больших Данных.
HPCC Systems, выделившаяся из некогда весьма популярной компании LexisNexis и предлагающая альтернативу системе управления распределенной обработкой Hadoop, исповедует несколько иной подход к Большим Данным. Помимо доступа к средствам обработки данных в облаке, компания планирует предоставлять заказчикам собственные Большие Данные в области финансов, юриспруденции и бизнес-аналитики для обработки приложениями, которые имеются у клиентов.
Приведенные примеры показывают, что перспективы рынка облачной обработки Больших Данных привлекают в этот сегмент множество нишевых игроков, в том числе предлагающих аналитические продукты. Крупнейшие мировые ИТ-компании тем более не остаются в стороне. Благодаря усилиям Microsoft, GoGrid, Amazon, Google, Rackspace, Slicehost и ряда других фирм облачная бизнес-аналитика на базе Больших Данных становится доступной все большему числу пользователей. Большие Данные в последний год стали лейтмотивом рыночной стратегии корпорации EMC, прежде всего с точки зрения организации их хранения в облаке. Проявлениями этого могут служить покупка компаний Greenplum и Isilon, разработки которых дополнят решения Atmos, уже присутствующие в портфеле EMC, а также альянс с фирмой SAS, предполагающий запуск ее аналитических приложений поверх продуктов EMC Greenplum. Компания IBM в апреле этого года выпустила платформу облачных вычислений SmartCloud, поддерживающую инфраструктуру Hadoop, а роль средства анализа и визуализации больших объемов неструктурированных данных отведена ПО InfoSphere BigInsights. Кроме того, Голубой Гигант представил версию DB2 Hadoop для работы с Большими Данными в облаке. В портфеле Amazon пока нет инструментария для аналитической обработки Больших Данных, однако ее масштабируемая облачная платформа Elastic MapReduce дает возможность пользователям загружать собственные данные для их обработки приложениями на платформе Hadoop.
Появление в облаках Больших Данных может вылиться в заметное изменение всего ИТ-ландшафта. Не приходится сомневаться в том, что проблемы, связанные с хранением, управлением и защитой Больших Данных в облаке, по мере взросления этого рыночного сегмента будут решены. Уже появившиеся приложения для работы с гигантскими массивами данных в облаке указывают основные векторы развития этой категории ПО, и функционал со временем неизбежно будет расширяться. Но правда ли, что Большие Данные и впрямь являются тем killer application, которое выведет облачные сервисы на качественно новый уровень, а сама проблема Больших Данных актуальна для значительного числа организаций разного масштаба и специализации? Ближайшие два-три года обещают предоставить достаточно материала для ответа на поставленный вопрос.
Big Data в цифрах
Каждые 20 мин пользователи Facebook публикуют 10,2 млн комментариев, загружают 2,7 млн фотографий и размещают 1,6 млн надписей на «стенах»
Ежеминутно на YouTube публикуется 35 часов видео, в 2010 году общий объем размещенного видео составил 130 млн часов
Ежедневно в Twitter создается 460 тыс. новых регистрационных записей и размещается 140 млн записей (по состоянию на февраль 2011 г.).
В 2010 году были полностью просиквенированы геномы 1 тыс. человек, в 2011 году цифра составит 50 тыс., в 2013 году – 1 млн, в 2015 году – 25 млн, в 2020 году – почти 1 млрд.
В ближайшие годы объем генерируемых данных будет расти на 40% в год, а мировые ИТ-бюджеты – на 5%
В 15 из 17 индустриальных секторов США средний объем данных в пересчете на одну компанию превышает размер электронного архива библиотеки Конгресса США (235 Тбайт)