24 марта в ходе форума Big Data 2015, организованного издательством «Открытые системы», корпорация EMC представила новое платформенное решение для работы с Большими Данными — Federation Business Data Lake.
FBDL – это первый плод совместных усилий подразделения EMC Information Infrastructure и компаний Pivotal и VMware, также входящих в «федерацию EMC». Предложенное ими решение представляет собой интегрированный технологический стек, охватывающий ключевые задачи построения так называемых озер данных (data lake).
Как пояснил Святослав Сухов, директор дивизиона EMC Isilon в России и странах СНГ, озера бизнес-данных нужны для нового класса задач, решить которые в рамках традиционных хранилищ данных невозможно или очень проблематично. Сегодня крупные корпоративные заказчики концентрируют в своих ИТ-системах огромные объемы структурированных и неструктурированных данных из множества разнотипных источников. Создание оптимальных условий для хранения и последующего анализа этих данных, то есть создание озер, открывает принципиально новые возможности для бизнеса — компании смогут гораздо точнее прогнозировать свое развитие и реагировать на любые события буквально в реальном времени.
Реализовать эту модель до сих пор мешает сложность построения инфраструктуры, соответствующей уровню поставленных задач. И основная идея разработчиков FBDL состоит в том, чтобы предоставить предприятиям продукт, позволяющий ускорить и автоматизировать развертывание инфраструктуры для озер и работы с Большими Данными, причем на всех основных этапах, включая хранение, анализ и визуализацию результатов для принятия бизнес-решений.
Принципиально важно, что идеология FBDL предлагает заказчикам свободу выбора на основных уровнях технологического стека инфраструктуры озер. Сейчас эта возможность в полном объеме реализована в слое аналитики.
Сухов полагает, что впоследствии клиент сможет выбрать и наиболее подходящую для него систему хранения. Пока же, с точки зрения EMC, функции хранения в озерах данных эффективнее всего решаются с помощью горизонтально масштабируемых систем EMC Isilon, консолидирующих в себе данные любых форматов.
А вот организовать анализ этих данных в FBDL возможно наиболее распространенными средствами, действующими на основе Hadoop, In-Memory No-SQL и Scale-out MPP. В EMC оставляют за клиентами выбор дистрибутива Hadoop, включая Cloudera и Hortonworks, а также новые дистрибутивы на основе открытых платформ. Но в базовом варианте средства анализа включают в себя пакет Pivotal Big Data Suite, в том числе решение PivotalHD с ведущим модулем HAWQ для реализации технологии SQL-on-Hadoop. Средства анализа в FBDL виртуализированы с помощью решений VMware на базе Vblock. Вероятно в перспективе заказчики смогут задействовать и средства виртуализации других поставщиков.
Функции визуализации результатов анализа данных и прогнозирования для принятия бизнес-решений реализованы в FBDL на основе платформенного сервиса Pivotal Cloud Foundry.
В EMC утверждают, что проработали все вопросы интеграции и совместимости элементов предложенного стека озера данных, и планируют обеспечить заказчикам единую точку входа при внедрении решения FBDL и его последующей поддержке.
Как сообщается, с помощью FBDL предприятия получат возможность развертывать массивы Hadoop и системы анализа данных в реальном времени всего за семь дней. Подобное ускорение обеспечивается не только высокой степенью интеграции составляющих решения, но и благодаря целенаправленной помощи EMC своим заказчикам при освоении озер данных. С этой целью корпорация разработала набор услуг и обучающих программ. Они помогут клиентам оценить возможности FBDL и быстро подготовить сценарии обработки Больших Данных.
Решение FBDL будет доступно в апреле. По оценкам EMC, продукт будет востребован только очень крупными компаниями – число его потенциальных заказчиков в нашей стране сейчас не превышает двух-трех десятков.