Конференция EMC World 2011, девизом которой стала фраза "Облако встречает Большие Данные" (Cloud Meets Big Data), была посвящена выпуску в свет обновленного решения для анализа данных — EMC Greenplum HD Data Computing Appliance (EMC Greenplum HD DCA), отличающегося от своего предшественника индексом HD в названии. Новая модель обладает способностью получать информацию из облаков и работать с гигантскими массивами данных — эти качества обеспечивает встроенная в DCA поддержка интегрированной среды Hadoop.
Предыдущая модель Greenplum Data Computing Appliance, представленная в октябре 2010 года (всего через месяц после покупки Greenplum), как и подобные устройства других производителей, является представителем набирающего популярность подмножества специализированных компьютеров, предназначенных для аналитической работы с большими данными — Purpose-built Data Computing Appliance. Аналогичные устройства сегодня создают IBM, HP, SAP, Oracle, Teradata и Microsoft. Такие устройства или специализированные машины представляют собой массивы хранения данных, снабженные дополнительными функциональными уровнями предварительной обработки и представления информации. Оперативноcть создания EMC Greenplum Data Computing Appliance объясняется тем, что DCA относится к специализированным устройствам Type 2 (к Type 1 можно отнести продукты Teradata, а к Type 0 — системы IBM/Netezza.), и для создания спецмашины (appliance) достаточно лишь "посадить" нужное ПО на соответствующую платформу. Этим же обстоятельством объясняется серьезная модернизация всего лишь через полгода после выхода первой версии.
Классификация DCA
Устройства DCA появились в середине прошлого десятилетия, и, как обычно, сначала их виртуальные или физические реализации были предложены небольшими компаниями: Business Objects, Ingres QlikTech, KXEN, Verix. Тогда же сложилась их классификация:
Type 0 — системы, в которых применяются специальные серверы, интегральные схемы ASIC и FPGA;
Type 1 — системы, в которых применяются стандартные серверы и проприетарное сетевое оборудование;
Type 2 — системы, специализацию которых определяет только ПО, а аппаратное обеспечение строится на базе стандартных средств.
Появление EMC Greenplum HD DCA стало возможным в результате гармоничного слияния собственных аппаратных наработок EMC с ПО, которое было получено в результате приобретения компании Greenplum – производителя одной из самых перспективных СУБД для хранилищ данных. Работы над DCA велись в созданном на основе Greenplum новом подразделении EMC Data Computing Products Division, задача которого состоит в создании аппаратных и программных продуктов, специально предназначенных для работы с данными. Казалось бы, перевод термина Data Computing очевиден и не вызывает затруднения, все компьютерные технологии так или иначе имеют дело с данными, но в рассматриваемом контексте требуется уточнение, поскольку так именуют парадигму, альтернативную по отношению к классическим системам аналитики и хранилищам данных. Возможно, мы имеем дело со следующим шагом в развитии аналитических систем, с одной стороны, приближающим обработку данных непосредственно к данным, а с другой — аналитические технологии к людям. Основное отличие Data Computing — динамичность, при которой в режиме, близком к реальному времени, анализируются не только данные, загруженные в соответствующие репозитории, но и данные из самых разных, в том числе и внешних, источников.
В продукте EMC Greenplum HD DCA собраны вместе три главные технологии аналитической обработки больших объемов структурированных и неструктурированных данных: свободно распространяемая среда Apache Hadoop, СУБД EMC Greenplum Database 4.0 и аппаратная платформа EMC Greenplum HD DCA.
Hadoop — интегрированная среда, созданная в проекте Apache для анализа больших данных (Big Data Analysis). В Hadoop используется техника MapReduce, позволяющая адресоваться сразу ко всем данным, причем без индексации, что дает преимущества при работе с гигантскими объемами распределенных данных. Hadoop не имеет единого центрального узла, но узлов очень много, и хотя каждый работает относительно медленно, общая производительность оказывается достаточно высокой. В то же время «медлительность» отдельного узла упрощает мониторинг и динамическую замену вышедших из строя узлов. Помимо Hadoop, в проект Apache входят: конструкция Hive, ориентированная на использование SQL-запросов и работу с хранилищами данных, Pig — язык высокого уровня для работы с потоками данных, база данных Hbase, а также СУБД типа Hypertable, Cassandra и др. Использование модели программирования MapReduce открывает возможность автоматического распараллеливания данных и их обработки на кластерах. Все действия, связанные с разделением данных на фрагменты, выполнение обработки на пуле серверов, обеспечение надежности и резервирования, коммуникации между машинами осуществляются в режиме реального времени без участия человека.
Архитектура Greenplum |
От других спецмашин Greenplum HD DCA отличается интеграцией Hadoop с СУБД Greenplum. Решение поддерживает файловую систему Hadoop Distributed File System (HDFS), то есть между Greenplum и HDFS обеспечиваются параллельные процедуры чтения и записи таким образом, что можно использовать полную мощность Greenplum SQL, плюс к тому аналитические функции могут осуществлять доступ к данным в HDFS. Комбинация всех этих возможностей формирует аналитическую платформу для работы с большими данными — Big Data Analytics Platform.
Коммерческий дистрибутив HD DCA поставляется в двух редакциях: Enterprise Edition — корпоративная, в которой собраны все лучшие решения по управлению и повышению производительности; Community Edition — открытая версия для сообщества разработчиков, поддерживающая весь стек средств и инструментов Apache Hadoop, включающий HDFS, MapReduce, Zookeeper, Hive и HBase.
СУБД Greenplum Database 4.0 специально создана для работы с тем, что Билл Инмон назвал "хранилищами данных следующего поколения" (Next Generation of Data Warehouse или DW 2.0). Одновременная поддержка SQL-запросов и техники MapReduce открывает этой СУБД возможность работы в широком диапазоне данных. Greenplum Database выпускается в четырех редакциях: свободно распространяемая начального уровня Greenplum Single Node Edition, Greenplum Database для стандартных MPP-платформ, Greenplum Chorus для интегрированных стеков и частных облаков типа Vblock, и Greenplum Database Data Computing Appliance.
От традиционных СУБД решение Greenplum Database 4.0 отличается возможностью масштабирования до петабайт, эластичностью с точки зрения используемой аппаратной основы (серверы, СХД) и применимых аналитических методов. Эти качества ей придает изначальная ориентация на структуры с массовым параллелизмом (см. рисунок), в то время как большинство других универсальных реляционных СУБД уходят своими корнями в системы OLTP. Версия MPP Scatter/Gather Streaming (SG Streaming) была предложена Greenplum еще в 2009 году и предполагает распределение и сбор потоков данных. Управляемое распределение отличает технологии этой СУБД от более распространенной сейчас загрузки «навалом», чреватой появлением бутылочных горлышек. Свой подход в Greenplum еще называют "повсеместным параллелизмом" (parallel everywhere). Greenplum Database 4.0 построена по архитектуре shared-nothing и обеспечивает эффективное распределение данных по узлам MPP и их параллельное сканирование, а также высокий уровень защищенности данных за счет способности к "самолечению" (self-healing).
В общем случае СУБД Greenplum 4.0 может быть установлена на трех различающихся по уровню универсальности платформах, причем чем более специализирована платформа, тем проще внедрение и эксплуатация аналитических систем. Универсальная традиционная схема предполагает использование Greenplum Database — решение поставляется только в программном виде, а пользователь развертывает его на предпочтительных серверах и СХД. На интегрированный стек для частного облака устанавливается Greenplum Chorus, и здесь может быть использовано готовое решение для создания частного облака типа Vblock VCE, объединяющее продукты VMware, Cisco и EMC. Если применяется устройство типа DCA, то оно комплектуется версией dGreenplum Database Data Computing Appliance, и здесь не требуются подготовительные работы — система готова действовать с момента включения.
Состав аппаратной платформы EMC Greenplum HD DCA может быть представлен в виде матрицы 3х3 — есть три различающихся по функциональности типа устройств, в основе которых лежат три системы модулей с разным наполнением. Модули могут занимать четверть стойки (Quarter Rack), половину стойки (Half Rack) и всю стойку (Full Rack). В них могут быть размещены: ускоритель интеграции данных Data Integration Accelerator (DIA), стандартное устройство DCA или устройство повышенной емкости High Capacity DCA. Из стоек и модулей можно собирать различные по размерам системы.
Появление устройств типа DIA вызвано сложностью данных, которыми приходится оперировать сегодня аналитическим системам, поэтому необходимо интегрировать методы и технологии от разных производителей. В этих условиях интеграция данных превращается в отдельную задачу, которую и решает ускоритель EMC Greenplum Data Integration Accelerator, обеспечивающий параллельную загрузку данных. В его состав входят специальный пакет интеграционного ПО gpfdist, серверы, СХВ и сетевое оборудование. Ускоритель DIA спроектирован в расчете на тесную интеграцию с семейством устройств DCA, может передавать данные непосредственно в серверы DCA по Ethernet. В зависимости от размера конструктива ускоритель DIA комплектуется 4, 8 или 16 серверами (число процессорных ядер 48, 96 или 192 соответственно) с памятью 192, 384 или 768 Гбайт, а также 48, 96 или 192 дисками HDD SATA емкостью 70, 140 или 280 Тбайт.
Стандартная модель DCA выпускается в трех модификациях: GP10 Quarter Rack, GP100 Half Rack и GP1000 Full Rack. В каждой из них есть два основных сервера (Master Servers) и 4, 8 или 16 рабочих серверов сегментов (Segment Servers) с общим числом процессорных ядер 48, 96 или 192 и с памятью 192, 384 или 768 Гбайт. В данной модели устанавливается 48, 96 или 192 дисков HDD SAS с некомпрессированной емкостью 9, 18 или 36 Тбайт и компрессированной емкостью 36, 72 или 144 Тбайт. Другая модель, High Capacity DCA (GP10C Quarter Rack, GP100C Half Rack и GP1000C Full Rack), ориентирована на большие объемы данных, но меньшую оперативность, поэтому отличается дисками — в ней устанавливаются 48, 96 или 192 дисков HDD SATA с некомпрессированной емкостью 31, 62 или 124 Тбайт и компрессированной емкостью 124, 248 или 496 Тбайт.
Денис Серов (serov_denis@emc.com) – технический консультант ЕМС Россия.