В Greenplum, с прошлого года являющейся дочерней компанией корпорации EMC, готовят к выпуску новый вариант программно-аппаратного комплекса Data Computing Appliance: он будет модульным и позволит совместно использовать несколько систем обработки структурированных и неструктурированных данных в различных сочетаниях.
Впервые Greenplum представила DCA в октябре 2010 года. Аппаратная часть системы была основана на серверах x86-архитектуры, программная состояла из массово-параллельной реляционной СУБД Greenplum, специально рассчитанной на обработку очень больших объемов данных. В мае нынешнего года появилась еще одна модификация, программным компонентом которой стала система с открытым кодом для распределенной обработки неструктурированных данных Apache Hadoop, изначально созданная в Google. Новейший же вариант комплекса Greenplum носит название Modular DCA. Его программная часть включает в себя и Apache Hadoop, и массово-параллельную СУБД Greenplum. По замыслу EMC, «многостаночный» Modular DCA позволит заказчикам на одной и той же аппаратной платформе обрабатывать и структурированные данные — с помощью запросов на Greenplum SQL, и неструктурированные — посредством Hadoop.
Как сообщает Скотт Яра, сооснователь Greenplum и вице-президент по продуктам подразделения EMC Data Computing, сисадмины при необходимости смогут легко переносить данные между таблицами Greenplum и файловой системой Hadoop — HDFS. Еще один программный компонент, который может работать на Modular DCA, это исполняемая в оперативной памяти программная система бизнес-аналитики компании SAS Institute.
«На серверах Modular DCA наряду с другими модулями сможет работать еще и высокопроизводительная система бизнес-аналитики компании SAS, — сообщает Яра. — Мы задались целью придать DCA блочную, Lego-подобную архитектуру».
Программное обеспечение SAS при исполнении в кластере DCA может одновременно использовать для обработки данных память всех его узлов.
«Преимущество нашего комплекса в том, что он позволяет решать сложнейшие задачи анализа данных в параллельном режиме», — заявляет Яра. По его словам, сейчас Modular DCA проходит предпродажные испытания, и поставки комплекса начнутся к концу этого года.
EMC сделала еще одно объявление: корпорация анонсировала Greenplum Analytics Workbench, испытательный полигон для тестирования крупномасштабных распределенных приложений, основанных на Apache Hadoop, — систему из тысячи с лишним узлов, на которой будет работать корпоративный дистрибутив Hadoop от EMC.
Разработчики варианта Hadoop с открытым кодом получат доступ к испытательной платформе бесплатно. В EMC надеются, что платформа поможет быстрее выявлять ошибки в приложениях, стабилизировать новые версии и оптимизировать аппаратные конфигурации. В корпорации рассчитывают, что благодаря появлению испытательной системы ускорится процесс обновления Hadoop.