Компания Cloudera объявила о расширении функциональности своего дистрибутива платформы распределенной обработки данных Hadoop. Большинство рабочих нагрузок Hadoop сегодня подразумевают задачи, которые раньше решить было нельзя, например объединение совершенно разных типов данных, полагают в Cloudera. Поэтому поставщики дистрибутивов спешат реализовать соответствующие возможности. В Cloudera, в частности, разрабатывают новый механизм баз данных под кодовым именем Impala, позволяющий опрашивать срезы данных в базе HBase посредством SQL-запросов. Impala не требует использования MapReduce, за счет чего существенно ускоряется выполнение запросов, утверждают в Cloudera.
В компании MapR, в свою очередь, обновляют дистрибутив базы данных Apache HBase — M7, реализуя средства тиражирования и зеркалирования. В HBase уже есть зеркалирование, но оно выполняется с помощью неэффективной Hadoop File System, из-за чего переключение на резервную копию занимает до 30 мин. В MapR же пользуются собственной файловой системой. Как сообщают в компании, в M7 также ускорены вставка и обновление записей, поддерживается обработка столбцов в оперативной памяти. Максимальный размер объектов в строках и ячейках увеличен до 1 Гбайт.