Компания Hortonworks, создатель дистрибутива Hadoop, и исследовательское подразделение компании Hewlett Packard Enterprise осуществляют совместный проект, направленный на кардинальное повышение быстродействия фреймворка распределенной обработки данных Apache Spark.
Как сообщили в HP Labs, исследователи переписали на C++ механизм перестановок, изначально реализованный на Java, переработали ряд алгоритмов с расчетом на более эффективное использование памяти и обеспечили возможность использования большей емкости памяти. По словам разработчиков, заказчики, попробовавшие результаты работы HP Labs, отметили повышение скорости выполнения некоторых задач в 5-15 раз.
Все доработки от HP Labs будут выпущены в открытых кодах.
В Hortonworks в свою очередь отметили, что продолжат работать над улучшением быстродействия и функциональности Spark, интеграцией с платформой управления ресурсами Apache YARN, а также реализацией возможности использования с новыми приложениями вроде Apache Zeppelin (проект в инкубаторе Apache, «веб-блокнот» для интерактивного анализа данных).