Apache Spark

Databricks покупает разработчика средств исследования данных 8080 Labs

Стартап, создавший облачную платформу распределенной обработки неструктурированных данных на базе Apache Spark, стремительно развивается: в 2022 году его оборот может превысить 1 млрд долл.

Универсальная платформа обработки больших данных

На российском рынке остро ощущается потребность в платформах обработки больших данных, однако почти отсутствует локальная экспертиза. Появление дистрибутива Arenadata Hadoop, сертифицированного ODPi и собранного российскими разработчиками, призвано заполнить этот пробел.

Инструменты анализа графов

Программы поиска оптимальных маршрутов давно стали обыденностью, однако нахождение кратчайшего пути — не единственный практический результат теории графов. Сегодня имеется множество инструментов, позволяющих решать задачи графовой аналитики, каждый из которых эффективен в определенных ситуациях.

Кластерный анализ против нештатных ситуаций

Неполадки в работе телекоммуникационной сети часто возникают в результате нештатных ситуаций, которые не вызывают нарушений и остаются незамеченными, что впоследствии может привести к ухудшению качества сервисов или к сбоям. Обнаружение таких ситуаций с помощью кластерного анализа дает возможность принимать превентивные меры, позволяющие исключить сбои.

SAP HANA Vora прокладывает мост между традиционными хранилищами данных и Hadoop

Особенность Vora — возможность использования традиционных методов оперативной аналитической обработки и языков программирования для анализа всех доступных на предприятии данных.

Фонд Apache запустил новый проект с открытым кодом для Больших Данных

По утверждениям участников проекта Apache Arrow, он позволит увеличить производительность при решении аналитических задач в сто с лишним раз.

В бесплатную версию платформы Databricks включен курс по Apache Spark

Как объясняют в Databricks, бесплатный вариант оптимален для разработчиков, ученых и специалистов по данным, а также для любых ИТ-специалистов, желающих освоить Spark.

Talend: открытый код — новая норма для систем обработки Больших Данных

Благодаря приверженности идеям Open Source, экосистема Hadoop и Apache Spark, важнейших на сегодня технологий в мире Больших Данных, развивается быстрее, чем если бы технология принадлежала только одному разработчику.

Пять вещей, которые необходимо знать о Hadoop и Apache Spark

Иногда в мире Больших Данных их считают конкурентами, но чаще преобладает точка зрения, согласно которой они дополняют друг друга.

В MapR создали систему анализа потоков данных и конвергентную платформу на базе Hadoop

Streams дает возможность создавать потоки путем «подписки» на источники данных. Подписчиками могут быть как люди, так и машины. Например, отдел ИТ может подписаться на поток данных из журналов операций, чтобы автоматизировать обнаружение аномалий, указывающих на проблемы.

Splice Machine объединит OLTP и OLAP

Версия реляционной СУБД Splice Machine 2.0 сочетает в себе масштабируемость Hadoop и присущую Spark скорость обработки данных в оперативной памяти.

IBM Insight 2015: экономика познания

На ежегодном форуме IBM обсуждалось, как бизнесу извлечь выгоду из окружающих его данных.

Анализ данных социальных сетей

Социальные сети могут стать источником дополнительных данных о клиентах, однако для его использования требуются специализированные инструменты. Открытые технологии из стека Hadoop позволяют строить платформы, способные в режиме массовой обработки извлекать ценную информацию для обогащения профилей клиентов.

Анализатор данных в памяти SAP Vora работает с Hadoop

В компании добавляют, что HANA Vora будет полезен организациям, которым надо анализировать большие объемы данных в контексте бизнес-процессов, в том числе предприятиям, работающим в финансовой сфере и в отраслях услуг связи, здравоохранения и производства.

Аналитика реального времени для ситуационного центра

Система управления кластером Hadoop YARN значительно повышает надежность и гибкость технологии MapReduce, позволяя в оперативной памяти проводить распределенную потоковую обработку данных, а значит, строить аналитические системы реального времени, используемые, например, в ситуационных центрах.

Анализ работы телекоммуникационной системы

Эффективность анализа данных о функционировании телекоммуникационного оборудования определяется возможностями системы сбора и обработки этих данных, объемы которых могут увеличиваться экспоненциально. Как выполнить глубокий анализ поведения сетевого оборудования в условиях лавинообразного роста показаний телеметрии?

Blazent предлагает управлять ИТ-операциями на основе анализа Больших Данных

Корпоративные клиенты компании смогут оперативно получать информацию о состоянии и эффективности функционирования своих ИТ-систем.

IBM готовит Spark для машинного обучения

Корпорация передала сообществу Spark предназначенный для машинного обучения язык программирования SystemML и намерена предлагать Spark вместе с сервисом IBM Bluemix.

Oracle возвращает Большие Данные администраторам баз данных

Сегодня, когда многие предприятия осознали ценность анализа Больших Данных, самое время привлечь к этому процессу администраторов баз данных и хранилищ данных.

Наследник Hadoop ускоряет эволюцию анализа данных

В 2014 году программное обеспечение Apache Hadoop совершило революцию в области Больших Данных, а в 2015-м Apache Spark обещает вытеснить Hadoop благодаря своим более развитым средствам анализа.

Проблемы автоматизации аналитики: как избежать распространенных ошибок

Для автоматизации аналитики часто применяют no-code /low-code ETL-инструменты. Однако у этих инструментов есть недостаки. Правильный ли это выбор?