ДЖЕК НОРРИС: «Одно из ограничений Hadoop обусловлено тем, что это программное обеспечение создавалось для пакетной обработки» Источник: MapR |
Благодаря подписанию партнерских соглашений между производителем программного обеспечения для хранилищ данных Informatica и компанией MapR, дистрибьютором Hadoop, пользователи платформы Apache Hadoop уже вскоре смогут анализировать данные, поступающие из источника в потоковом режиме.
Компании интегрируют свои продукты, чтобы упростить взаимодействие нового мира аналитических механизмов Больших Данных с традиционными хранилищами данных.
Планируется разработать специальный коннектор, который будет принимать данные в потоковом режиме из приложения Informatica Ultra Messaging и передавать их в MapR Hadoop.
Ultra Messaging копирует файлы журнала, данные транзакций и другие разновидности больших объемов информации в шину сообщений, благодаря чему становится возможным повторное использование этих сведений и их анализ с помощью других систем. Hadoop — платформа, предназначенная для обработки данных. Ее можно использовать для хранения и анализа больших объемов информации, представленной в различных форматах.
«Одно из ограничений Hadoop обусловлено тем, что это программное обеспечение создавалось для пакетной обработки, — пояснил вице-президент MapR по маркетингу Джек Норрис. — В стандартной редакции Hadoop базовая файловая система, HDFS, требует, чтобы файлы перед их анализом были закрыты. Это может порождать различные затруднения при попытках анализа постоянно обновляемых данных. Администратор должен найти время, для того чтобы закрыть файл перед его анализом, а пользователям в результате приходится иметь дело со старыми данными. Решение MapR уникально тем, что позволяет считывать информацию в моменты, когда файл с данными остается открытым и туда осуществляется запись. После подключения к MapR приложения Ultra Messaging объединенная система создаст условия для анализа данных в режиме фактически реального времени по мере их прохождения по шине сообщений».
Благодаря Hadoop пользователи получат возможность объединить свои данные с данными других типов, расширяя тем самым поле для анализа. «С помощью Hadoop мы можем не ограничиваться одним источником данных, — отметил Норрис. — У нас появляется целая комбинация таких источников».
Такое сочетание технологий удобно использовать при решении задач распознавания шаблонов, требующих высокого быстродействия. Одной из задач может стать распознавание мошеннических операций, при выявлении которых финансовым институтам необходимо как можно быстрее заблокировать кредитные карты. Хотя компьютерные системы уже давно применяются для распознавания мошенничества, использование Hadoop в сочетании с потоковыми данными позволяет осуществлять контроль за большим количеством информационных источников и быстрее идентифицировать нарушения. «Вы сможете следить сразу за всем набором транзакций и раньше обнаруживать обман», — пояснил Норрис.
Среди других технологий анализа больших данных в режиме реального времени можно отметить по крайней мере еще одну. В прошлом году компания BackType, купленная Twitter, выпустила программное обеспечение анализа данных в потоковом режиме. Сам сервис Twitter также использует это программное обеспечение для выявления тенденций, формирующихся в среде его клиентов.
Помимо Ultra Messaging, партнеры занимаются созданием механизмов связи с другими инструментами хранилищ данных Informatica, в том числе двустороннего соединения с флагманскими приложениями хранилищ данных PowerCenter и PowerExchange. Данные MapR можно будет копировать с помощью средств Informatica Data Replication и Informatica FastClone. Кроме того, в дистрибутив MapR планируется интегрировать инструмент Informatica HParser, предназначенный для синтаксического анализа файлов Hadoop.