В традиционных системах анализа данных давно развиваются методы обеспечения безопасности и непротиворечивости данных, управления их жизненным циклом и т. д. Но область обработки больших объемов данных все еще похожа на Дикий Запад, отметил на конференции «Building Confidence in Big Data» в Нью-Йорке генеральный менеджер подразделения управления информацией IBM Боб Пиччиано.
Функции управления большими объемами данных будут реализованы в пакете IBM InfoSphere. Один из новых компонентов пакета, называющийся DataClick, предназначен для извлечения данных из хранилищ, работающих в том числе на базе Hadoop и NoSQL. Компонент BigInsights разработан для составления в масштабах организации каталогов метаданных, благодаря которым упрощается поиск данных. На панели управления в InfoSphere будут отображаться сведения о соответствии различных источников данных установленным в компании требованиям к безопасности и целостности данных. Наконец, поддержка Hadoop и других источников больших объемов данных будет реализована в компоненте для мониторинга использования данных и обеспечения соблюдения политик доступа InfoSphere Guardium.