В банке Deutsche Bank начат проект по внедрению средств анализа больших объемов данных, но, как рассказал на конференции, организованной компанией Cloudera, директор по бухгалтерским и финансовым информационным технологиям банка Чживэй Цзян, наладить взаимодействие Hadoop и других новых систем с имеющимися в банке решениями на базе мэйнфреймов IBM и СУБД Oracle очень сложно. Deutsche Bank располагает 46 хранилищами данных, созданными за последние 20–30 лет. В них находятся петабайты данных, зачастую дублирующих друг друга. Извлечение данных и приведение их в порядок обходится очень дорого. Непонятно даже, какие именно результаты в банке хотят получить от анализа собранных данных, добавил Цзян. Но они наверняка будут ценными.
С аналогичными проблемами сталкивается налогово-таможенная служба Великобритании, рассказал на той же конференции представитель компании Capgemini. Решить их пока не удается. Практически все известные ему установки Hadoop работают с новыми наборами данных. Подключение современных средств анализа к имеющимся базам данных — задача пока не решенная, отметил он.