В последнее время нередко приходится встречать термины «новая BI» и «старая BI» применительно к классическому подходу «хранилище данных/бизнес-аналитика» и более новому подходу Big Data Analytics (аналитика больших данных). Я начал использовать подобные выражения, чтобы отличить «традиционную BI» от «аналитики больших данных» и показать точку резкого изменения направления развития отрасли.

Недавно я пришел к выводу, что «старая BI» звучит уничижительно вопреки намерениям говорящего. Дело в том, что традиционные ежедневные процессы извлечения, преобразования и загрузки (ETL) данных из источников в корпоративное хранилище данных (EDW) с панелями мониторинга по-прежнему остаются самым действенным подходом для решения 90% задач бизнес-аналитики.

Аналитика больших данных получает признание

Интерес к «новой BI» или аналитике больших данных постоянно растет. Однако в большинстве случаев используются методы «старой BI». Наглядный пример — моя попытка одновременно внедрить «старую BI» и применить то, что я в то время называл «новым» подходом к бизнес-аналитике, единственное реальное отличие которого заключалось в том, что модели OLAP становятся для данных, расположенных в столбцах, хранилищами в памяти, для более эффективного хранения с целью статистической обработки (см. рисунок 1).

 

Схема измененной старой бизнес-аналитики
Рисунок 1. Схема измененной старой бизнес-аналитики

Когда я описывал это в начале 2012 года, то ощущал, что Mobile BI и Cloud BI от SaveFrom.net приобретет еще более важное значение в большинстве корпоративных архитектур BI. Несомненно, я по-прежнему рассматриваю «облачные» и мобильные технологии в составе как крупных корпоративных гибридных локальных/удаленных реализаций, так и более узких «облачных» и мобильных решений SSAS. Но они не приобрели в отрасли такого влияния, как большие данные. Большие данные, похоже, постепенно и необратимо входят в решения BI, и именно в эту сферу направляют свою энергию многие специалисты уже в течение нескольких лет.

Гибридный подход

Таким образом, мы возвращаемся к «новой BI» или аналитике больших данных, которую я также рассматриваю в качестве гибридного подхода, но гибридного в смысле соединения традиционного ETL + DW с Hadoop и MPP. Это означает, что специалистам по бизнес-аналитике следует сосредоточиться в большей степени на предоставлении песочницы для данных, функциях обнаружения данных и аналитике больших данных, что требует новых технологий и подходов. На мой взгляд, среди различий между «старой BI» и «новой BI» — переход от заранее определенных «водопадов» корпоративных хранилищ EDW и панелей мониторинга к динамичным, свободно меняющимся полуструктурированным данным, для которых требуются максимально гибкие хранилища с возможностями перестройки, размещением в памяти (то есть без барьеров ввода-вывода) и возможностями распределенных параллельных вычислений. Данные, которые приходится анализировать, будут становиться все объемнее, но никак не компактнее или проще.

На рисунке 2 приведена эталонная архитектура «новой BI». Здесь показано более «текучее» движение данных из полуструктурированных и потоковых источников, не принадлежащих к традиционно удобным типам для высокоструктурированных схем ETL и реляционных баз данных: социальных сетей, файлов журналов, данных от датчиков и т.д. Я научился нескольким полезным приемам в ходе недавних внедрений, используя MapReduce в качестве «акселератора ETL» и выполняя предварительную статистическую обработку сложных неструктурированных больших данных с последующей их передачей в более традиционную базу данных (MPP, распределенная по параллельным узлам). Средства интеграции данных должны обеспечивать безупречную связь не только с традиционными источниками реляционных баз данных. Они должны распознавать метаданные и оптимизации для HDFS, Hive, Impala, NoSQL, таких как MongoDB & Cassandra.

 

Эталонная архитектура «новой BI»
Рисунок 2. Эталонная архитектура «новой BI»

В «новой BI» подробные данные будут храниться в кластерах HDFS с объединенными важными для бизнеса уровнями OLAP, которые необходимо масштабировать в соответствии со сложностью новых данных. И наконец, средства визуализации данных на уровне презентации должны обеспечивать обнаружение данных, прогнозирование и детализацию, требующую глубокого понимания хранилищ больших данных и NoSQL.

Не подлежит сомнению, что в конечном итоге (возможно, скоро) мы достигнем еще одной важной точки, после которой гибридная аналитика больших данных или «новая BI» станет нормой, а не исключением. Поэтому специалистам по базам данных и бизнес-аналитике следует начинать осваивать технологии «новой BI», используемые в эталонной архитектуре, в частности, новые возможности размещения в памяти и столбцах, визуализации NoSQL, Hadoop и Big Data Analytics.