В конце 1990-х годов наблюдалось бурное развитие средств проектирования и разработки приложений — учетно-операционная обработка уже достигла определенного уровня зрелости, в крупных организациях были накоплены существенные объемы данных, началось строительство хранилищ и витрин данных [1]. В этот период актуальным был поиск решений по информационно-аналитическому обслуживанию бизнес-пользователей с активным вовлечением их в процесс анализа данных. Результаты этой активности были обобщены в работе [2], вышедшей в 2003 году. Прошло двадцать лет — какие сдвиги в области бизнес-аналитики произошли за это время, к чему пришла индустрия и что стоит ожидать в ближайшем будущем?
Бизнес-аналитика по понятиям
Современное понятие Business Intelligence ввел в обиход Говард Дрезнер в 1989 году, подчеркивая ориентацию процесса на бизнес-пользователя (user-centric). Изначально термин 'business intelligence' переводился как «бизнес-интеллект», отражая то, что бизнес-пользователь применяет свой опыт и интуицию при ручной «раскопке» данных с помощью таких инструментов, и сегодня такая трактовка была бы хорошей парой с термином 'artificial intelligence'. Однако впоследствии устоялся перевод «бизнес-аналитика».
Вместе с тем возникли трудности перевода, когда рядом с 'Business Intelligence' или вместо поставили 'Business Analytics' («бизнес-аналитика»). В компании SAS стали называть просто — Business Analytics (BA), а в Gartner появилось сокращение BIA (Business Intelligence and Analytics) как дань расширению технологического зонтика в сторону визуального исследования данных и анализа. Сейчас говорят об ABI как Analytics and Business Intelligence и даже как Augmented BI (дополненная бизнес-аналитика), имея в виду существенное привлечение аналитики на основе технологий машинного обучения.
Но на этом злоключения business intelligence не закончились — возникла путаница между бизнес-аналитикой с бизнес-анализом (Business Analysis). Последний термин, согласно BABoK, включает управление функциональными требованиями, моделирование бизнес-процессов и данных, постановку задач для автоматизации корпоративной деятельности. Круг пользователей бизнес-аналитики — это: бизнес-пользователь — конечный пользователь BI-контента и аналитических приложений, аналитик данных (data analyst) — разработчик BI-контента и аналитических приложений, исследователь данных (data scientist) и бизнес-аналитик — применяют BI в качестве вспомогательного инструмента анализа данных.
Скорее всего, точным было бы следующее определение бизнес-аналитики: «Информационные технологии подготовки, мониторинга, визуального исследования и анализа данных, ориентированные на бизнес-пользователя, используемые для превращения данных в информацию, знания и озарение (insight) при поддержке принятия улучшенных управленческих решений».
При создании бизнес-аналитики закладывались принципы, которые и добавлялись по мере ее развития.
- Ориентация на бизнес-пользователя — использование бизнес-терминов, опыта и интуиции специалиста в конкретной предметной области, раскрытие его аналитического потенциала при подготовке и принятии управленческих решений. BI-платформа поддерживает также разработчиков BI-контента и аналитических приложений с помощью управления метаданными, языковых средств программирования, API и SDK.
- Самообслуживание бизнес-пользователя — самообслуживание специалиста предметной области на всех этапах подготовки и анализа данных без привлечения ИТ-специалистов и аналитиков-математиков. Исследователи данных имеют наибольшую степень самообслуживания, но при этом они должны обладать дополнительными знаниями и навыками одновременно в нескольких областях: математике, статистике, информатике и пр.
- Интерактивность — диалоговое взаимодействие пользователя со средствами бизнес-аналитики с помощью GUI, синхронное изменение табличных данных и диаграмм/графиков при фильтрации, а также обеспечение мгновенной реакции на запросы без задержки мыслительной деятельности пользователя.
- Графическая визуализация данных — использование способности человека лучше воспринимать графическую информацию при интерпретации результатов, мониторинге процессов и анализе многоаспектных данных, а также при их визуальном исследовании.
- Демократизация — упрощение работы пользователя и сокращение времени подготовки принятия решений: устранение барьеров для доступа к данным (поиск источников, получение прав доступа, подключение источников), упрощение структур данных и их подготовки (метаданные, моделирование, интеграция и обеспечение качества данных), облегчение анализа данных (панели мониторинга, визуальное исследование данных, storytelling, guided analytics, autoML, NLQ).
- Гибкость — подключение разнородных источников данных (CSV, XML, JSON, Excel, SQL, NoSQL, Big Data, API, потоки), выбор разных средств анализа (отчет, запрос, OLAP-куб, панель мониторинга, визуальное исследование, Data Mining), определение состава, детальности и представления анализируемых данных, расчеты «на лету», вывод результатов в разных форматах (HTML, PDF, Excel, Word).
- Сотрудничество — поддержка механизмов коммуникации пользователей в режимах онлайн и оффлайн для совместной работы пользователей при подготовке, анализе данных и обсуждении результатов, ориентация на «рассказывание историй о данных» data storytelling.
- Многоканальность — работа пользователя в разных вариантах программ-клиентов (desktop, web, rich, mobile, office) и доставка разнообразными способами (BI-портал, сетевые папки, сайты интранет/Интернет, электронная почта).
Бизнес-аналитика сегодня
Стек бизнес-аналитики начала 2020-х годов (см. рисунок) включает BI-платформу, в которую входят инструменты бизнес-аналитики, инфраструктура со средствами интеграции. Инструменты бизнес-аналитики состоят из средств предоставления информации для создания отчетов, выполнения запросов «на лету», информационных панелей мониторинга, работы с пакетами Microsoft Office и обработки событий, а также из средств оперативной аналитической обработки данных, визуального исследования данных, работы со встроенным инструментом Data Mining или подключения к внешним моделям.
Стек бизнес-аналитики |
В инфраструктуре платформы важными компонентами являются BI-инфраструктура (портал), SDK для разработки приложений, средства управления метаданными, workflow и обеспечения совместной работы.
К бизнес-аналитике также относятся программные изделия, полученные с помощью BI-инструментов и SDK: стандартные отчеты, сохраненные запросы, задачи анализа кубов, информационные панели мониторинга (dashboard), обработчики событий и модели Data Mining — то, что обычно называют BI-контентом, а также готовые или заказные BI-приложения для некоторых областей деятельности или определенных задач.
Оперативная аналитическая обработка данных — OLAP
На заре бизнес-аналитики акцентировались на возможности анализа многомерных данных и обработки запросов ad hoc в режиме OLAP (On Line Analytical Processing — «оперативная аналитическая обработка данных») — термин в 1993 году ввел отец реляционной алгебры Эдвард Кодд [3], но корни технологии уходят еще в 1970-е годы.
OLAP представляет собой информационную технологию многомерного анализа данных в различных разрезах и с разной степенью детальности, осуществляемого бизнес-пользователем в интерактивном режиме в терминах своей предметной области. Оперативная аналитическая обработка обеспечивает описательный анализ данных (расчет агрегатов, изменений, долей, базисных и цепных индексов) и разведочный анализ (выявление отклонений, характера зависимости) с привлечением опыта и интуиции пользователя.
Пользователь применяет семантический слой, экранное представление гиперкуба и интерактивные операции, которые транслируются в запросы к многомерной (MOLAP) или реляционной базе данных (ROLAP). Спустя некоторое время пользователи получили доступ к данным в оперативной памяти (in memory OLAP).
Преимущества OLAP: самообслуживание пользователей при анализе данных в терминах бизнеса, возможность кросс-тематического анализа, повышение отдачи от данных, интерактивные операции детализации/укрупнения, расчеты «на лету» способствуют быстрому получению результатов.
Инструменты категории no-code/low-code предоставляют пользователю возможность создавать несложный BI-контент (анализы кубов, отчеты, деловую графику, запросы). Аналитикам данных доступен язык многомерных запросов MDX и средства SDK для создания аналитических приложений.
Следует отметить недостатки OLAP.
- Самообслуживание ограничено только этапом анализа, а интеграция, обеспечение качества данных и управление метаданными остались в руках службы ИТ. Средства извлечения преобразования и загрузки данных (ETL), которые входили в ранние поставки систем бизнес-аналитики, оказались слишком сложными для бизнес-пользователей. Со временем хранилища и витрины стали основными источниками качественных данных для анализа, поэтому на десятилетие из состава систем бизнес-аналитики были выведены средства ETL.
- Незнание предметных областей, нехватка аналитических навыков и сложность метаданных бизнес-аналитики (фактически таксономии) сказывались при создании и применении семантического слоя пользователя.
- При анализе куба пользователю сложно было следить за контекстом. Получая ответ на поставленный вопрос, он вынужден был посмотреть все установки закрытых фильтров измерений.
- Веб-клиенты вытеснили десктоп-варианты BI-инструментов — теперь пользователь уже не мог добавить «свои данные из кармана». Правда, позже появилась возможность подгружать данные (upload) на BI-портал и подключаться к ним.
- После встраивания средств корпоративной отчетности в BI-платформы разработчики стали основными потребителями бизнес-аналитики, а для создания отчетов бизнес-пользователям оставалось получать готовые отчеты или запускать формирование отчетов с параметрами.
- Возникали трудности при создании витрин данных с несбалансированными иерархиями размерностей. Иерархии выравнивали, добавляя фиктивные уровни, реже использовали схему 'bridge table'. Наиболее элегантный способ — рекурсивные справочники (реализован, например, в Prognoz Platform), требующий, однако, больше памяти при обработке.
- Данные разной степени детальности (например, отчетности) легко уживаются в одном кубе MOLAP, но их хранение в одной таблице ROLAP приводило к искажению агрегатов из-за дублирования слагаемых. Такие данные приходилось раскладывать по разным таблицам по степеням детальности или применять сложную структуру данных для разделения смеси.
- Поначалу в BI-инструментах не хватало 15 разрядов (double) для бухгалтерской отчетности и представления долей акций, потом появилась поддержка 19 разрядов (money), а позже у некоторых разрядность стала 38, как в СУБД.
- В ранних инструментах отсутствовало прогнозирование — лишь некоторые системы имели возможность анализа «что если», это потребовало включения операции write back — обратной записи введенных или рассчитанных данных в источник. До этого все анализируемые данные считались read only.
- Наблюдалась невысокая скорость обработки запросов при многопользовательском и/или удаленном режиме доступа. Приходилось подбирать режимы работы удаленных пользователей, применять сжатие трафика, proxy при нехватке полосы пропускания сети, а также масштабировать BI-инфраструктуру, позже стали применять обработку в памяти или параллельную обработку в среде Big Data.
Основные игроки в OLAP
В начале 2000-х годов лидерами решений бизнес-аналитики, по мнению Gartner, были зарубежные продукты BusinessObjects и Cognos, спор шел между подходами ROLAP и MOLAP. Первый был более гибкий и масштабируемый, второй — более быстрым, но с более жесткой структурой куба с предварительно рассчитанными агрегатами.
СУБД совершенствовались, а SQL расширялся для поддержки аналитических запросов, и после приобретений крупными игроками отдельных инструментов и интеграции их в BI-платформы, а также после встраивания MOLAP в СУБД ведущие позиции захватили IBM (Cognos BI), Microsoft (Analytical & Report Services), ORACLE (Oracle BI) и SAP (BusinessObjects), где позже появился акселератор запросов SAP/HANA — база данных в памяти с поддержкой запросов MDX. Тогда же на российском рынке был представлен АК ПРОГНОЗ («Прогноз», Пермь) — BI-решение, попавшее в рейтинг Gartner в 2012 году. Комплекс включал средства формирования отчетов, OLAP, прогнозирования и моделирования. Поставщик, выступая в роли разработчика, достаточно быстро делал с его помощью заказные аналитические приложения, но BI-инструменты были трудны для освоения пользователями.
В банковской сфере был распространен комплекс «Контур Корпорация» (Intersoft Lab), который включал не только OLAP, но и хранилище данных. Сейчас это набор аналитических приложений класса RCPM (Risk & Corporate Performance Management) — управления рисками и эффективностью деятельности корпорации.
Другой пионер российской бизнес-аналитики, продукт Deductor (BaseGroup Labs, Рязань, ныне Loginom), содержал средства OLAP и Data Mining, применялся в разных областях, вузы широко использовали бесплатный вариант Academic Deductor.
В крупных организациях сложился смешанный архитектурный ландшафт бизнес-аналитики c двухзвенной архитектурой «клиент-сервер» для унаследованных приложений и многозвенная архитектура web-приложений на основе нескольких BI -платформ [4]. В выигрышном положении оказались те, кто смог унифицировать или типизировать средства бизнес-аналитики и структуры витрин данных, а для каждой витрины выстроить семантический слой пользователя.
Несмотря на то, что сейчас интерес сместился к новым возможностям BI, сам механизм OLAP продолжал развиваться для удовлетворения новых потребностей, оставаясь важным элементом платформы бизнес-аналитики.
Визуализация данных
Истоки современной визуализации данных восходят к системам EIS/DSS из 1980-х годов, когда появились достаточно развитые средства компьютерной графики. Дальнейшее продвижение было связано с удовлетворением потребностей пользователей бизнес-аналитики и улучшением визуализации данных. Теоретик Эдвард Тафти дал достаточно простые рекомендации [5]:
- избавляться от визуального мусора (бессмысленных декоративных элементов) и превращать элементы оформления (оси, точки) в элементы данных;
- не применять элементы и приемы, искажающие истину и затрудняющие анализ данных.
Также для компактных графиков трендов размером в одно слово он ввел термин sparkline.
Визуализация данных в бизнес-аналитике применяется в следующих вариантах: деловая графика в отчетах и анализе кубов, информационные панели, визуальное исследование данных.
Информационные панели
Визуализация данных получила новый импульс развития с появлением набора процессов и технологий по управлению эффективностью деятельности организации CPM, на основе системы сбалансированных показателей BSC [6], включающего консолидацию управленческой отчетности, планирование и бюджетирование, функционально-стоимостный анализ, бизнес-моделирование, мониторинг KPI и других метрик.
Решения CPM были реализованы в виде отдельных BI-приложений, а в BI-инструментах остались и в дальнейшем объединились карты метрик (scorecard, metric map) и информационные панели (dashboard).
Практический вклад в создание информационных панелей сделал Стивен Фью [7], который разбирал варианты панелей и типовые ошибки и предложил эффективную компоновку панели, диаграмму bullet graph («пуля») взамен спидометров и термометров.
Информационная панель (панель мониторинга) — приложение интерактивной визуализации данных, применяемое бизнес-пользователями для мониторинга, диагностирования состояния бизнеса, отслеживания прогресса достижения целей и задач, принятия решений на разных уровнях управления организацией.
Информационная панель обеспечивает компактную визуализацию KPI и метрик деятельности в виде связанных интерактивных виджетов, синхронно меняющихся при изменении состояния фильтров или входного потока данных. Панель отражает стратегию или бизнес-модель деятельности организации в целом или ее отдельных направлений. В зависимости от уровня управления организацией, направлений бизнеса и решаемых задач различают стратегические, тактические (аналитические) и операционные информационные панели.
Преимущества информационных панелей заключаются в лучшем восприятии человеком графики, чем таблиц чисел; в привлечении опыта бизнес-пользователей, обеспечении помощи в принятии решений; в быстром получении результатов; в простоте коммуникаций и возможности совместной работы; в высокой скорости визуализации; снижении объемов бумажных документов. Теперь нетрудно следить за контекстом — вместо иерархии измерений используются простые измерения, наглядные открытые фильтры (срезы и бегунки) и многослойная визуализация, а детализации и укрупнения носят вспомогательный характер. Восприятие пользователем графической информации облегчается за счет применения простых элементов деловой графики и карточек показателей вместо приборных виджетов (спидометров, манометров, термометров), а также добавления географических карт.
Компактность панели обеспечивает микрографика, а также карты показателей со стрелками, светофорами, индикаторами и оценками.
«Читать» содержимое панели помогают регулярная сетка виджетов, постепенная детализация показателей сверху вниз или слева направо (KPI/метрики, структурные диаграммы, динамика показателей и детальные таблицы), одностраничная публикаций Short Read.
Бизнес-пользователи могут с помощью инструментов no-code/low-code создавать несложные информационные панели.
Однако информационные панели имеют недостатки: обеспечивают только описательный анализ и выявление отклонений; больше мониторинг, чем анализ, по сути, речь идет о «графических отчетах»; «статичный» характер большинства панелей с нечастым изменением данных. Каждый виджет панели решает только одну задачу, а одна таблица данных может служить для решения нескольких задач мониторинга/анализа. Кроме того, таблицы хороши для операций фильтрации, получения значений и нахождения производных значений.
Успех панелей определяется правильным выбором набора KPI и метрик, здесь важна совместная работа автора панели и ее пользователей. Применение информационных панелей связано с риском предвзятости при выборе одних данных и игнорировании других.
Панели без строгого подхода к дизайну часто перегружены информацией, скомпонованы небрежно, выбранные виджеты не соответствуют задачам сравнения и характеру зависимостей данных.
Самообслуживание бизнес-пользователей ограничено этапом мониторинга (анализа), а в руках у службы ИТ остается интеграция и качество данных — бизнес-пользователю просто создать панель с несложной моделью данных, но сложная модель данных требует больше усилий и знаний, возможно, привлечения аналитика данных и инженера по данным.
Инструменты создания информационных панелей недостаточно хорошо поддерживают регламентные отчеты.
Визуальное исследование данных
В 1977 году профессор статистики Джон Тьюки сформировал новый статистический подход для визуального изучения и осмысления количественных данных, называемый разведочным анализом данных (Exploratory Data Analysis, EDA), его часто применяют исследователи данных, используя программирование на Python или R. При этом визуализация данных и статистика служат для понимания структуры и основных свойств данных, выявления в них общих закономерностей, распределений и аномалий, проверки гипотез и построения начальных моделей, «рассказывания историй» о данных другим людям (storytelling), а также для подготовки к дальнейшему анализу.
Из статистики применяются: изучение вероятностных распределений переменных, факторный, дискриминантный и корреляционный анализ, многомерное шкалирование.
Реинкарнацией EDA в бизнес-аналитике стало визуальное исследование данных (Data Discovery) — методы и средства бизнес-пользователя для консолидации и очистки данных, обнаружения отклонений и шаблонов в данных путем их визуального анализа и для подготовки к Data Mining или продвинутой аналитике. С этим термином уже возникла коллизия из области управления данными, где речь идет об обнаружении информационных ресурсов и сборе метаданных о них.
Преимущества визуального исследования данных таковы:
- привлечение опыта и интуиции бизнес-пользователей;
- включение статистического анализа;
- вариативная визуализация данных для выявления зависимостей;
- интеграция с Data Mining или продвинутой аналитикой;
- реальное самообслуживание бизнес-пользователей, включая подготовку данных (связывание «без модели» многих источников; профилирование, контроль и исправление данных);
- интерактивный режим и высокая скорость визуализации, а также быстрое получение результатов и, как побочный эффект, — создание информационных панелей «на лету»;
- возможности коллективной работы и объяснения результатов анализа (storytelling).
Кроме бизнес-пользователя, визуальное исследование данных могут применять распорядители данных (data steward) и исследователи данных (data scientist).
Визуальное исследование данных имеет ряд недостатков: обеспечивает только описательный и разведочный анализ; инструменты пока не дотягивают до EDA в части статистики; возможности прогноза ограничены; исследования не отвечают на вопрос «почему»; у пользователей недостаточно аналитических навыков и знания предметной области, а именно это определяет успех визуального исследования данных.
Реальное самообслуживание теперь в руках пользователя, и здесь возникают трудности подготовки данных из-за сложности сборки модели данных, сказывается нехватка навыков по интеграции и обеспечению качества данных. Инструменты могут не предоставлять нужных функций для профилирования и контроля данных или в недостаточном объеме. Сложная модель данных требует больше усилий и знаний, возможно, привлечения аналитика данных и инженера по данным.
Инструменты визуального исследования данных недостаточно поддерживают формирование регламентных отчетов. Имеются также трудности внедрения результатов в производство, связанные с тем, что самообслуживание и безопасность требуют изоляции среды исследований данных.
Игроки на поле визуализации данных
Поначалу для визуализации данных использовались отдельные продукты, такие как визуализаторы ADVIZOR, Crystal Xcelsius, Cognos Visualizer, а также программирование информационных панелей на языках Python или R. Позже все BI-инструменты обзавелись графической визуализацией данных в отчетах и при анализе кубов, но интерфейсы пользователя были тяжеловесными, дизайн шаблонов аляповатый, время реакции не соответствовало интерактивному режиму.
В 2010 году продукт QlikView (QlikTech) произвел большое впечатление на рынке бизнес-аналитики своим удобным и быстрым интерактивным интерфейсом для создания и использования информационных панелей, упрощенной загрузкой данных встроенным ETL, простыми размерностями и открытыми фильтрами в виде срезов и бегунков (ассоциативный поиск), обработкой в памяти, наличием бесплатного Personal QlikView с галереей визуальных элементов и примерами информационных панелей.
Кстати, примерно тогда же начали появляться мобильные клиенты, а позже rich-клиенты бизнес-аналитики.
По оценкам Gartner, в 2014 году резко сменились лидеры бизнес-аналитики, вперед вырвались: Power BI (Microsoft), Tableau (Tableau Software), QlikSense (QlickTech), SpotFire (Tibco Software), которые сфокусировались на визуальном исследовании данных и создании информационных панелей. В России эти продукты использовались в основном для создания информационных панелей.
Быстрая обработка интерактивных запросов бизнес-пользователей обеспечивается хранением всех данных или основной их части в оперативной памяти, как правило, в поколоночном формате в сжатом виде, а также специальными механизмами визуализации.
Аналитикам данных для разработки сложных панелей доступны средства формирования модели данных, преобразования и загрузки данных и соответствующие сценарные языки, а также механизм запросов на языке DAX (Data Analysis eXpressions) для извлечения данных из табличного представления и построения расчетных выражений.
Из-за исследовательского характера работы и реального самообслуживания при визуальном исследовании данных вернулись desktop-инструменты, а web-инструменты стали использоваться в песочнице Data Lab в среде Data Lake и применять облачные BI-сервисы.
Когда в России встал вопрос замещения функционала лидеров рынка BI в части генерации отчетов, создания информационных панелей и проведения визуальной аналитики, оказалось, что отечественный рынок не стоял на месте и может предложить десятка два BI-продуктов разной степени зрелости, например: Luxms BI, Visiology, «Форсайт», Alpha BI, DataLens.
Другими вариантами замены стали продукты Open Source (Apache Superset и Metabase) и китайский продукт FineBI.
При выборе продуктов для создания информационных панелей следует учитывать следующие критерии:
- разнообразие и дизайн встроенных виджетов;
- форматирование и кастомизация панели;
- наличие средств ETL и коннекторов;
- создание расчетных мер и формул;
- интерактивные элементы и второй слой данных;
- возможности самообслуживания;
- поддержка no-code/low-code;
- сложность обучения.
В целом хорошим ориентиром минимума возможностей для создания и использования информационных панелей является Microsoft Excel с расширениями Power Query и Power Pivot.
Не следует ожидать, что российские продукты полностью заменят зарубежные, однако отечественный рынок решений бизнес-аналитики стремительно развивается и в ближайшие два года ситуация существенно изменится.
Интеллектуальный анализ данных
В 1989 году Григорий Пятецки-Шапиро так охарактеризовал Data Mining (интеллектуальный анализ данных, разведка данных) — это технология исследования и обнаружения «машиной» в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.
Явно не декларируется, но Data Mining ориентирован на бизнес-пользователя, в отличие от средств продвинутой аналитики (Advanced Analytics), статистических и математических пакетов для исследователей данных, статистиков и математиков.
Технология обеспечивает автоматический поиск новых скрытых глубинных закономерностей в данных путем построения моделей, основанных на методах и алгоритмах математической статистики, искусственного интеллекта. Типовые модели и задачи, которые решает Data Mining:
- прогнозирующие модели (Predictive): поиск существенных атрибутов, классификация, регрессия, временные последовательности;
- описательные модели (Descriptive): выделение признаков, кластеризация, ассоциативные модели, анализ отклонений;
- задачи распознавания текста (Text Mining): выделение существенной информации, анализ тональности, классификация и сегментация текстов/документов.
Выделяют следующие достоинства Data Mining.
- Анализ данных может производиться из многих источников и большого объема. Извлеченные знания могут давать существенный эффект при своевременном принятии решений, помогают предотвращать неблагоприятные ситуации и повышать отдачу от данных.
- При моделировании оценивается качество моделей. Среди моделей ценятся те, которые имеют высокое качество, дают знания в компактной форме, интерпретируемые человеком. Сочетание разных моделей может увеличить качество моделирования или позволит получить неожиданные новые знания.
- Расширенное самообслуживание бизнес-пользователей, подготовка и анализ данных бизнес-пользователями — не специалистами в ИТ и не математиками.
- Для упрощения формирования процесса анализа и включения разных компонентов часто используется workflow.
- Data Mining хорошо интегрируется с визуальным исследованием данных.
Как обычно, у Data Mining имеются и недостатки.
Существует психологический барьер применения «черных ящиков», например, алгоритмы нейронных сетей дают лучшее качество моделей, но слабо интерпретируются. Наблюдаются несовпадение результатов прогнозов при использовании разных алгоритмов и ложные корреляции с ростом объемов данных.
Самообслуживание бизнес-пользователей сталкивается с трудностями подготовки данных, которые могут приводить к низкому качеству данных. Инструменты могут не предоставлять нужные функции по профилированию и очистке данных. Кроме того, пользователь должен выбрать анализируемые признаки (feature engineering) и создать аналитический набор данных с определенной структурой, а также разметить тренировочный набор данных.
Среда анализа данных в песочнице отделена от корпоративной производственной среды, требуется операционализация готовой модели MLOps, а модели, внедренные в производство, со временем требуют дообучения или переобучения, однако этот момент бывает нелегко определить.
Использование результатов анализа, полученных с помощью Data Mining, потенциально сопряжено с управленческими рисками, нужно их учитывать, устранять или смягчать их воздействие.
На рынке всегда были представлены разнообразные пакеты анализа на основе моделей машинного обучения, но раньше они были рассчитаны на математиков и статистиков, кого сейчас бы назвали data scientist, например, SPSS, Statistica, MATLAB и другие. В конце 1990-х годов в состав BI-инструментов уже входили компоненты Data Mining, например, Miner в BusinessObjects, 4Thought в Cognos, но они «не взлетели», видимо, пользователи не были готовы решать такие задачи, поэтому эти компоненты исчезли из продуктов.
Для интеграции Data Mining с реляционными СУБД были расширены возможности SQL: стандарт языка SQL/MM (IEEE), интерфейс OLE DB for Data Mining (Microsoft), язык DMX — Data Mining eXpressions (Microsoft). Механизмы Data Mining были включены в MS SQL Server, Oracle DB и IBM DB2 в виде аналитических сервисов или опций.
К концу 2000-х годов существовали отдельные пакеты и платформы Data Mining, например: IBM SPSS Modeler, SAS Enterprise Miner, SAP KXen, RapidMiner.
Сегодня имеются достаточно продвинутые облачные сервисы машинного обучения MLaaS: Amazon; Microsoft Azure, Goole Cloud AI, IBM Watson. Однако из лидеров бизнес-аналитики только Qlik Sense предоставляет возможности Data Mining (Qlik Cognitive Engine). Tableau предоставляет интерфейс для вызова готовых моделей на Python, а Power BI может организовать такую связь на программном уровне.
На российском рынке давно присутствуют BI-платформы с возможностью Data Mining, например, Loginom и PolyAnalyst, относящиеся к категории guided analysis, — пользователь выстраивает workflow из доступных компонентов подготовки и анализа данных. Здесь у нас дела обстоят гораздо лучше, чем в других сегментах.
Перспективы бизнес-аналитики
Надо заметить, что самообслуживание сейчас находится на распутье, по какому пути двигаться: продвинутые средства продвинутой аналитики для эксперта — исследователя данных (expert data scientist) или новые, более простые средства бизнес-аналитики для бизнес-пользователя.
Продолжая двигаться навстречу бизнес-пользователю, необходима демократизация данных и аналитики, а для этого требуется:
- устранять организационные барьеры, упрощать доступ, но обеспечивать необходимую защиту данных;
- повышать доступность и релевантность данных за счет создания и ведения Каталога данных и Бизнес-глоссария данных, Словаря или моделей данных;
- упрощать структуры данных и их преобразования при подготовке данных;
- автоматизировать и облегчать исследование, анализ и машинное обучение.
Управление качеством данных остается пока слабым местом BI-платформ, для его улучшения следует встраивать машинное обучение в профилировании данных; повышать доверие к алгоритмам анализа, обеспечивая их прозрачность и объяснимость результатов; выявлять «фейки» перед анализом контента.
Аналитики Gartner полагают, что дальнейшее развитие бизнес-аналитики будет идти и уже идет путем дополненной аналитики (Augmented Analytics), связанной с объединением и упрощением разных методов анализа:
- ведущая роль остается у бизнес-пользователя, т. к. экспертиза в предметной области важнее навыков Data Science, поэтому искусственный интеллект-помощник (Centaur Intelligence) может выступать в качестве советчика в контексте пользователя;
- обрабатываются разнообразные виды больших, малых и широких данных X -Analytics;
- развиваются всеобъемлющий автоописательный, разведочный, предсказательный и предписывающий анализы;
- дополненная подготовка данных: сбор или автообнаружение данных, профилирование и очистка, моделирование схемы данных, трансформация и обогащение;
- автовизуализация релевантных шаблонов;
- автоматизация машинного обучения AutoML (генерация и тестирование моделей, выбор лучшего решения);
- запросы и ответы на естественном языке NLQ/ NLG.
***
Наработки по Data Mining и ML/AI помогут российским разработчикам обеспечить или развить автоматизацию подготовки и анализа данных в наших продуктах бизнес-аналитики. Ожидается появление новых возможностей анализа данных: аналитика связей (графов) Graph Analytics; применение генеративного искусственного интеллекта, в частности больших лингвистических моделей LLM, подобных ChatGPT, для формирования запросов и поиска релевантных данных.
Литература
1. Артемьев В. И. Обзор способов и средств построения информационных приложений // Системы управления базами данных. 1996. — № 05–06.
2. Валерий Артемьев. Что такое Business Intelligence? // Открытые системы.СУБД. — 2003. — № 4. — С. 20–26. URL: https://www.osp.ru/os/2003/04/182900 (дата обращения: 21.09.2023).
3. Codd E. F., Codd S. B., Salley C. T. Providing OLAP to User-Analysts. Hyperion Solutions Corp., 1993.
4. Артемьев В. И. Применение бизнес-аналитики в Банке России. Семинар центральных (национальных) банков стран ЕврАзЭС «Хранилища данных и аналитические пакеты, используемые в центральном банке». Тула: Межрегиональный учебный центр Банка России, 2010.
5. Tufte E. R. The Visual Display of Quantitative Information. 2nd Ed. Connecticut: Graphic Press, 2007.
6. Нортон Р. С., Каплан Д. П. Сбалансированная система показателей. М.: Олимп-Бизнес, 2005.
7. Few S. Information Dashboard Design: The Effective Visual Communication of Data. O'Reilly, 2006.
Валерий Артемьев (viart1951@gmail.com) — независимый консультант (Москва).