Ключевые вопросы, в решении которых помогают инструменты прикладной аналитики, заключаются в понимании того, что происходило (какие закономерности наблюдались в прошлом); чего можно ожидать в будущем, если сохранятся текущие тенденции; что и как следует изменить, чтобы сделать будущее оптимальным.

Что такое Business Intelligence?

Термин business intelligence существует сравнительно давно, но в России его употребление часто неадекватно сути вследствие отсутствия его четкого понимания, что, впрочем, характерно и для Запада.

Новые интерфейсы и сохранение параметров настроек «по умолчанию» позволяют сегодня применять аналитические инструменты пользователям, не обладающим навыками программирования и не имеющим специального математического образования.

Любая аналитическая работа начинается с формулировки проблемы и определения цели анализа.

 Следующий шаг — организация доступа к исходным данным и их подготовка к анализу; часто это занимает до 80% всего времени. Нередко только аналитик понимает, в каком виде необходимо представить данные и как их подготовить для анализа, поэтому некоторые аналитические пакеты содержат возможности доступа к источникам разных форматов, объединения таблиц, их агрегации, расчета дополнительных параметров. Для примера, чтобы проанализировать поведение абонентов телекоммуникационных компаний, изначально берут огромные массивы информации по детальному трафику, а с помощью статистических методов на вход дают такие таблицы, где для каждого клиента сформированы в одну строчку порядка 1500 параметров его поведения.

После получения доступа к данным не стоит сразу пытаться строить сложные прогнозные модели — необходимо «очистить» данные, разобравшись с недостающими значениями и выбросами, способными исказить результаты анализа и, возможно, не показательными, а значит, не нужными для поиска типичных закономерностей.

Далее необходимо «нащупать» закономерности между какими-либо параметрами. Для этого применяются интерактивные средства, позволяющие визуализировать данные, строить разнообразные отчеты, проводить базовый статистический анализ. Удобнее всего первичный интерактивный анализ проводить с помощью инструментов, которые удерживают данные в оперативной памяти на протяжении всех манипуляций, — это так называемый анализ «в памяти» (in-memory).

  

Рис. 1. Некоторые методы выявления закономерностей

 

Для выявления закономерностей используются различные математические методы (рис. 1). Корреляционный анализ — определение степени взаимосвязанности параметров без выявления зависимостей между ними; например, если мы ходим с зонтиком, то, как правило, при этом не поливаем огород. Эти параметры взаимосвязаны, но оба зависят от количества осадков. Дисперсионный анализ — ответ на вопрос, значимо ли отличаются значения некоторого параметра у нескольких групп наблюдений. Предположим, у одной компании клиенты приносят в среднем 1000 руб. в месяц, а у другой аналогичной – 1100 руб. Эта разница – случайное колебание в рамках статистической погрешности или одной из компаний есть над чем задуматься? Существуют статистические критерии, которые на основе анализа разброса значений (дисперсии) позволяют сделать конкретные выводы. При этом для любого критерия и  любого вида анализа есть методы, позволяющие регулировать величину вероятности, с которой мы готовы найти ложную закономерность и ошибочно решить, что она есть. Обычно –  это 5%, для медицины – 1%. Линейная регрессия — определение влияния одного числового непрерывного параметра на другой. Например, на сколько в среднем меняется объем продаж при изменении маркетингового бюджета на каждый рубль. Если зависимая переменная может принимать только два значения (обычно «0» и «1»), то регрессия называется логистической. Это один из самых распространенных методов при анализе вероятности наступления некоторого события в зависимости от набора параметров. Дискриминантный анализ — анализ зависимости между параметрами, не имеющими числовых значений; например, влияет ли цвет стен на наше настроение, если настроение описано значениями «плохое»/«нейтральное»/«хорошее». Факторный анализ — уменьшение числа анализируемых параметров путем их объединения в комплексные факторы. Например, автомобиль описывается огромным набором характеристик, но можно выявить несколько комплексных факторов, влияющих на решение клиента о покупке автомобиля. Кластерный анализ — разбиение наблюдений на группы со схожими характеристиками в рамках каждой группы с последующим формальным описанием каждой группы. Таким образом, например, проводится сегментация клиентов на группы со схожей ценностью для компании или со схожим профилем потребления услуг. Контроль качества – анализ стабильности поведения параметров. Здесь выявляются необычные значения, тенденции, рассчитываются коэффициенты, характеризующие степень нахождения параметра в заданных рамках. Эти методы необходимы, например, на производстве.

Самые продвинутые методы выявления скрытых закономерностей принято называть прогнозным моделированием или прогнозной аналитикой, хотя, по сути, многие из перечисленных типов анализа также можно отнести к данной категории. То, что обычно называют прогнозным моделированием, фактически еще один вид выявления зависимостей, основанный на анализе влияния набора параметров на один параметр, как правило принимающий значения «0» или «1». Это связано с тем, что одна из самых востребованных задач – анализ зависимости наступления события от поведения человека. Для решения задач такого рода разработана методология Data Mining (раскопок данных, Прим. ред.), предписывающая аналитику пройти определенные шаги при анализе: взять подвыборку, ознакомиться с данными, построить дополнительные переменные, провести построение модели, оценить и сравнить модели. При выявлении зависимостей базовыми являются следующие методы: логистическая регрессия, деревья решений и нейронные сети. Все эти методы на выходе выдают формулы, которые позволяют по набору значений определить вероятность наступления прогнозируемого события. Таким образом, для тех сущностей, для которых событие еще не наступило, но известны значения необходимых параметров, можно определить вероятность наступления события.

Самые распространенные задачи добычи данных: расчет вероятности невозврата кредита, выявление клиентов, собирающихся отказаться от услуг компании, и выявление причин снижения некоторого параметра, например прибыли. Кроме этого, ассоциативный анализ также можно отнести к Data Mining с целью обнаружения закономерностей в одновременном присутствии нескольких характеристик у наблюдений. Основные решаемые задачи: какие товары лучше располагать рядом в магазине, и если у клиента уже есть определенный набор услуг, то какие дополнительные услуги есть смысл ему предложить.

Выявив закономерности в данных и построив модель, можно получить представление о том, что происходило в прошлом. Затем можно «заглянуть» в будущее (рис. 2).

 

Рис. 2. Восемь уровней аналитики

 

Если независимый параметр модели имеет отношение ко времени, то его можно непосредственно использовать для прогнозирования. Например, если имеется модель линейной регрессии, описывающая рост числа сотрудников фирмы в зависимости от возраста компании, то можно оценить, какой у нее будет штат через несколько лет, подставив в формулу возраст фирмы в тот момент времени. Аналогичным образом происходит анализ и для более сложных моделей, именно поэтому всю аналитику можно называть прогнозной — она выявляет закономерности, позволяющие смотреть в будущее. Также существуют специальные методы прогнозирования временных рядов, позволяющие, помимо базовых видов зависимостей, обнаружить сезонность.

Научившись предсказывать, к чему нас приведут текущие тенденции, стоит проанализировать, что можно изменить. Имитационное моделирование позволяет понять, как изменятся одни параметры модели при коррекции других. Наиболее эффективно для понимания необходимых корректировок использовать методы оптимизации. Если имеется формула зависимости одного параметра от других, то оптимизация позволяет максимизировать значение параметра с условием имеющихся ограничений. Например, мы имеем зависимость объема прибыльности банка от применяемых правил согласования кредитов. При этом реальная ситуация накладывает определенные ограничения; так, штат сотрудников может рассмотреть ограниченное число кредитных заявок.

Когда аналитик сделал все необходимые выводы из анализа, ему нужно донести их до людей, принимающих решения, и поставить получение результатов на регламент. Для этого используют инструменты визуализации результатов в графических и табличных отчетах. Также используют инструментальные панели, в том числе для мобильных устройств.

 

SAS Enterprise Miner Overview

Продукт SAS Enterprise Miner (SAS EM) поддерживает процесс интеллектуального анализа данных для создания прогнозных и описательных моделей на основе анализа больших массивов всех данных, имеющихся в организации. Процесс интеллектуального анализа наиболее эффективен, если является частью единой стратегии извлечения информации из данных, поступающих из разнообразных источников. Совместно с семейством продуктов SAS Access обеспечивается доступ к данным в популярных форматах, а SAS Text Miner позволяет использовать неструктурированную информацию.

Для удобства работы аналитиков в Data Mining имеется интерфейс SAS EM, охватывающий все пять (SEMMA) основных этапов анализа: построение выборки (sampling), изучение данных (exploration), преобразование данных (modification), построение моделей (modeling) и оценка моделей (assessment). Интерфейс помогает, например, автоматически подбирать преобразования, приводящие к нормальному распределению параметра, отбрасывать незначимые переменные, заменять пропущенные значения на основе статистических методов.

Подготовка данных — наиболее трудоемкий этап процесса Data Mining, и в SAS EM предлагается набор интерактивных инструментов импорта и объединения таблиц, построения дополнительных параметров, оптимальной обработки пропущенных значений, определения выбросов и определения правил сегментирования. Большой набор интерактивных инструментов визуального анализа позволяет даже новичкам быстро исследовать большое количество данных с помощью динамически связанных и многомерных графиков, доступных как в SAS EM, так и в специальном продукте для визуализации и предварительного анализа SAS JMP.

Программа SAS Rapid Predictive Modeler (RPM), входящая в состав пакета SAS EM, позволяет создавать прогнозные модели, не требуя глубоких знаний и навыков в аналитике, что делает его доступным для новичков и бизнес-пользователей. RPM вызывается из приложения SAS Enterprise Guide или из MS Excel и запускает преднастроенный процесс моделирования в SAS EM. В пакете EM имеются средства построения прогнозных и описательных моделей: деревья решений, нейронные сети, иерархическая кластеризация, линейная и логистическая регрессия, ассоциативный анализ, анализ последовательностей и др. Среди алгоритмов присутствуют такие методы, как регрессия наименьших углов, регрессия частных наименьших квадратов и др.

Способы оценки качества моделей в терминах метрик общей доходности помогают аналитикам обсуждать результаты моделирования с бизнес-экспертами. Модели, созданные с помощью различных алгоритмов, могут быть единообразно оценены помощью специального визуального интерфейса. Узел Cutoff в SAS EM проверяет распределение апостериорных вероятностей для того, чтобы определить оптимальное действие по решению бизнес-проблемы.

Для управления жизненным циклом моделей предназначен продукт SAS Model Manager, который кроме управления обеспечивает независимое сравнение и тестирование, передачу данных в продуктивную среду, мониторинг производительности моделей.

Скоринг – процесс регулярного применения модели к новым данным в операционной среде и может потребовать ручного переписывания кода, что приводит к задержке внедрения модели и привносит ошибки. В SAS EM автоматически генерируется скоринг-код на языках SAS, Cи, Java и PMML. Такой код может быть использован в системах реального времени или пакетной обработки для приложений SAS, Web или в РСУБД. Продукт SAS Scoring Accelerator совместно с SAS EM позволяет регистрировать модели как скоринговые функции для применения внутри СУБД Teradata, IBM DB2 или Netezza. Модели SAS EM могут быть переданы для применения в другие решения SAS: SAS Marketing Automation, SAS Model Manager и SAS Real-Time Decision Manager.

Настраиваемая среда SAS EM обеспечивает возможность добавлять инструменты и персональный код на языке SAS посредством разработки дополнительных узлов. Также модели, разработанные в других продуктах SAS, могут быть интегрированы в SAS EM.

Инновационная архитектура с Java-клиентом и сервером SAS обеспечивает гибкость настройки и масштабирование системы от одного пользователя до корпоративного решения, включая мобильные применения. Задачи, требующие значительных вычислений, могут выполняться многопоточно на нескольких серверах или по расписанию в пакетном режиме во время низкой нагрузки.

SAS EM развертывается на тонких клиентах, но автономную систему можно развернуть и на персональном компьютере. SAS EM поддерживает платформы Unix и Windows. Благодаря единому серверу метаданных SAS EM, можно использовать данные, созданные в других приложениях SAS, причем аналитики могут обмениваться моделями, а готовые модели могут быть использованы в других продуктах.

 

Сегодня широко применяются методы аналитики, направленные на конкретные прикладные задачи. Например, поведение человека часто лучше описывается не набором параметров, а набором действий, привязанных ко времени, поэтому активно развивается технология Data Mining временных рядов. Становятся популярны методы, позволяющие не просто предсказать факт наступления события, но и время его наступления — анализ выживаемости. Более того, появляются пакеты программ с встроенной методологией, отчетами и всем необходимым, чтобы решать конкретные бизнес-задачи, например задачу кредитного скоринга в банках (SAS Credit Scoring for Banking) или задачу управления взаимоотношениями с клиентами в телекоме (SAS Customer Analytics for Communications).

***

Применение средств аналитики дает руководителям достоверную информацию о причинах происходящих в компании процессов, позволяя прогнозировать и оптимизировать будущее развитие предприятия: аналитика становится неотъемлемой составляющей принятия любых важных управленческих решений.

Андрей Свирщевский (Andrey.Svirschevsky@rus.sas.com) — руководитель направлений аналитики и гарантирования доходов компании SAS Россия/СНГ (Москва).