Многие компании, вложившие поистине гигантские суммы в создание хранилищ данных терабайтных размеров, практически не используют их для прогнозирования. Почему?
Потенциал средств добычи данных (data mining) как инструмента, выявляющего новые возможности для экономии средств и увеличения прибыли, растет по мере того, как хранилища данных увеличиваются в размерах, приложения становятся все более интегрированными, компьютеры — более мощными, а программные инструменты анализа — все более простыми и удобными в использовании. Но почему-то многие компании, вложившие гигантские суммы в создание хранилищ данных терабайтных размеров, не используют их достаточно эффективно для прогнозирования.
Как определить, какие клиенты с наибольшей вероятностью готовы отказаться от предоставляемых услуг? Каков будет отклик на предстоящую рекламную кампанию? Что произойдет со спросом, если цены вырастут, скажем, на 5%? Мы знаем, что есть системы, которые могут дать нам ответы на эти вопросы. Знаем и то, что в этих системах используются технологии, в названиях которых присутствует нечто эзотерическое, — нейронные сети, логистическая регрессия, метод опорных векторов. Впрочем, как говорят пользователи, для работы с такими продуктами вовсе не нужна ученая степень в области физико-математических наук. Но сложности все же есть, и главной из них является вовсе не анализ данных, а их получение. Таково мнение подавляющего большинства.
Моделировать легко, добывать трудно
BankFinancial — один из пользователей системы добычи данных Clementine компании SPSS. (В специальной литературе вместо термина «добыча данных» иногда можно встретить другое наименование, «интеллектуальный анализ данных». — Прим. ред.) С ее помощью создаются модели, прогнозирующие поведение клиентов банка. Это позволяет банку, к примеру, разрабатывать адресные рекламные кампании и материалы. Более конкретно — для этих моделей применялись нейронные сети и регрессионные алгоритмы, поддерживаемые системой Clementine. К настоящему моменту банк уже приступил к освоению нового пакета SPSS под названием PredictiveMarketing, который объединяет в себе «шаблоны лучших методов организации работ», помогающие пользователям в формировании прогностических моделей.
PredictiveMarketing позволит сократить сроки разработки моделей на 50-75%, утверждает Уильям Коннерти, помощник вице-президента SPSS по маркетинговым исследованиям. Основное предназначение приложения — моделирование процессов притока и оттока клиентов.
Проблема, однако, в том, что в реальных условиях модель строится на доступе к бухгалтерской информации, которая формируется на основании еженедельных и ежемесячных сводок. Эта информация не отражает динамики работы в течение суток и, следовательно, лишена оперативности. «Наибольшая трудность состоит в получении транзакционных данных и в работе с разрозненными источниками информации», — пояснил Коннерти.
Информация, которая требуется BankFinancial для оценки степени лояльности клиентов, поступает из нескольких банковских систем и разрозненных баз данных, где хранятся данные опросов клиентов. Прежде чем станут ощутимы первые результаты работы инструментов моделирования, нужно провести очень большую работу в области системной интеграции и разработки интерфейсов. «Нам придется добиться большей эффективности в организации доставки лицам, принимающим решения, информации, на основании которой действительно можно предпринимать те или иные шаги», — сказал Коннерти.
Компания KXEN (Knowledge Extraction Engines) — еще один производитель ПО бизнес-аналитики, с большой чуткостью относящийся к проблемам пользователей, нуждающихся в простых инструментах моделирования. Представители компании утверждают, что при помощи ее продукта Analytic Framework можно значительно быстрее разрабатывать и внедрять прогностические модели. Так, например, модуль Consistent Coder, по их словам, позволяет автоматически приводить «сырые», т.е. необработанные данные к формату, пригодному для моделирования.
«Продукты KXEN выгодно отличаются тем, что они наполовину сокращают подготовительную работу, — отмечает Сеймур Дуглас, один из руководителей компании Cox Communications. — Кроме того, они еще и скрывают от пользователя всю сложность обработки данных. Для работы с ними не нужно быть искушенным в статистике специалистом».
Cox Communications можно назвать пользователем продуктов KXEN со стажем. При помощи системы Analytic Framework этот провайдер услуг кабельной связи выявляет наиболее лояльных и прибыльных клиентов, прогнозирует их приток (или отток), а также реакцию на предложения, аналогичные тем, что делают конкуренты. На базе одной из моделей компании, в частности, удалось выяснить, что клиенты, проживающие в собственных квартирах, охотно пользуются услугами Cox, но при этом стремятся заключать договоры на сравнительно недолгое время. (В России такая ситуация тоже нередко имеет место, если вести речь, например, о частных операторах кабельного телевидения. — Прим. ред.) «Таким клиентам мы предложили специальный пакет продуктов, обеспечивающий более быструю окупаемость, — рассказал Дуглас. — Без KXEN мы бы даже не подозревали, что у нас есть такая группа клиентов».
Впрочем, экономия трудозатрат, которую дает KXEN, не обходится даром. По словам Дугласа, лицензия на пять рабочих мест обойдется клиентам в 360 тыс. долл. плюс необходимость выплачивать еще 60 тыс. долл. в год за поддержку продукта.
Структура как источник знаний
Роберт Берри, президент и генеральный директор исследовательской корпорации Central Michigan University Research, утверждает, что многие компании вкладывают значительные средства в хранилища данных, но используют их в большей степени для анализа прошлых результатов, нежели в качестве «источников знаний для прогнозирования». Одна из причин состоит в том, что этому препятствует сама структура этих компаний. Для создания и использования прогностических моделей необходимо наладить сотрудничество людей, обладающих опытом как в области ИТ, так и в сферах аналитики и бизнеса. «Необходимо создать группу бизнес-аналитики, — поясняет Берри. — Но мы ведь знаем, что компаниям ежедневно приходится решать вполне прозаические текущие задачи. Очень непросто ?вытащить? из разных подразделений специалистов по ИТ, людей, обладающих аналитическими способностями, объединить их в сплоченный коллектив».
Берри считает, то группа бизнес-аналитики должна быть подотчетна непосредственно людям, отвечающим за оперативное руководство компанией. «Необходимо, чтобы прослеживалась четкая связь между работой этой группы и финансовыми показателями фирмы», — подчеркивает он.
Пока клиент «дозревает»
В подразделении Enterprise Systems Group компании Hewlett-Packard работают специалисты различного профиля. Есть среди них группа ИТ-профессионалов, которые одновременно являются и высококвалифицированными аналитиками. Их задача — выработка прогностических моделей поведения клиентов. Группа является частью структур, отвечающих за управление взаимоотношениями с заказчиками. Это направление в HP курирует вице-президент по продажам.
В работе группы, по словам одного из ее участников, ведущего аналитика и эксперта по вопросам бизнеса и добычи данных Рэнди Коллики, могут участвовать приглашенные специалисты из отделов продаж, маркетинга и т.д., если этого требуют задачи проекта. Коллика уверен, что для разработки статистических моделей совсем не обязательно быть математиком. «Конечно, некоторые базовые знания все же потребуются, — напоминает он. — Если кто-то употребит специальный термин, допустим ?нормальное распределение?, необходимо представлять, о чем идет речь».
HP использует программное обеспечение компании SAS Institute для извлечения нужной информации из внутренних баз данных, содержащих сведения о нынешних и потенциальных клиентах. При этом используются регрессионный анализ и другие методики, которые в конечном итоге позволяют прогнозировать приток и отток клиентов, оценивать уровень их лояльности, корректировать цели маркетинговых кампаний. HP проводит еще и добычу данных в гигантских неструктурированных хранилищах текстовой информации. Это тоже своего рода прогностический анализ, хотя и не столь очевидный.
Объем информации о клиентах, накопленной HP, составляет около 750 Гбайт (включая данные Compaq, начиная с 1984 года). Данные о клиентах собираются центрами обработки заказов. Это могут быть сообщения, приходящие по электронной почте, записи, сделанные операторами во время приема звонков, и т.д. В этих записях фиксируется такой показатель, как степень готовности клиента к совершению покупки, — с точки зрения оператора. Этот показатель может принимать одно из трех значений: «готов», «в принципе готов», «сомневается».
На практике, однако, далеко не все записи содержат зафиксированное значение степени готовности клиента к совершению покупки. Поэтому в HP используется программа Text Miner компании SAS. Она позволяет вычислять (прогнозировать) значения рассматриваемого показателя, сопоставляя тексты записей, в которых отсутствует параметрическая оценка степени готовности к покупке, и те, в которые она ранее внесена.
Text Miner выполняет предварительную обработку «сырых» текстов, отыскивая ключевые слова и выстраивая матрицу по частоте их появления в документах. При этом отдельно фиксируются такие важные данные, как, например, имена клиентов. На следующем этапе исходная матрица заменяется матрицей значительно меньшего размера путем отбрасывания слов, не имеющих большой важности, и выделения наиболее адекватных.
Затем в рамках новой матрицы, используя списки синонимов, ключевые слова и документы, в которых они встречаются, разбиваются на категории. К примеру, если в записи говорится о «жестких дисках» или «дисковых накопителях», это позволяет отнести рассматриваемое обращение к числу тех, в которых клиентов интересовали системы хранения данных.
И только после этого к усеченной выборке данных применяются традиционные методы добычи данных: классификация (выделение признаков, характеризующих известную группу), кластеризация (самостоятельное выделение различных однородных групп), прогнозирование (построение шаблонов, отражающих динамику целевых показателей, и предсказание поведения систем на их основе). В прогностических системах часто применяется так называемый «метод ближайших аналогов». Часто его именуют «методом ближайшего соседа» (nearest neighbour). Для того чтобы дать прогноз на будущее или параметрическую оценку текущей ситуации, система находит ее самые близкие аналоги в имеющейся базе данных и выбирает тот же ответ, который ранее был правильным. В системе, применяемой в HP, действует модификация этого метода, именуемая memory-based reasoning. (В последнее время этот термин получил широкое распространение. Основной идеей его использования стало желание подчеркнуть, что в системе используется вся накопленная информация. — Прим. ред.)
Коллика считает, что точность методов интеллектуального анализа данных, применяемых в HP, доходит до 85%. «Без этих механизмов нам пришлось бы всякий раз отыскивать исходную запись и прочитывать ее, — поясняет он. — В случае с HP это физически невыполнимая задача».
В планах HP расширить сферу применения методов добычи данных — выяснять с их помощью, о чем клиенты предпочитают говорить с операторами центров обработки заказов, в каких вопросах они меньше всего доверяют компании. Цель ясна — выявить сомневающихся и подобрать к ним нужный подход.
Коллика говорит, что HP еще предстоит освоить множество многообещающих источников данных. Например, можно анализировать тексты гарантийных рекламаций с тем, чтобы лучше понять клиентов и прогнозировать возможные проблемы с теми или иными продуктами. В HP не исключают и возможности выполнять добычу данных на Web-сайтах существующих и потенциальных клиентов. «Это великолепный источник подробной информации о ваших клиентах», — убежден Коллика.
Инструментарий бизнес-аналитика
Регрессионный анализ. Регрессией в теории вероятностей и математической статистике называют зависимость среднего значения какой-либо случайной величины от некоторых других величин. Одной из задач регрессионного анализа может быть поиск функции регрессии, которая связывает между собой независимые переменные (ими могут быть, к примеру, пол, возраст и уровень дохода покупателей) и зависимые величины (например, объем продаж). Регрессионный анализ позволяет прогнозировать с помощью найденной функции регрессии отклик, т.е. значение зависимой величины (в нашем случае — объема продаж), в заданных точках пространства параметров (независимых переменных).
Анализ временных рядов. При изучении динамики временных рядов обычно используется сглаживание, целью которого является выделение тренда, т.е. основной закономерности ряда, его детерминированной компоненты. Известны различные методы сглаживания временных рядов. В частности:
- метод скользящего среднего - применяется в первую очередь для "очищения" временных рядов от так называемых "сезонных колебаний"; метод основан на том, что за сглаженное значение ряда в любой дискретной точке принимают среднее значение в некоторой окрестности с центром в этой точке;
- метод экспоненциального сглаживания - аналогичен методу скользящего среднего, отличается тем, что для вычисления сглаженного значения ряда в некоторой точке используются значения во всех предыдущих, с учетом "старения" данных (по мере приближения к текущей точке значения в предшествующих точках получают большие весовые коэффициенты).
Рассуждения на основе аналогичных случаев. Метод искусственного интеллекта, позволяющий делать прогнозы на основании наиболее похожих случаев в прошлом и применения имеющейся информации к новому случаю. Иногда именуется «методом ближайшего соседа». В последнее время вместо case based reasoning чаще стал использоваться термин memory based reasoning — принятие решений на основе всей накопленной в памяти информации. Недостатком систем рассуждений на основе аналогичных случаев ряд специалистов считают неочевидность (или отсутствие?) формализованных моделей или правил, обобщающих предыдущий опыт.
Искусственные нейронные сети. Модели, напоминающие по структуре биологические нейронные сети человеческого мозга. Топологически искусственная нейронная сеть может быть представлена направленным графом со взвешенными связями, в котором обрабатывающие элементы, искусственные нейроны, являются вершинами, а синаптические связи между ними — дугами (в биологии синапс — область контакта нервных клеток друг с другом и с исполнительными органами). Искусственную нейронную сеть можно выстроить на основе примеров из реального мира, например, взяв данные об объемах продаж и параметрах, которые на них влияли. Установив синаптические связи и определив их весовые коэффициенты, можно выделить те данные, которые необходимы для решения тех или иных специфических задач, например, для прогнозирования продаж в будущем.
Деревья решений. Создают иерархическую структуру классифицирующих правил, имеющую вид дерева. Для того чтобы решить, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. В зависимости от ответов осуществляется переход к той или иной ветви, ведущей к следующему узлу. С помощью деревьев решений можно генерировать правила, позволяющие классифицировать данные в соответствии с их влиянием на целевой показатель, и прогнозировать, например, прибыль, если каждую из ветвей принимать с определенной вероятностью.