Как определить, что вы имеете дело с мошенниками?

Недавно созданная концепция хранилища данных для архитектуры клиент-сервер поможет вам ответить на все эти вопросы. Но, если организация действительно хочет добиться значительной отдачи от своего хранилища или рынка данных (data marts), необходимо обратиться к добыче данных. Добыча данных - это процедура "глубокого бурения" больших объемов информации для обнаружения взаимосвязей или получения ответов на специфические вопросы, сформулированные слишком широко для традиционных средств поддержки запросов.

В основе этого процесса лежит статистический анализ, использовавшийся до сих пор в качестве практического инструмента, а также привлекавший математиков-теоретиков. Но до недавнего времени он был довольно длительным, проводился вручную. Точность добычи данных существенно зависела от того, кто ее выполнял. Сейчас, благодаря созданию нейросетей и других сложных технологий, появились средства, автоматизирующие этот процесс, что дает возможность использовать добычу данных широкому кругу компаний. Объедините эти инструментальные средства с растущей базой доступных корпоративных данных, часто в виде хранилища данных, и ваша компания получит инструмент почти с неограниченными возможностями.

"Мы используем системы добычи данных компании HNC для идентификации клиентов, которые собираются уйти из нашего банка. Приложение, делающее эту работу, чрезвычайно важно для нас: ведь значительно легче сохранить клиента, чем найти другого. Так мы сокращаем наши затраты, - сказал Боб Истерс, вице-президент по маркетингу баз данных из Star Banc, регионального банка, имеющего 250 филиалов на Среднем Западе и использующего Database Mining Workstation компании HNC Software. - Кроме того, приложения для такого рода инструментальных средств, производящие, например, анализ регионов или благоприятных возможностей для межбанковских операций, практически готовы".

Модель привлечения

Чтобы задействовать этот потенциал, необходимо понимать основы добычи данных, которые столь же сложны, как и ее неавтоматизированный статистический аналог.

"Существует цикл операций для проведения добычи данных. Это прогнозирующее моделирование, сегментация базы данных, анализ связей и выявление отклонений, - пояснил Ивангелос Симоудис, руководитель по вопросам добычи данных в World Wide Decision Support Solutaition Division компании IBM. - Для выполнения этих операций нужны разнообразные средства, поскольку различные типы данных ведут себя по-разному".

Прогнозирующие модели "пытаются" предсказать определенное событие - например, какие из клиентов банка вероятнее всего перейдут к конкурентам. Исходя из предложения, что у компании возник определенный вопрос, на который и необходимо ответить, они пытаются получить этот ответ путем присвоения приоритетов, которые определяют вероятность определенного исхода.

В большинстве из существующих инструментальных средств реализовано прогнозирующее моделирование. Схема работы прогнозирующей модели примерно такова. Компанию интересует, например, какие из ее потребителей скорее всего прекратят с ней сотрудничать. Она собирает данные о пользователях, которые уже перестали быть ее клиентами, и передает информацию в прогнозирующую модель, прилагая к ней сообщение, что это образцы "плохих" пользователей. Она также берет образцы данных долговременных пользователей и предлагает их в качестве "хороших" пользователей.

Затем система просеивает эти образцы для того, чтобы обнаружить параметры и комбинации параметров, которые определяют собирательные характеристики типичных "плохого" и "хорошего" пользователей, и выдает приоритеты этих параметров. Результат может выглядеть следующим образом. Пользователи - мужчины, старше 50 лет, имеющие совокупный годовой доход больше 100 тыс. долл., автомобиль "Бьюик", а также собственный дом - откажутся от сотрудничества с компанией с вероятностью 30%. Пользователи - мужчины, от 18 до 25 лет, имеющие совокупный годовой доход меньше 25 тыс. долл., автомобиль "Хонда", снимающие квартиру, откажутся от сотрудничества с компанией с вероятностью 70%.

Располагая такими результатами, сотрудники компании могут сформулировать запрос к базе данных с тем, чтобы получить список пользователей, соответствующих таким параметрам, и создать маркетинговые программы, нацеленные на определенную группу. Кроме того, получая больше данных, модель обучается и выдает более точные прогнозы.

Инструментарий прогнозирующего моделирования подразделяется на несколько групп, из которых чаще всего употребляются группа продуктов на нейросетях. Нейросети - это вычислительные приложения, имитирующие функции человеческого мозга. Они могут обучаться и использовать нелинейную логику, которая является непременным атрибутом многих "умозаключений" человека. К инструментальным средствам на основе нейросетей относятся Database Mining Workstation компании HNC и DataCruncher компании DataMind.

Прогнозирующее моделирование на основе нейросетей идеально подходит компаниям, имеющим очень глубокую статистическую информацию, и аналитикам, уже проводящим свои собственный анализ, поскольку нейросети работают значительно быстрее любого человека, "заваленного" статистическими таблицами.

Выполняя статистический анализ "по старинке", компании тратят месяцы на создание новой модели, здесь же можно получать новые данные ежедневно.

Вопрос, обеспечивает ли имитация человеческого мыслительного процесса в прогнозирующих моделях на нейросетях более точный результат, по сравнению с "живым" мыслительным процессом, остается открытым.

Предсказания стимулируют

Недостаток систем на нейросетях состоит в том, что они представляют собой "черный ящик". Система получает данные и выдает результаты, но не сообщает, каким образом она пришла к подобным умозаключениям, хотя иногда, по мнению пользователей, ответ на вопрос - "как?", не менее важен, чем сам результат.

Прогнозирующие модели альтернативного типа, в отличие от нейросетей, используют алгоритмы индуктивной логики. Системы этого типа представлены продуктами IDIS Predictive Modeler (IDIS PM) компании Information Discovery и SAS Stat компании SAS Institute.

Пользователи считают, что метод индуктивной логики отлично подходит для аналитиков компаний, не очень заинтересованных в сверхсложных моделях и предпочитающих проникать в суть самих данных.

"Нам нужно определить, из чего состоят сами данные", - отметил Кен Забел, вице-президент по развитию бизнеса компании Customer Focus International (CFI).

CFI создает информационные системы, обладающие сведениями о потребителях для финансовых организаций. Она использует IDIS PM для предварительной сортировки базы данных клиентов, после чего может быть построено требуемое хранилищ.

"Нам нужны такие продукты, как IDIS, для выполнения анализа на основе сходных свойств. Это поможет нашим банкам определить, какие параметры заставляют похожих клиентов приобретать определенные продукты", - объяснил Забел.

Кроме того, индуктивные инструментальные средства известны как модели на основе правил или модели древовидной структуры и, возможно, более подходят для работы с данными, которым трудно дать количественные характеристики.

"Для систем прогнозирования на основе нейросетей необходимо определить количественные характеристики всех данных, даже таких, для которых это определение не совсем естественно. При работе на основе правил данные не обязаны быть числовыми. Здесь нет опасности исказить их природу", - пояснила Дайана Лин, менеджер по поддержке приложений компании Information Discovery.

Лин приводит в качестве примера прогнозирование возврата кредитов. Если бы нейросеть предсказывала, каким образом будет оплачен кредит: наличными, или чеком, или кредитной карточкой, или по безналичному расчету, она бы присвоила этим вариантам номера, а затем предложила числовой прогноз, который впоследствии следовало бы интерпретировать. IDIS PM сгенерировала бы прогноз о следующей выплате по названию варианта.

Недружественный к пользователю

Данный инструментарий не назовешь особенно дружественным. Один из вопросов, который стоит задать себе при покупке приложений для добычи данных, - каким образом данные будут вводиться в модель. Некоторые инструментальные средства, такие как IDIS PM, функционируют на отдельной рабочей станции, но могут быть присоединены к локальной сети.

"Это достаточно естественный процесс. Работа с IDIS вполне интуитивна, - считает Забел. - Мы передавали подмножество информации из хранилища данных предприятия на рабочую станцию IDIS и могли воспользоваться для этого локальной сетью. Вы имеете возможность извлечь информацию из таблиц реляционной базы данных - объединение по заданным условиям. Это все очень хорошо структурировано".

Другие инструментальные средства, такие как Database Mining Workstation компании HNC Software, работают на автономных машинах, которые не могут автоматизировать обременительную задачу выборки данных.

"Для того чтобы подготовиться к использованию инструментария, вы должны быть готовы к выборке из хранилища данных. Затем вам предстоит решить трудоемкую задачу ее организации и манипуляции данными с тем, чтобы поместить их в Database Mining Workstation", - рассказал Эстерс. Помимо физического соединения систем добычи данных, просмотр самой модели может быть сложным и требовать услуг специалиста, который прекрасно владеет математическим анализом или, еще лучше, обучался статистическому анализу.

"Вы не можете заняться добычей данных, просто взяв пакет инструментальных средств и положив в них данные", - говорит Рамин Макили, менеджер группы технологий базы знаний компании Andersen Consulting, работающей с DataCruncher компании DataMind.

"Здесь нет ничего интуитивного. Вы должны быть аналитиком, - заметил Эйхорст, - и при этом обладать недюжинной проницательностью. Вы должны уметь, взглянув на две переменные, увидеть, как они связаны между собой".

Другие технологии добычи данных

Кроме прогнозирующих моделей существует группа продуктов, определяющих взаимосвязи до выработки гипотез. Эти средства можно использовать еще до выявления интересующих вас фактов бизнеса при помощи прогнозирующей модели. Классический пример такого исследования - это анализ работы бакалейной лавки "на колесах". При помощи средств исследования было обнаружено, что наиболее часто в одной и той же лавке спрашивают салфетки и пиво. И затем использовали прогнозирующее моделирование для того, чтобы выявить, какие покупатели с большей вероятностью будут покупать салфетки и пиво, с тем, чтобы послать им рекламные материалы.

Одно из инструментальных средств, специализирующихся на обнаружении таких ассоциаций, - это IDIS компании Information Discovery. Этот инструментарий, независимо от прогнозирующей модели компании, обращается к реляционной базе данных непосредственно, через агентов, для того, чтобы обнаружить определенные тенденции: например, особенности развития некоторых сегментов. Такие шаблоны могут быть затем промоделированы для предварительного анализа.

Другое средство исследовательского анализа - это SAS Insight, который принадлежит к категории визуализаторов. Средства визуального моделирования данных дают возможность пользователю присваивать параметрам цвета, которые программа использует для обнаружения взаимосвязей между ними. И опять, как только обнаружены взаимосвязи, можно прибегнуть к предварительному анализу или моделированию.

С другой стороны, поскольку, какова будет отдача от вложений во многие приложения исследовательских средств, заранее не известно, они, скорее всего, станут следующим шагом после прогнозирующего моделирования.

Кроме того, не стоит забывать о тенденции к созданию комплектов инструментальных средств. Комплекты объединяют различные технологии и реализуют различные методы добычи данных.

В апреле компания IBM начала бета-тестирование своей платформы разработки для добычи данных Intelligent Miner, выпуск которой намечен на июль. Intelligent Miner объединяет основы нескольких типов технологий добычи данных, в том числе прогнозирующее моделирование, обнаружение ассоциативных связей и визуализацию. Она предназначена для компаний, стремящихся разрабатывать свои собственные приложения. Кроме того, IBM предложит несколько целевых приложений, к которым относятся приложения по сегментации круга потребителей, анализу потребительской корзины и системы обнаружения мошенничества.

SAS Institute также предлагает комплект, объединяющий несколько инструментальных средств добычи данных в своей SAS System for Data Warehousing. Компания разрабатывает прогнозирующую модель на основе нейросетей, хотя уже предлагает некоторые из возможностей нейросетей на основе макросов SAS.


Как нам добывать данные?

Даже самые лучшие в мире инструментальные средства не смогут "откопать информационные алмазы", если проделать несколько простых процедур. Некоторые основные моменты, служащие основой для хорошей добычи данных.

  • Использовать только полученные данные.
  • Иметь бизнес-аналитиков, статистиков и специалистов по ИТ в своей команде по разработке оригинальных приложений. Бизнес-аналитики помогают определить важность параметров. Инструментарий может "кричать", что взаимосвязь между двумя элементами важна, хотя на самом деле она вообще не имеет смысла. Статистики могут интерпретировать результаты. А специалисты по информационным технологиям упростят выборку образцов данных.
  • Если вы осуществляете прогнозирующее моделирование, дважды проверьте модель, прежде чем положиться на нее. В первый раз протестируйте модель на ситуации с известным результатом после ввода данных. Например, если вы пытаетесь понять, какие покупатели могут приобрести продукт, используйте список покупателей, которые его уже приобрели, и список тех, которые не приобрели. Посмотрите, укажет ли модель на верный список. Затем проверьте модель, смоделировав простую ситуацию. Сделайте предложения небольшой выборке пользователей, указанных прогнозирующей моделью для того, чтобы увидеть, как согласуется модель с реальными данными.
  • Продолжайте совершенствовать модель, добавляя в нее результаты каждой маркетинговой кампании.
  • Добавляйте новые, более совершенные модели по мере улучшения инструментальных средств.
  • Поймите, что моделирование, как и все остальные аспекты добычи данных, в большей степени можно назвать искусством, чем наукой. То, каким образом используются результаты добычи данных, определяет, насколько она выгодна.


Информация о производителях

HNC Software

http://www.hncs.com

DataMind

http://www.datamindcorp.com

Information Discovery

http://www.datamining.com

SAS Institute

http://www.sas.com

IBM"s World Wide Web Decision Support Solution Division

http://www.dss.ibm.com