Data mining - процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Термин «data mining», который в 1989 году ввел Григорий Пятецкий-Шапиро, не имеет однозначного перевода на русский язык, поэтому в большинстве случаев используется в английском варианте. Наиболее удачным непрямым переводом считается термин «интеллектуальный анализ данных». Как правило, эта область анализа подразделяется на задачи классификации, моделирования и прогнозирования.

Data mining включает модели и методы статистического анализа и машинного обучения, но дистанцируется от них в сторону автоматического анализа данных. Таким образом, инструменты data mining позволяют проводить анализ данных предметными специалистами, не владеющими необходимыми математическими знаниями.

Коммерческие организации могут получать от использования этих технологий конкурентные преимущества за счет оперативного выявления тенденций востребованности продуктов на рынке, своевременного обнаружения центров перерасхода средств в структуре затрат предприятия и решения других задач в области анализа больших объемов данных. Важнейшей на сегодняшней день областью применения data mining является анализ информации о клиентах (Customer Intelligence, CI). Основными потребителями CI являются три сегмента: финансовый (банки и страховые компании), телекоммуникационный, а также торговый сектор. В России эти сегменты исчерпывают список организаций, обращающихся к анализу данных о клиентах.

Как правило, наибольший эффект для компаний дает предсказательное моделирование. Применение data mining весьма эффективно при выявлении наиболее перспективных заказчиков, обнаружении случаев мошенничества, определении последовательности действий, предшествовавших отказу оборудования. Обычно «узким местом» данной технологии является ручной труд, требующий наличия квалифицированного специалиста и достаточного количества времени. В связи с этим немногие проекты оправдывают усилия, на них затраченные. Однако применение специализированных систем позволяет получить результаты за несколько часов.

Например, типичным использованием data mining в банках является создание систем анализа розничных кредитных рисков — задача, чрезвычайно важная в кризисных условиях. В результате упрощается и ускоряется процесс принятия решений о выдаче кредитов и, благодаря более точной оценке рисков, банк может увеличить количество выдаваемых физическим лицам кредитов без опасности роста объемов просроченной задолженности. Дальнейшими действиями банка может быть применение аналитических инструментов для поведенческой сегментации, а также построения моделей кросс-продаж.

Несмотря на то что востребованность решений data mining в России пока отстает от развитых рынков, на отечественном рынке представлено достаточное количество продуктов различного класса. Из российских компаний можно упомянуть «М-Лоджикс» с решением С.М.А.Р.Т. и «Прогноз» с одноименным аналитическим комплексом. Из наиболее известных западных систем выделяются решения SAS и Teradata, KXEN, представленная в России компанией «Ксема», и SPSS Clementine, продвигаемое «АйТи». Как следует из аналитического отчета Gartner за 2008 год, лидерами среди приложений data mining являются именно компании SPSS и SAS.


Оценка для банков

«Внешэкономбанк» в рамках системы управления рисками создал специализированный инструментарий дистанционной оценки кредитного риска финансовых институтов. Построенное решение базируется на технологиях data mining, таких как анализ статистических распределений, моделирование временных рядов, множественная логит-регрессия для построения оптимальной классификации банков по группам риска. Для идентификации модели использована статистика бухгалтерской отчетности кредитных организаций более чем за десять лет — исходный объем данных превышает 200 млн. записей. На выходе процесса пользователи получают возможность прогнозирования принимаемого кредитного риска на основе поступающей отчетности или ожидаемых изменений отдельных показателей деятельности банков. Система основана на технологической платформе аналитического комплекса «Прогноз» и представляет собой интегрированный многопользовательский инструментарий, позволяющий сотрудникам банка вести деятельность по управлению рисками в единой информационно-аналитической среде.