До последнего времени попытки применить анализ выживаемости к проблемам бизнеса делались лишь в вузах

Благодаря «анализу выживаемости» (survival analysis) можно, к примеру, выяснить, что выгодный клиент намерен перейти к конкуренту. Или решить, действительно ли рекламная кампания оправдывает вложенные в нее деньги. Или изменить каталог почтовой рассылки так, чтобы удвоить доходы.

Аналитическая методика с похожим названием — «добыча данных о выживаемости» (survival data mining) десятилетиями используется врачами для прогнозирования продолжительности жизни пациентов с пересаженным сердцем, а биологами — для оценки вероятности того, что клетка, в которую проник вирус, погибнет в течение 24 часов. Инженеры давно применяют эту методику для оценки наработки техники на отказ. Недавно социологи и психологи начали использовать ее для прогнозирования того, что люди определенных типов разведутся или обратятся за помощью в преодолении депрессии.

Однако до последнего времени попытки применить анализ выживаемости к проблемам бизнеса предпринимались лишь в вузах в качестве исследовательских проектов. Сейчас эта методика начинает использоваться там, где в маркетинговых целях активно работают с базами данных, например для обслуживания по кредитным картам, в отелях, фирмах, занимающихся торговлей по каталогам, и т. д.

Анализ выживаемости реализуется в семействе методик прогнозирования «срока до совершения события», математически применимых к задачам со следующими характеристиками.

  • Речь идет о дискретных событиях, которые произойдут с некоторыми членами данной популяции. Кто-то из пациентов умрет, на каких-то дисках возникнет сбой, будет выписано определенное число рецептов на «валиум» и т. д.
  • Результаты зависят от времени. Клиент может закрыть свою кредитную карточку завтра (лучше позвоните ему сегодня), в следующем квартале (пошлите ему письмо) или не сделает этого в ближайшие пять лет (оставьте его в покое).
  • Интересующие вас результаты, или «зависимые переменные», такие как доход, рост или IQ, не являются непрерывными. Они дискретные и, более того, как правило, двоичные: умрет ли данный человек в ближайшие полгода или нет; откажется ли клиент от ваших услуг в этом году или нет.
  • Вероятность некоего результата зависит от определяющих событий. Например, вероятность того, что клиент уйдет к конкуренту, растет, если от него поступают жалобы на обслуживание.

Ренди Коллика, ведущий аналитик Hewlett-Packard, заметил, что добыча данных о выживаемости с целью подготовки прогноза поведения клиента стала использоваться в последние года два. По его словам, это продолжение старых методов, в соответствии с которыми специалисты компании пытались спрогнозировать поведение клиентов на основе последних данных или информации, полученной за определенный период, например за квартал или за год.

Но анализ выживаемости учитывает время как переменную самого анализа. «Это расширенная методика, — подчеркнул Коллика. — она позволяет получить значительно больше информации».

Выбор методики

ПО для анализа выживаемости чаще всего использует логистическую регрессию. Некоторые производители продают продукты, позволяющие прогнозировать время до совершения события с помощью нейронных сетей или генетических алгоритмов.

Например, SAS Institute в нескольких своих продуктах реализовала функции анализа выживаемости. По словам Энн Лилей, менеджера SAS по аналитической стратегии, решение о том, какой из продуктов будет наиболее приемлем, зависит от того, как сформулирована задача, какой результат необходимо получить, а также от возможности пользователя заниматься кодированием и подготовкой данных.

Инвестиционная фирма Dreyfus использовала модули логистической регрессии для того, чтобы выяснить причины снижения темпов роста фонда для будущего стабильного погашения задолженности по кредитам клиентов с 20% до менее 7%. Сначала в Dreyfus использовали анализ выживаемости, чтобы выяснить, какие факторы привели к тому, что компания теряет клиентов. «Затем мы подумали о том, нельзя ли предсказать поведение клиентов, — отметила Прассана Доре, вице-президент Dreyfus. — Какова вероятность, что клиент A соберется забрать деньги, например, в ближайшие два года? И что мы можем сделать для того, чтобы этого не случилось?»

Анализ показал, что, к примеру, есть клиенты, которые выкупают кредит в течение трех месяцев после информации об ухудшении показателей работы фонда. Но если предложить им новые возможности, они останутся партнерами Dreyfus.

Catholic Relief Services использует программное обеспечение компании Genalytics для выявления тех, кто не просто один раз оказал материальную помощь, например, в случае стихийного бедствия, но также готов заниматься благотворительностью дальше, пояснил Кевин Уортон, директор по вопросам сбора средств. Это программное обеспечение опирается алгоритмы, способные к самообучению для создания «самонастраивающихся моделей». Одна из моделей показала, что у латиноамериканцев желание жертвовать деньги значительно быстрее иссякает, чем у благотворителей других национальностей. Значит, нужно активно работать с этими людьми в первые пять-шесть месяцев.


Опасности прогнозирования

Анализ выживаемости по определению зависит от времени. В компании Dreyfus убедились, что данные, поступающие из множества различных источников за длительные промежутки времени, соответствуют текущему положению дел.

«Необходимо сформировать общее представление о клиенте, — советует генеральный директор Genalytics Дуг Ньюэлл. — Все, что известно о нем, должно быть тщательно сопоставлено».

«Самая частая ошибка — это расчет на «зависящую от времени ковариантность», — отметил Уилл Поттс, консультант по вопросам статистики компании Data Miners. По его словам, свойства клиентов со временем меняются, и определенное событие может оказаться вероятным сейчас не из-за текущих значений параметров прогнозирования, а из-за более ранних данных.

Как и большинство методик прогнозирования, анализ выживаемости может строить свои прогнозы только на предыдущем опыте. На самом деле это взгляд в зеркало заднего вида. Изображение зависит от того, что клиент делал в прошлом, поэтому, если предлагается, скажем, новая программа поддержки лояльности, оценить ее влияние трудно.


Программа поощрения лояльных клиентов: стоит ли результат усилий?

На графикесравнения эффективности удержания пользователей верхняя кривая представляет динамику удержания пользователей, которым была предложена программа поощрения лояльности, нижняя — характеризует тех, кому соответствующие предложения сделаны не были. Площадь между двумя кривыми соответствует экономическому эффекту действия данной программы