Большие Данные становятся реальностью для все более широкого круга компаний. Компании переходят от экспериментов к реальному, «боевому» применению внешних данных, собираемых из множества источников. Тем не менее подводные камни по-прежнему существуют, и единого рецепта их обойти пока не найдено. Единственное, что можно посоветовать, – вдумчиво выбирать источники данных и оценивать оправданность их использования.
Накоплен уже достаточный опыт использования внешних источников данных, особенно в финансовой отрасли. Например, согласно существующим оценкам, использование в аналитике поисковых запросов человека, его данных из социальных сетей, истории его платежей добавляет 10-15% к точности создаваемых моделей.
Тем не менее подводные камни по-прежнему существуют, и единого рецепта их обойти пока не найдено. Единственное, что можно посоветовать, – вдумчиво подходить к выбору источников данных и оправданности их использования, как рекомендовали участники форума SAS Forum Russia 2016.
Начать следует с поиска и оценки источников данных. Если говорить об обогащении клиентской информации, то одним из ключевых является показатель успешных обращений – так называемый шанс попадания (hit rate), вероятность найти информацию об искомом человеке. Например, для социальных сетей он составляет около 50%. Кроме того, критически важно точное сопоставление найденной информации с конкретным клиентом, а также время отклика сервисов поставщика. На этом этапе отсекаются многие бизнес-процессы, в которых тот или иной источник использовать нельзя. Очевидно, что при долгом отклике сервисов поставщика этот источник данных не удастся использовать в системах реального времени. Существуют и дополнительные критерии: стоимость запроса, репутационные риски, доступность исторических данных.
«Следы» из Интернета
«Вопреки распространенному мнению, данные из соцсетей не очень эффективны в скоринговых моделях, хотя зачастую они и являются единственным источником информации о потенциальных клиентах», – считает Степан Ванин, старший консультант по аналитическим решениям SAS. Во-первых, банки сейчас очень осторожны и опасаются работать с незнакомыми людьми. Во-вторых, не более 25% потенциальных клиентов, оставивших онлайн-заявку на кредит, затем в реальности подтверждают свои намерения и приходят заключать договор. Это радикально снижает экономический эффект от аналитической работы и портит все расчеты.
Алексей Петров, начальник отдела аналитики и моделирования «Альфа-Банка»: «Как весьма интересный и перспективный сценарий мы рассматриваем анализ событий и цепочек событий в жизни людей с целью формирования оптимальных коммуникаций с клиентами – в подходящий момент с адекватным контекстом» |
Как отметил Алексей Петров, начальник отдела аналитики и моделирования «Альфа-Банка», с некоторыми источниками данных уже накоплен достаточно большой опыт работы, другие же пока рассматриваются как перспективные.
«Использование нами данных из социальных сетей для уточнения работы моделей действительно заметного эффекта не дало. Но мы не уверены в том, что проблема в данных – возможно, проверяемая гипотеза была не совсем корректной», – отмечает Петров. Тем не менее социальные сети стали бесценным способом обогащения контактной информации – пополнения базы электронной почты, актуализации контактов, проверки адреса проживания и телефона. Такие действия со стороны банка позволяют более эффективно работать с каналами коммуникаций и в целом очень полезны.
Еще одна возможность, ставшая доступной по итогам анализа данных социальных сетей, – профилирование потребностей клиентов на основе их интересов. Профили впоследствии используются в маркетинговых кампаниях для формирования более релевантных предложений клиенту.
Следующий источник информации о клиентах, используемый «Альфа-Банком», – посещенные клиентом интернет-сайты (их адреса и контент). Основное направление работы здесь – обогащение скоринговых моделей информацией, полученной из неструктурированных данных, и ее применение в ходе целевых маркетинговых действий.
Кроме того, банк умеет использовать отзывы, которые находятся в Интернете в открытом доступе, классифицируя их и оценивая с точки зрения тональности. Имеется опыт работы и с другими источниками ценной поведенческой информации – например, приобретаемыми у телеком-операторов и ретейлеров.
«Весьма интересным и перспективным нам представляется анализ событий и цепочек событий в жизни людей. Благодаря такому анализу удается формировать оптимальные коммуникации с клиентами – в подходящий момент и с адекватным контекстом», – делится Петров. Из других направлений работы можно назвать микросегментацию (использование Больших Данных для улучшения сегментной стратегии банка) и анализ разговоров операторов с клиентами в процессе телемаркетинга.
Польза и ограничения
Как же получить пользу от нового источника данных?
«При работе с новыми данными мы стараемся следовать определенной схеме, и здесь стоит остановиться на нескольких пунктах», – говорит Петров. Так как использование внешних источников часто сопряжено с понятием персональных данных, а эта сфера сейчас весьма зарегулирована, правовой аспект и репутационные риски игнорировать нельзя. Кроме того, еще на начальном этапе оценки проекта важно учитывать технические особенности – например, выбор аналитической платформы и платформы для предобработки данных. На пилотной стадии это можно делать вручную при помощи открытых решений, но не факт, что при дальнейшем масштабировании они будут согласоваться с текущей инфраструктурой и корректно работать.
Далее следует выбор сценария для проверки новых данных. Чаще всего это проецирование работы с новыми данными на текущие кампании. «Мы можем наложить новые источники на уже реализованную бизнес-логику и достаточно быстро – в течение пары месяцев – увидеть эффект», – отмечает Петров.
При выборе сценария важно оценить и такие факторы, как возможность показать в цифрах экономический эффект (чем это проще сделать, тем проще доказать эффективность данных), а также пересечение источника с историческими данными (прежде чем запустить новый пилот, его полезно протестировать на исторических данных).
Эти два действия можно производить, даже не имея полностью данных от партнера и не начиная их обработку. После получения данных нужно обязательно оценить показатель успешных обращений – это серьезный фактор, ограничивающий использование внешних данных.
Наконец, можно приступать к разработке пилотной кампании, лучше, если она будет недолгой по времени. При оценке финансового результата всегда важно искать «бонусы» – побочные эффекты, полученные совместно с основными. Они способны заметно повлиять на окупаемость.
Математика нужна, но команда – важнее
«Большие Данные нам интересны с точки зрения оптимизации выдачи кредитов, а именно – для оценки рисков», – говорит Сергей Герасимов, менеджер проектов Big Data банка «Хоум Кредит». По его словам, успех проекта определяется рядом факторов.
На первом месте – правильно подобранные бизнес-сценарии использования Больших Данных. Вторыми по значимости идут верно подобранные источники данных и их удачная интеграция. На третьем месте – математика, используемая в моделях классификации и прогнозирования. Наконец, определенную роль играет инструментарий, позволяющий автоматизировать работу, выполняемую аналитиками.
Сергей Герасимов, менеджер проектов Big Data банка «Хоум Кредит»: «Ни источники данных, ни алгоритмы не являются основой успешного применения Больших Данных. В гораздо большей степени успех зависит от команды людей, работающих с этими данными» |
Для ряда задач в банке «Хоум Кредит» используют решения SAS, в том числе модуль Text Mining. Нестандартную задачу бывает проще решить средствами Python. Если же поставщик передает большой объем неструктурированных данных, которые должны пройти предварительную обработку, применяется инструментарий Apache Spark.
С бизнес-сценариями вопросов не возникает, все стандартно: кредиты выдаются на основе анкет, заполняемых в Интернете либо в точках продаж. Сценарии включают скоринг существующих и новых клиентов, они различаются набором доступных данных. Если же банк пытается привлечь новых клиентов, он оценивает не только риск, но и желание человека воспользоваться услугами банка.
Что касается источников данных, то важны не только покрытие, показатель успешных обращений и качество данных. Критически важно также иметь хороший матчинг – уметь сопоставлять данные из внешнего источника с конкретными клиентами. Если это не выполняется, то качество данных и создаваемых моделей не имеет никакого значения: вся прекрасная картина будет разрушена, и эффект будет низким.
Пересечение источников данных между собой тоже имеет значение для создания моделей. Например, они могут почти полностью перекрываться или, наоборот, не пересекаться. Есть различные подходы к интеграции данных, все они имеют свои достоинства и недостатки.
Стоит отметить и различные сценарии работы банка с поставщиком. Возможны варианты: поставщик передает банку данные, и тот на их основании самостоятельно строит модели; поставщик строит собственные модели, а банку передает лишь результат обработки данных; банк строит модель своими силами на стороне поставщика, получая от модели только ответ. Последний вариант наиболее распространенный
Кредитный скоринг – частная задача машинного обучения, она имеет свои особенности. Например, приходится следить за точностью модели во времени. Кроме того, добавляются особенности, связанные с Большими Данными: их неструктурированность, большое число агрегатов, плохая интерпретируемость. Но самое неприятное – чем больше появляется источников, тем сильнее данные начинают коррелировать между собой, а значит, все труднее дается дальнейшее повышение точности модели.
«В такой ситуации необходимо практиковать современные методы машинного обучения. Мы видим будущее кредитного скоринга именно в развитии этих методов», – говорит Герасимов. Тем не менее, по его мнению, ни источники данных, ни алгоритмы не являются основой успешного применения Больших Данных. В гораздо большей степени успех зависит от команды людей, работающих с этими данными.
Клиентская база – уже не преимущество
«Данные соцсетей в рисковых моделях все-таки работают, это вопрос подхода. Мы с ними научились правильно работать. И проблемы матчинга для нас тоже не существует», – иронизирует над коллегами Евгений Исупов, руководитель отдела монетизации данных «Тинькофф Банка».
За последнее время в работе банка многое изменилось. Раньше у него был единственный основной продукт – кредитные карты. Сейчас же он позиционируется как платформа Tinkoff.ru – площадка для получения необходимых финансовых услуг. Продуктов стало много, расширяются каналы взаимодействия, изменились воронки продаж, стратегии коммуникаций. Если раньше работали с заявителями и портфелем кредитов, то теперь приходится учиться многому другому.
«Есть банки, заявляющие о наличии большой клиентской базы. Но в XXI веке это уже не преимущество», – полагает Исупов. Сейчас можно оценить всех пользователей Интернета, объединить их офлайн- и онлайн-данные, определить подходящий каждому финансовый продукт и способ его продажи.
«Когда к нам приходит поставщик и предлагает свои данные, мы смотрим в первую очередь не на сами данные, а на поставщика, пытаемся понять экспертизу этих людей, их мотивацию, оценить, готовы ли они в этой области работать долгосрочно, – продолжает Исупов. – Бизнес приходится делать с людьми, а не с данными». Работа с кредитными рисками – процесс на годы вперед, поэтому надо быть уверенным в поставщике. Кроме того, нужно точно понимать саму природу данных, процесс их сбора и возникающие риски. Не раз банк был вынужден отказываться от изначально очень привлекательных данных, но впоследствии испорченных изменениями в технике и процессах сбора.
По словам Исупова, преуспевших в работе с Большими Данными от всех остальных отличают несколько вещей. Первое, чем гордятся в «Тинькофф Банке», – стек ИТ-решений. Они должны работать быстро, вне зависимости от объемов данных, и выдавать результат за доли секунды. Эта инфраструктура должна реализовывать любую математику.
Во-вторых, серьезная ошибка – разделять данные на «традиционные» и «нетрадиционные», этого делать не следует. В компании необходима аналитическая культура: специалисты должны быть готовы работать с любыми данными – от текста и поведенческих характеристик до видео и геолокации. С точки зрения аналитика, между ними нет принципиальной разницы.
Третий аспект также относится к культуре: нужно больше работать и меньше тратить время на совещания и презентации. «Тинькофф» в этом смысле больше похож не на банк, а на интернет-компанию, где у сотрудников очень большая свобода действий.
***
Единого рецепта успешного применения внешних данных пока найти не удается. Ключ к решению этой задачи – максимально плотная работа ИТ-команды с бизнес-специалистами. Многие подчеркивают важность регулярных мозговых штурмов относительно использования данных в рутинных процессах. Только такое привлечение бизнес-подразделений к принятию решений в области развития аналитических систем может дать толчок к повышению их эффективности.