В конце мая в офисе компании «Сбербанк-Технологии» прошла конференция Sberbank Data Day. Ее целью было привлечь внимание специалистов и студентов-старшекурсников к тому, как крупнейший отечественный банк работает с Большими Данными и какие видит перспективы в этой области, а также раскрыть некоторые секреты внутренней кухни анализа Больших Данных в банке.
Как подчеркнул старший вице-президент Сбербанка Никита Волков, банк считает работу с данными одним из ключевых направлений и источником роста, уже имеет достаточный опыт в сфере Больших Данных и может отнести себя к организациям, которые называют «направляемыми данными» (data-driven). Он также отметил, что Сбербанк крайне заинтересован в привлечении умных, талантливых и надежных специалистов, чтобы совершенствовать свой аналитический фундамент и формировать эффективную дорожную карту преобразований с помощью Больших Данных.
Игорь Бардинцев, директор центра прикладных данных Сбербанка, рассказал о проектах монетизации данных – создании на их основе новых продуктов, не связанных с существующими банковскими линейками. В Сбербанке такие проекты делят на внутренние, направленные на оптимизацию деятельности и сокращение затрат, и внешние, предназначенные для продажи другим организациям. Приведенные примеры внутренних проектов (оптимизация остатков в отделениях на основе прогнозирования потребности в наличных, переход к более эффективной модели универсальных рабочих мест с помощью анализа исторических данных о том, как сотрудники работают в офисе, прогноз выхода банкоматов из строя на базе анализа их технических параметров) уже на стадии пилота продемонстрировали возможность сэкономить миллиарды рублей. Из внешних проектов монетизации Бардинцев упомянул разработку нескольких продуктов, в частности системы для ретейлеров «Геомаркетинг 2.0», позволяющей дополнить карту перемещений потенциальных покупателей данными об их доходах.
По словам Бардинцева, Сбербанку принадлежит существенная (от 40 до 99%) доля во всех видах финансовых операций в стране – от кредитования до выплаты зарплат и пенсий, что позволяет приобретать обширные «знания» о своих клиентах. Но до последнего времени эта информация была рассредоточена по локальным системам, и лишь недавно начался процесс консолидации данных, что и стало предпосылкой для развития деятельности по монетизации.
Ключевыми компонентами технологической платформы работы с данными – «фабрики данных» Сбербанка — являются консолидированный источник неструктурированных данных на базе Hadoop и корпоративное хранилище на технологиях Teradata. За них отвечают две разные команды компании «Сбербанк-Технологии»: Центр компетенции развития BI-технологий и Центр компетенции по супермассивам данных. Последний наиболее активно задействован в проектах по монетизации вместе с еще одной структурой – Лабораторией данных блока «Технологии» Сбербанка. Как рассказал ее руководитель Донат Фетисов, основная задача лаборатории состоит в выявлении правильных источников данных для реализации той или иной идеи монетизации. Уже сейчас есть более 60 гипотез монетизации, и их число будет расти. Но чтобы трансформировать гипотезу в продукт, нужно не только разработать модель и проанализировать финансовую состоятельность идеи (этим занимается Центр компетенции по супермассивам данных), но и предварительно выяснить, откуда брать нужные данные. Задача непростая с учетом того, что Сбербанк работает с более чем 400 источниками данных, а их общий объем составляет около 16 Пбайт.
В своих исследованиях Лаборатория данных использует кластер на базе Hadoop объемом 600 Тбайт. В ближайших планах – построение промышленного озера данных, создание инструментов самообслуживания для привлечения в проекты аналитиков от бизнеса и превращение исследований в регулярный процесс с целью сократить сроки поставки данных для экспериментов в области монетизации.