Интернет-компании, онлайн-ретейлеры и мобильные операторы уже давно строят на Больших Данных свой бизнес. Банки же в силу традиционной консервативности входят в «клуб Больших Данных» относительно поздно — только сейчас. Сбербанк, имея больше по сравнению с другими возможностей, ступил на эту стезю раньше многих: подразделение, занимающееся внедрением инновационных решений, у него появилось еще в 2011 году. По проработанности подхода его можно отнести к лидерам, а накопленный опыт позволяет избегать многих ловушек, принимая взвешенные решения в области развития используемых платформ.
Аналитики Gartner относят зрелость технологий Больших Данных к этапу скатывания по «желобу разочарований», когда несоответствие между ожиданиями от технологий и их возможностями порождает заметный скепсис. Когда же встретятся ожидания и возможности Больших Данных?
«Аналитики оценивают эти показатели в комплексе, с точки зрения всех секторов экономики. Однако в некоторых из них Большие Данные не только достигли ожиданий, но и превысили их», — полагает Анджей Аршавский, директор центра компетенции супермассивов данных «Сбертеха». Эти технологии появились в поисковых системах, когда Google и Yahoo, будучи еще стартапами, пытались «перемолоть» Интернет. Для них задача стояла достаточно просто: на дешевых серверах было необходимо обрабатывать гигантские массивы данных, и эта задача была решена. Затем технологии Big Data перешли в сегмент интернет-торговли, где тоже прекрасно себя зарекомендовали — например, магазины-гиганты стали использовать их в рекомендательных системах. Во многом именно Большие Данные позволили этому бизнесу процветать. Не так давно мы стали наблюдать проникновение Больших Данных и в деятельность мобильных операторов.
Банки входят в «клуб Больших Данных» только сейчас, относительно поздно. Это происходит не потому, что Большие Данные до сих пор им не были нужны, а в силу традиционной консервативности. Тем не менее такой процесс неизбежен.
Инновации — разрушающие и созидающие
Бретт Кинг, автор книги «Банк 3.0», привел последовательность инноваций, вызывающих разрушение традиционной банковской системы. Оно началось с приходом Интернета и социальных сетей, давших возможность выбирать банк не по месту жительства, а более осознанно. Приход смартфонов позволил взаимодействовать с банком из любого места; попутно возникли мобильные кошельки, дав возможность обходиться без карточек и наличных. Сейчас уже ставится под вопрос необходимость наличия банковского счета: например, Facebook анонсировал возможность переводов денежных средств между участниками сети.
Следующими в этой цепочке становятся Большие Данные: они позволяют персонализировать предложения, причем эта персонализация может выйти за пределы банка. Какие-либо сторонние площадки могут заключать договоры с клиентами от имени банков, оказывая им дополнительные услуги на основе имеющейся информации.
«Таким образом, от использования Больших Данных напрямую зависит прибыль банка. Поэтому вопрос необходимости их использования уже не стоит», — констатирует Аршавский.
Как эволюционирует работа с данными и в какой момент они становятся «большими»? Исторически ИТ обслуживали рутинные операции банков, и это давно стало нормой. Затем возникла потребность в бизнес-аналитике и информации, которая позволяла бы управлять деятельностью банка. Эти технологии тоже уже являются классическими.
Но вот бизнес захотел использовать информацию в том контексте, который актуален в данный момент времени. Так к внутренней информации о клиенте добавились данные из внешних источников. Следующим этапом стал подход к информации как к рычагу инноваций: возникло такое понятие, как data driven innovation. Для бизнеса стала важна способность получить доступ к любым данным в любой момент времени — даже если заранее непонятно, для чего именно, в процессе анализа могут родиться новые бизнес-идеи. Наконец, сейчас информация становится источником конкурентных преимуществ, помогая создавать молниеносные персонифицированные предложения и даже менять акцент бизнес-стратегии, обрабатывая данные в реальном времени.
Последние три стадии относятся к категории Больших Данных.
BI и Big Data — в чем разница?
Часто эксперты пытаются дать ответ, в чем заключается различие подходов Больших Данных и традиционной бизнес-аналитики. Понятно, что на первый взгляд они очень похожи и имеют много общих деталей. Однако разница ощутима, хотя многие не могут ее четко формализовать.
Во-первых, системы класса Big Data изначально ориентированы на работу с разнородными данными. Во-вторых, они закрывают потребность компании во внешних источниках данных, в то время как бизнес-аналитика базируется на существующих в компании внутренних источниках. Кроме того, систему Больших Данных можно построить на стандартном оборудовании, тогда как BI-системы требуют гораздо более дорогих аппаратных решений.
Последним по очереди, но не значению является наличие решений с открытым кодом. Да, на рынке появляется все больше производителей готовых коммерческих систем и программно-аппаратных комплексов, но начать можно с решений open source. Низкая цена входа и быстрый старт очень важны с учетом того, что риски проектов пока оцениваются как высокие и нет массового понимания необходимости этих технологий со стороны менеджмента среднего звена.
Анджей Аршавский, директор центра компетенции супермассивов данных «Сбертеха»
Мощь данных недооценивается
«Как один из крупнейших банков, мы видим, что данные являются важнейшим активом, и актив этот пока недооценивается и недоиспользуется. Мало кто умеет эффективно накапливать и обрабатывать данные в том виде, в котором они сейчас востребованы», — говорит Аршавский. Данные в банках часто бывают разрознены между системами и недоступны для совместного анализа. Это является большим препятствием для их обработки. К тому же мало кто в банковской среде умеет использовать открытые данные и данные Интернета. Тем не менее эта тема становится одной из самых актуальных.
Известна оценка Gartner, согласно которой 70% усилий в работе с данными приходится на их первоначальную обработку, очистку, загрузку и подготовку. Чтобы стать пригодными для эффективного анализа, данные нуждаются в реинжиниринге и переформатировании. Только 30% относится непосредственно к анализу и построению моделей. Это становится большой проблемой, частично порождающей разочарование в технологиях Больших Данных.
В условиях, когда не решена задача интеграции данных и размещения в едином поле, доступном для анализа, большая нагрузка возлагается на команды, работающие с первоисточниками — теми системами, из которых пытаются выгрузить данные для аналитики. В крупной компании зачастую несколько команд пытаются сделать с данными что-то полезное, дублируя усилия друг друга.
«Мы хотим создать единый инструментарий, который поможет решить вопросы как с доступностью данных, так и с их интеграцией», — подчеркивает Аршавский. Эта система должна позволить различным службам банка использовать ее в своих целях, а не идти путем построения отдельных систем, решая одни и те же проблемы снова и снова.
Аршавский выделяет четыре ключевых направления использования Больших Данных, имеющих наибольший потенциал. Во-первых, конечно же, должен быть сделан акцент на работе с клиентами, причем как с физическими, так и с юридическими лицами. Тремя остальными направлениями становятся борьба с мошенничеством, оптимизация работы HR, что крайне важно для любой крупной организации, и оптимизация рабочих процессов — например, обслуживания банкоматов.
Задачи работы с клиентами постепенно становятся классическими и решаются всеми банками. Им важно привлечь новых клиентов на основе анализа информации из Интернета о людях, не являющихся клиентами банка, удержать клиентов — предсказать их отток и выявить ключевые причины, влияющие на него. Повысить прибыльность бизнеса помогают вторичные продажи и персонализация предложений.
Под мошенничеством же понимаются и внешние, и внутренние угрозы — внутри банков тоже часто присутствуют проблемы. Мошенники прогрессируют, используют все более хитрые схемы, и обычными средствами их вычислить очень тяжело, поэтому важно использовать как внутреннюю, так и внешнюю информацию о поведении собственных сотрудников.
Big Data: как важно быть наглядным
Визуализация данных не только дает более четкую картину, но и порой помогает выявить скрытые связи.
В условиях, когда отношение к Большим Данным, по мнению аналитиков, сменилось с восторженного на настороженное, «пробивать» соответствующие проекты стало более затруднительно. Как полагает Андрей Скворцов, директор группы компаний «Меркатор», специализирующейся в области инфографики, помочь в этом может наглядная визуализация данных. На форуме Big Data 2015, организованном издательством «Открытые системы», он предложил три простых правила представления данных в наглядном виде. Визуализированные данные должны вызывать удивление, показывать контрасты; кроме того, необходимо представлять все данные — иначе они будут не столь убедительны.
Первым «визуализатором» стал французский математик и астроном Урбен Леверье, наиболее известный своим открытием Нептуна «на кончике пера». После того как шторм в ноябре 1854 года изрядно потрепал англо-французский флот под Севастополем, французский император Наполеон III обратился к ученому с вопросом относительно предсказуемости такого рода явлений. Леверье изучил и изобразил траекторию урагана, попутно предложив основать сеть метеорологических станций для заблаговременного отслеживания природных катаклизмов. Император, удивленный невиданными доселе картинками движения атмосферных фронтов, дал добро.
Качественная иллюстрация лучше тысячи слов расскажет о том, в каких странах энергетики «ставят» на ветер и воду, а в каких — на уголь и мирный атом Источник: «Меркатор» |
С этих карт Леверье, считает Скворцов, и началась визуализация данных. Она позволяет сделать данные более наглядными — например, отобразить ход застройки центра Москвы по годам, представить транзакции Сбербанка в реальном времени или показать, в каких странах Европы предпочитают маленькие ветровые электростанции, в каких — большие атомные и тепловые. А порой она дает возможность вскрыть некоторые прчинно-следственные связи, особенно при работе с малоформализуемой информацией. Так, графически отобразив взаимоотношения в коллективе, можно найти в нем отчетливые группы друзей. Или понять, как в реальности повлиял на динамику продаж приход нового руководителя.
Самый поучительный пример формально касался степени совпадения динамики бюджета США с прогнозами относительно этой динамики. Прогнозы, как отметил Скворцов, были двух типов: «Все хорошо» и «Сейчас не очень, но скоро все будет хорошо». Реальность несколько отличалась, и, по словам директора «Меркатора», такая ситуация характерна для госучреждений отнюдь не только нашего заокеанского партнера.
- Дмитрий Гапотченко, заместитель главного редактора Computerworld
Для экспертов, и не только
Принимая решение о построении платформы Больших Данных, следует руководствоваться детализацией задач, которые банк хочет решить. Задачи могут быть самые разнообразные: от поставки данных, их очистки и интеграции до создания «рабочего стола аналитика», предоставляющего инструментарий и права доступа к данным с поддержкой всего цикла аналитической работы. Отдельным вопросом является доверие к информации. Оно особенно актуально, когда речь идет о внешних источниках, но и внутренние данные тоже могут быть противоречивыми. Этот спектр задач в идеале должна решать платформа Больших Данных.
Как полагает Аршавский, имеет смысл вести работы по двум направлениям. В первую очередь речь идет о том, чтобы загрузить как можно больше сырых данных, связать их воедино, сделать доступными на Hadoop и дать экспертам доступ к ним. Одновременно следует разработать аналитическую платформу, которая позволит работать с агрегированными показателями, выделяя наиболее яркие, значимые атрибуты на основании информации, доступной в разных источниках. Это могут быть показатели надежности и уровня потребления сервиса, вероятность покупки нового автомобиля или того, что заемщик не вернет кредит. Их можно использовать как для формирования комплексных предложений клиентам, так и для «обучения» построенных моделей.
«Мы сталкивались с совершенно непредсказуемыми ситуациями, когда одним из значимых факторов в модели становилось окончание фамилии человека или время, потраченное на заполнение анкеты», — говорит Аршавский. Заранее неизвестно, на каких показателях будет основываться модель, сигналом может быть все что угодно. Любой незначительный на первый взгляд признак в масштабах бизнеса может стоить в прямом смысле миллиарды.
Таким образом, в результате планируется создать две зоны работы с платформой Больших Данных: зону анализа ad hoc (лат. Ad hoc — «по месту») для прямой работы исследователей с данными и зону приложений, которые будут интегрироваться в бизнес-системы. В результате платформой смогут пользоваться не только аналитики, но и маркетологи, служба безопасности, специалисты продаж.