Чтобы оперативно принимать решения на основе данных, необходимо вовлечь в работу с ними как можно больше сотрудников. Но как это сделать? Какие шаги следует предпринять, чтобы быстро и с разумными затратами проверять различные гипотезы, находить эффективные решения и за считанные часы вводить в эксплуатацию модели на базе машинного обучения? Лауреат премии CDO Award 2021 и Data Award 2022 Борис Рабинович, старший управляющий директор, директор Департамента управления данными Сбербанка, — о «Фабрике данных», проекте D-people, а также об улучшении клиентского опыта специалистов по данным.

 

Как зарождался подход Data Driven в Сбере?

После того как мы поняли, что с текущими темпами роста наших объемов данных масштабировать текущую архитектуру будет очень дорого, несколько лет назад было принято решение о запуске программы создания «Фабрики данных». В рамках этой программы была разработана новая архитектура, принята политика управления данными, внедрены функция и вертикаль CDO (Chief Data Officer), началась проработка централизованных политик управления корпоративными данными и качеством данных.

Поначалу программа воспринималась бизнесом как факультативная нагрузка, поскольку платформа развивалась в соответствии с приоритетами, поставленными в основном технологическим блоком. Чтобы изменить это отношение, мы поменяли парадигму — пошли от задач бизнеса: определили ключевые проекты бизнес-блоков, связанные с данными, разобрались, что требуется от платформы этим проектам, определили приоритет задач, привязанных к вехам этих проектов, распределили такие задачи по командам в департаменте и включили в эти команды представителей бизнес-блоков. Кроме того, мы ввели понятие «поколение платформы», каждая смена которого характеризуется качественным скачком, произошедшим в результате запуска ключевых бизнес-проектов.

 

В чем состоит ваша политика в работе с данными?

Это утвержденный внутренний нормативный документ, свод правил, вокруг которого выстраиваются организационная вертикаль CDO, набор процессов управления данными, роли, их функции и взаимодействие друг с другом (CDO банка и блоков, владельцы предметных областей, менеджеры данных, дата-стюарды, дата-инженеры, архитекторы по работе с данными и др.). В этом документе верхнего уровня структурированы и описаны ключевые вопросы работы с данными в банке и опорные точки: качество данных, описание данных, владение данными.

Сейчас готовится к выходу уже шестая версия политики, действие политики было расширено на группу — в целях выстраивания единой культуры и принципов работы с данными в Сбере.

Была внедрена программа ILM (Information Lifecycle Management) для управления жизненным циклом данных, чтобы обеспечить сквозное управление ими на всех этапах: от «рождения» до «смерти».

У нас не было подхода к «смерти» данных, но сейчас ясно, что объем такой, что некоторые данные хранить нецелесообразно — мы их не используем, но они занимают место и стоят денег. Объемы «Фабрики данных» Сбера колоссальны — свыше 150 Пбайт. Стоит их хранение очень прилично. Поэтому нам предстоит разобраться, нужно ли все это хранить и можно ли перевести их хранение из «горячего» в «холодное». Фрагментарно это уже делается, но наша задача — сделать это системно на уровне всего банка.

Особое внимание направлено на все, что связано с конфиденциальными и персональными данными. Мы должны очень четко понимать, где они «живут», как мы их используем и обезличиваем для разных целей применения и как удаляем. Кроме того, все операции с данными необходимо выполнять в строгом соответствии с правилами действующего законодательства в части персональных данных, банковской тайны и других чувствительных данных.

 

Каковы ваши основные приоритеты как CDO?

У меня три приоритета. Первый и основной — дать возможность бизнесу эффективно реализовывать на платформе все его задачи. Мы создали большую и эффективную платформу, которой пользуются десятки тысяч сотрудников. Но важно, чтобы эти пользователи могли просто подключаться к платформе, легко находить данные, получать их с максимальной актуальностью и качеством. Поэтому мы уделяем большое внимание оптимизации и выстраиванию процессов работы на платформе, изучаем клиентские пути и улучшаем клиентский опыт. Второй важнейший приоритет — высочайшие стандарты кибербезопасности платформы. Третий — ее надежность и эффективность. При этом я слежу за тем, чтобы банк получал максимальный эффект, тратя минимальные деньги.

 

Что сегодня собой представляет «Фабрика данных»?

Это платформа, состоящая из множества элементов и 69 сервисов, таких как компонент загрузки данных в реальном времени; аудит; проверка прав доступа; карта данных как средство навигации; механизм проверки качества данных; механизм распространения данных и т. п. Все эти процессы увязаны и работают так, чтобы в нужное время в нужном месте у наших клиентов были данные и решения. Часть платформы — промышленная область, где процессы выполняются без участия людей (по расписанию и для интеграции с внешними системами). Другая часть связана с процессом разработки, будь то инженерия, создание отчетов, аналитика или задачи Data Science.

Сейчас к платформе подключили более 700 внешних и внутренних источников данных плюс внешние справочники. Количество источников постоянно растет. Сегодня у «Фабрики данных» более 15 тысяч пользователей и 168 собственных комплексных решений, разработанных подразделениями банка, каждое из которых представляет собой масштабную систему, решающую множество задач.

 

Какие платформы применяются в работе с данными?

В 2022 году перед «Фабрикой данных» возникли новые вызовы: обеспечение технологической независимости и бесперебойной работы с данными в условиях ухода с российского рынка иностранных вендоров и прекращения поддержки программных продуктов. На текущий момент у нас создан собственный технологический стек с независимыми решениями.

Рис. 1. Технологический стек для работы с большими данными

Сбербанк несколько лет разрабатывал собственную платформу для работы с большими данными — Sber Data Platform (SDP). На сегодня мы внедрили полностью импортонезависимые решения, основанные на собственных сборках инструментов Open Source или на уникальных разработках наших специалистов. Именно поэтому мы смогли ответить на новые вызовы, обеспечить технологическую независимость и бесперебойную работу с данными в условиях ухода с российского рынка иностранных вендоров и прекращения поддержки программных продуктов.

Собственная платформа работы с данными универсальна и включает основные инструменты работы с данными: SDP Hadoop и SDP Greenplum — сервисы хранения и обработки больших данных различного типа; SDP Analytics — инструменты визуализации и анализа данных; SDP Data Quality — сервисы контроля качества данных; SDP DataFlow — инструменты интеграции и трансформации данных; DataLabAI — инструменты машинного обучения и искусственного интеллекта и пр.

«Фабрика данных» Сбера

В целях обеспечения бесперебойной работы с данными банк осуществил миграцию до 90% сервисов на технологический стек собственной разработки и отказался от сторонних решений. Этот переход также позволил почти вдвое снизить стоимость хранения данных в пересчете на один терабайт.

Большое внимание мы уделяем направлению и внедрению новых наработок для наших пользователей. Здесь многие разработанные нами решения уникальны, например, наша графовая платформа, которая уже несколько лет активно используется в банке, не имеет аналогов.

 

«Фабрика данных» Сбера

Борис Рабинович: «Наиболее сложно было убедить людей в том, что мы делаем действительно нужные, полезные и перспективные вещи. Добиться, чтобы сотрудники банка доверяли созданному нами решению, стали амбассадорами нового бренда и начали «переманивать» коллег выходить из привычных им систем, убеждать их в том, что новое решение эффективнее и за ним будущее».

 

Как сегодня обеспечивается безопасность решений Open Source: выявляются закладки, осуществляется мониторинг изменений и прочее?

Мы не используем подобные решения в их изначальном виде — все наши продукты, которые мы предлагаем нашим клиентам, являются результатом нашей серьезной переработки продуктов с открытым кодом. Действительно, мы работаем с огромным массивом данных, поэтому у нас особые требования к безопасности, которые мы реализуем совместно с нашими коллегами. Кроме того, существующие решения Open Source зачастую необходимо дорабатывать и под наши требования по нагрузке, по объемам данных, производительности и т. д.

Поэтому наши продукты очень сильно отличаются от той изначальной сборки, которая предлагается как решение Open Source. Наши команды накопили большой опыт и сейчас уже сами являются одними из самых активных пользователей, вносящих изменения в продукты Open Source и улучшающих их вместе со всем ИТ-сообществом. При таком уровне переработки решений и накопленной экспертизе в области кибербезопасности с нашими коллегами мы уверены в безопасности наших решений

 

«Рабочее место D-people» — сервис для исследователей данных, который позволил сократить время разработки и вывода модели в производство с более чем трех месяцев до одного дня. Какую цель вы ставили перед собой, начиная работу над этим сервисом?

Цель — существенно повысить эффективность работы сотрудников D-people (дата-инженеров, дата-сайентистов, дата-аналитиков) за счет сокращения времени создания и вывода моделей в промышленную эксплуатацию. Для этого и создавали единое рабочее место. Когда была запущена программа AI-трансформации, в банке появились сотни дата-сайентистов и еще больше — дата-инженеров, готовящих наборы данных, на которых работают модели. Если для такой команды созданы оптимальные условия работы (инструменты, доступные данные и пр.), то это в конечном итоге отражается на эффективности всей компании.

Рис. 2. Рабочее место D-People

Основные процессы для исследователей данных — это разработка моделей, анализ их работы, вывод в эксплуатацию и проверка результатов. Но фактически на это коллеги тратили лишь 10–15% времени, а остальное занимала рутина: получение инфраструктуры, прав доступа, собственно данных, разрешения на вывод модели в промышленную эксплуатацию. В любой крупной организации каждый элемент этой цепочки — длительный процесс, и в результате на создание прототипов и проверку гипотез тратились не недели, а месяцы.

 

Что стало главным эффектом этого сервиса?

Сокращение времени дата-сайентиста на построение модели. Сервис обеспечил единое окно к океану данных всему сообществу дата-инженеров и дата-сайентистов. Время доступа к данным сократилось с нескольких недель до часа, получение вычислительных мощностей — с нескольких месяцев до часа. Также инструмент позволил быстро выводить разработанное решение в промышленную эксплуатацию.

Одним из ключевых изменений стало новое представление о «Фабрике данных» в банке. Мы внедрили совместную ответственность за части платформы тех бизнес-блоков, которые наиболее заинтересованы в результате или создании того или иного компонента. Например, за компоненты загрузки и распространения данных совместно с блоком «Технологии» отвечают розничный и корпоративный блоки. Во главу угла были поставлены проекты, приоритетные для бизнес-блоков. Мы разбираемся до «винтиков» в том, что нужно сделать, чтобы этот проект «взлетел», и устанавливаем для команд сроки, чтобы обеспечить бизнесу нужную функциональность в нужное время. В итоге и у сотрудников, и у руководства сложилось другое представление о платформе.

Помимо благодарности контрагентов, мерилом успеха является число клиентов и количество решений, которые запускаются на платформе. Если бы клиенты не были удовлетворены, то к нам не приходили бы новые пользователи. А я вижу очень высокий спрос, и это для меня важный результат.

Ирина Шеян (rrisha@osp.ru) — обозреватель, «Открытые системы» (Москва).