Банк «Санкт-Петербург» запустил единую платформу данных класса критичности Business Critical на основе Arenadata Hadoop, заменив им унаследованные решения Oracle. В результате удалось радикально ускорить работу с данными, повысив бизнес-показатели. О реализации проекта рассказывает Ян Гузов, CDO банка «Санкт-Петербург» и номинант на премию Data Award.

- Что представляла собой инфраструктура для работы данными до сих пор?

Банк использовал корпоративное хранилище данных (КХД) на базе решений Oracle. Со временем платформа достигла предела своих функциональных возможностей и перестала отвечать растущим потребностям бизнеса. Кроме того, отсутствие внутренней экспертизы и зависимость от контрагента в части разработки дата-продуктов порождали неэффективность ландшафта данных. Пользователи сами «добывали» данные как могли, появлялись выгрузки из информационных систем, локальные хранилища, дублирование данных и т. д.

- Какие задачи были поставлены?

Требовалось внедрить новую корпоративную платформу данных для замены устаревшего хранилища. Ключевым требованием к нему было горизонтальное масштабирование платформы под дальнейшее развитие, гибкая архитектура и поддержка современных технологий работы с данными, а также отказоустойчивость и высокая доступность класса Business Critical. Также было важно снизить зависимость от иностранного проприетарного ПО.

Банк начал исследовать рынок для выбора замены устаревшему хранилищу. Было принято решение создать новую платформу данных на базе дистрибутива Arenadata Hadoop.

- Какие еще альтернативы рассматривались?

Можно выделить два этапа рассмотрения альтернатив. Первый – выбор технологии и стека решений. Здесь сравнивали платформы Hadoop и Greenplum. В то время – это был 2020 год – мы уже стратегически смотрели в сторону концепции Lakehouse, то есть объединения на одной платформе классического хранилища и озера данных. Готовых решений на рынке не было, поэтому выбор был в пользу гибкости и универсальности. Таким образом, пришли к стеку Hadoop. На втором этапе уже выбирали дистрибутив Hadoop. На тот момент еще отсутствовали внешние ограничения и санкции, а самое зрелое решение было от Cloudera. Однако в итоге выбрали российский продукт Arenadata. Критериями выбора стали наличие продуктовой экспертизы на российском рынке, своевременная техподдержка и возможность обучения специалистов банка.

- Какое время заняла реализация проекта?

В 2019 году был начат анализ текущего состояния и сбор требований бизнеса. В 2020 году выбрали вендора и установили Arenadata Hadoop. В 2020–2023 годах проходило обучение внутренней команды разработчиков и администраторов, а также миграция данных и функционала с КХД на новую платформу. Также, в 2022–2023 годах занимались оптимизацией и настройкой системы для обеспечения требуемой производительности и отказоустойчивости. В 2023 году перешли к массовой эксплуатации платформы.

- Получились довольно масштабные работы…

Да, проект по миграции функционала корпоративного хранилища данных занял несколько лет. Задачей было перенести весь имеющийся функционал на новую платформу, в том числе функционал высокого класса критичности. В проекте были задействованы офис CDO, ИТ и многие подразделения банка по направлениям корпоративный и розничный бизнес, финансовые рынки, казначейство, кредитные риски, финансы, а также подразделения, отвечающие за регуляторную отчетность.

- Как были разделены обязанности между офисом данных, ИТ и бизнесом?

Лидирующую роль взял на себя офис CDO. Мы разрабатывали и согласовывали требования к платформе, ставили задачи, контролировали ход работ, параллельно обучаясь работе с новыми технологиями и обучая других. Кроме того, сотрудники офиса активно участвовали в проектировании модели данных детального слоя платформы. Администраторы ИТ помогали с развертыванием и настройкой серверов и ПО. Бизнес выступал в роли заказчиков первых дата-продуктов. Важно было быстро показать ценность новой платформы.

- Какие проблемы возникали?

Основной сложностью было перенести весь существующий функционал КХД на новую платформу без нарушения работы бизнес-процессов. Это был колоссальный объем работ – сотни отчетов, запросов, витрин. Проект требовал тесного взаимодействия между офисом CDO и различными подразделениями банка. Кроме того, инновационный подход к архитектуре (Lakehouse) потребовал разработки новых методов обеспечения производительности и отказоустойчивости системы. Переход на новую платформу также включал обучение наших специалистов новым технологиям и инструментам.

- Какие результаты достигнуты?

В результате мы создали и ввели в промышленную эксплуатацию единую стабильную отказоустойчивую платформу данных и одновременно запустили серию проектов по централизации разрозненных хранилищ на ее базе, что позволило упростить ИТ-ландшафт наряду с повышением его эффективности. Также это помогло создать масштабируемое решение для активно модернизируемой ИТ-архитектуры банка. И, что важно, выросла скорость и разнообразие данных, поставляемых для бизнеса и других подразделений. Для примера, количество источников данных увеличилось в 10 раз, сроки добавления новых атрибутов и разработки отчетов сократились в 8–10 раз, загрузка новых таблиц ускорилась в пять раз. Скорость обновления данных выросла с одного раза в день до одного раза в несколько минут для отдельных таблиц.

Еще один эффект – расходы на хранение данных снизились примерно на 10–15% благодаря переносу архивных данных из информационных систем на платформу. Также мы увеличили выручку путем развития маркетинговых сервисов за счет повышения многообразия и скорости поставки данных.

- Можете поделиться финансовыми оценками этих эффектов?

Все эффекты сложно оценить. Внедрение платформы затронуло многие процессы, поменялся ландшафт данных, стали быстрее приниматься решения, появилось много новых заказчиков, и не только из бизнеса. Но в совокупности – это сотни миллионов рублей.

- В чем уникальность проекта?

Уникальность проекта заключается в создании единой платформы данных на базе Arenadata Hadoop в концепции Lakehouse, объединяющей классическое хранилище и озеро данных, что представляет собой нестандартное решение по сравнению с традиционными архитектурными подходами на рынке. Это позволило существенно снизить расходы на владение системой и разработку дополнительных интеграций. В итоге банк «Санкт-Петербург» с помощью одной платформы закрывает все потребности в хранении и обработке данных – от регуляторной отчетности до задач машинного обучения.

Архитектурно платформа имеет несколько слоев. Если применять классическую терминологию хранилищ, есть слой ODS (Operational Data Store), куда загружаются в потоковом режиме копии таблиц систем-источников, а также хранятся любые внешние или внутренние данные банка. При этом, средствами платформы обеспечивается версионирование критичных данных и фиксацию всех исторических изменений. Такой подход обеспечивает корректное хранение ретроспективных данных. Наличие копий таблиц-источников также позволяет бесшовно описывать данные информационных систем в дата-каталоге, интегрированном с платформой.

Второй слой – DDS (Detail Data Store). Здесь собирается основная модель данных, которую используют пользователи в работе. Третий слой – DM (Data Mart). На нем формируются витрины данных для отчетности и поддержки бизнес-процессов банка.

Платформа поддерживает любые режимы обновления данных, в том числе близкую к реальному времени. Кроме того, она полностью соответствует внутренним требованиям к информационным системам класса Business Critical. Бесперебойность обеспечивается в том числе наличием геораспределенного «горячего» резервного кластера. На российском рынке данных подобное решение на базе Arenadata Hadoop является уникальным и не имеет аналогов вне зависимости от отрасли.

- В чем роль проекта для бизнеса банка?

Проект существенно повысил эффективность работы банка. Благодаря новой платформе данных мы смогли быстрее и качественнее обрабатывать данные, что ускорило принятие управленческих решений. В рамках проекта мы «с нуля» создали команду разработки и наладили конвейер поставки дата-продуктов. Это привело к сокращению сроков разработки отчетов, витрин, поставки данных и, как следствие, ускорило принятие бизнес-решений и развитие бизнес-сервисов.

- В каком направлении планируется развивать платформу данных?

В первую очередь планируем дальнейшую миграцию в сторону архитектуры Lakehouse. Сейчас у нас единая платформа с выделенными слоями под озеро данных, детальный слой, витрины данных. Следующая цель – раздельное масштабирование ресурсов под хранение и вычисления. Мы считали экономику и видим здесь хорошие эффекты. Технически это означает трансформацию платформы с переходом на новую систему хранения и управления ресурсами. Параллельно занимаемся дальнейшей оптимизацией ландшафта данных, выводом локальных хранилищ с переносом данных и функционала на новую платформу.

Отдельно отмечу, что появление платформы данных дало хороший импульс к развитию задач машинного обучения за счет повышения разнообразия, а также ускорения поставки данных и подготовки дата-сетов. Планируем развивать это направление совместно с другими подразделениями банка.

Помимо технологических и инфраструктурных задач, мы уделяем большое внимание улучшению пользовательского опыта и демократизации данных. Планируем внедрять новые сервисы на платформе для повышения скорости доступа к данным, развивать дата-каталог, проводить обучение и дата-дни.

Мы уверены, что в совокупности все эти активности позволят еще больше повысить эффективность работы с данными, что и является основной задачей CDO.