Россельхозбанк трансформирует хранилище данных, создавая новую инфраструктуру для работы с данными в соответствии с концепцией Lakehouse. Параллельно проводится импортозамещение используемых решений. Проект играет значительную роль в обеспечении операционной непрерывности и конкурентоспособности банка. О его реализации рассказывает Александр Сабуров, директор департамента больших данных РСХБ и номинант на премию Data Award.
- Что было до проекта, что представляла собой инфраструктура для работы с данными?
В 2020 году в банке была запущена программа построения системы управления данными. На момент запуска программы функционировало одно хранилище – Центральное хранилище данных (ЦХД), построенное на базе Oracle. На тот момент существовал ряд проблем: внедрение новой автоматизированной банковской системы, процесс централизации, требовавший постоянных корректировок, и проприетарная модель данных. Кроме того, инфраструктура не выдерживала растущую нагрузку, а команда проекта насчитывала всего 15 человек.
В рамках программы мы начали реализацию нового хранилища данных. Мы быстро развернули озеро данных, построили слой оперативных данных, развернули инструменты управления данными и платформу для управления моделями искусственного интеллекта.
По итогу, на момент старта проекта в 2023 году у нас было озеро данных, реализованное на Cloudera с ETL-инструментом Informatica. Для него было разработано множество витрин данных, предназначенных для маркетинговых целей, витрины данных для контакт-центров, аналитический сервис для оценки залогов, витрина управления качеством клиентского сервиса. У озера данных было большое количество пользователей – более 300 человек, и оно активно использовалось Лабораторией искусственного интеллекта, департаментом, взаимодействующим с ЦБ, и другими подразделениями.
- Чем не устраивала ситуация?
Во-первых, появилась директива правительства о необходимости импортозамещения всего технологического стека – естественно, включая озеро данных.
Во-вторых, был вопрос: «А зачем нам и хранилище, и озеро данных?», несмотря на то, что во многих организациях существует по несколько хранилищ и озер данных. Всегда была мысль – объединить озеро и хранилище в единую платформу управления данными, понимая, что управление такой платформой будет более сложным, а сервис должен быть более качественным.
В-третьих, у коллег возникла потребность в онлайн-инструменте для формирования релевантных и быстрых маркетинговых предложений для клиентов.
- Какие были поставлены цели?
В первую очередь, это импортозамещение без потерь и расширение возможностей для работы с данными. Требовалось обеспечить переход с дистрибутива Cloudera на программное обеспечение российского вендора без потери критически важных функций для банка. Было важно получить новые возможности для преобразования озера данных в полноценное аналитическое хранилище (Lakehouse), при этом обеспечить, чтобы данные были максимально быстрыми, демократизированными, масштабируемыми.
Вторая важная задача – улучшение SLA и сокращение времени обработки запросов бизнеса. Повышение уровня доступности сервисов за счет сокращения времени обработки данных – от их возникновения до появления в оперативном хранилище. Обеспечение обновления данных в режиме реального времени, не влияя при этом на доступность данных и без прерывания текущих операций.
Реализация проекта для бизнес-аналитики на базе решений Picodata, с целью обеспечения бизнес-заказчикам возможности получать необходимую аналитику в режиме реального времени.
Наконец, в целом новая платформа должна стать базой для решения новых аналитических задач, в том числе развития ИИ-проектов. Мы закладываем фундамент для дальнейшего развития проектов на базе ИИ.
- Почему в качестве целевой была выбрана архитектура Lakehouse? В чем ее суть?
Целевая архитектура была выбрана по простой и очевидной причине — это, конечно же, сокращение совокупной стоимости владения.
Функции анализа данных достаточно разнообразны, как и архитектуры аналитических решений, но поддержка нескольких аналитических систем в одной организации – достаточно дорогостоящий процесс. Поэтому мы смотрим в сторону поэтапного объединения функций озера данных и корпоративного хранилиза данных, выделяя определенные слои для унификации и получения большего выигрыша от единой архитектуры.
Основным выигрышем от современной реализации архитектуры Lakehouse мы видим в разделении слоя хранения и слоя вычислений, то есть эти два элемента работают независимо. Например, мы можем хранить много данных, но использовать минимальные вычислительные ресурсы, или, наоборот, при сложных расчетах можно подключить больше вычислительных мощностей, не увеличивая объем хранилища. Это дает снижение стоимости и упрощение масштабирования. В итоге, глобально мы имеем адаптивную систему для разных задач.
- История с архитектурой Lakehouse сейчас довольно популярна, но в чем уникальность именно вашего проекта?
Разница и «соль» нашего проекта была и продолжает существовать в двух аспектах.
Во-первых, это использование «транзакционных» форматов при формировании операционного слоя данных. Сегодня транзакционными форматами никого не удивить: это Iceberg, Hudi, Delta Lake, но на момент старта проекта их фактически не существовало – возможно, они были у пионеров отрасли в режиме тестирования. Единственный формат, который поддерживал в полной мере набор требований ACID (atomicity, consistency, isolation, durability), – это Hive ACID. Это по сути прародитель современных стандартов, который и по сей день активно используется. Его использование позволило внести элементы транзакционности, атомарности и консистентности при реализации интеграций в озере данных, а также существенно снизить количество перезаписей в наиболее крупных таблицах. Он также стал отличной базой для перехода на более современные табличные форматы.
Второй интересной чертой было совместное использование Informatica Data Engineering Integration (DEI) c Arenadata Hadoop. DEI – весьма продвинутый продукт и мировой лидер в области интеграционных решений. Его использование позволило существенно ускорить разработку интеграционных процессов систем-источников и озера данных, а вот интеграция самой DEI и отечественного дистрибутива Arenadata Hadoop стало сложной организационно-технической задачей. Хотя стоит отметить, что одна из версий Arenadata Hadoop, наряду с Cloudera и DataBricks, являлась одной из трех платформ, которую компания Informatica рекомендует к совместному использованию. Но для новых версий Arenadata Hadoop в силу понятных причин такое согласование на поддержку получить становится все сложнее.
- Почему проект важен для вас?
Проект имеет стратегическое значение для банка, поскольку обеспечивает цифровой суверенитет и безопасность. Переход на отечественную платформу снижает зависимость от иностранного ПО. Но не менее важно и то, что он позволяет нам сохранить критически важные функции без прерывания бизнес-процессов и получить новые возможности для трансформации инфраструктуры работы с данными. Поэтому проект играет значительную роль в обеспечении операционной непрерывности и конкурентоспособности банка, поддерживая цели роста и трансформации.
- На каких платформах реализуется решение?
Данные хранятся и обрабатываются в новом озере данных, построенном на платформе Arenadata Hadoop (ADH). Также используется Picodata — система хранения и обработки информации для задач реального времени в составе единой платформы управления данными банка.
- Что представляет собой создаваемая платформа?
Развертываемая платформа содержит 60 узлов и имеет общий объем хранения данных, близкий к 1 Пбайт. Платформа представляет собой два кластера решения ADH, размещенных в двух отдельных дата-центрах, при этом используется множество различных компонент решения: Hive, Impala, HDFS, Spark, YARN и т.д.
Picodata размещена в кластере в дата-центре и получает данные из систем-источников с помощью инструмента Change Data Capture.
- Какими силами реализован проект?
Проект реализован силами совместной команды банка и дочерней организации «РСХБ-Интех», а также при участии вендора – группы Arenadata. Экспертов вендора привлекали для решения глубоких технических задач.
Наша команда состояла примерно из 40 человек, в том числе у нас был очень сильный архитектор, да и в целом все участники команды проявили высокий профессионализм и, без преувеличения, настоящий героизм в своей работе. Могу вспомнить случай, когда руководитель проекта ночью лично перевозил часть серверов из одного ЦОДа в другой, потому что это нужно было сделать прямо сейчас, и никак иначе.
- Каких результатов уже удалось достичь?
Менее чем за полгода нами было создано новое озеро данных, позволившее как решить задачу импортозамещения, так и наполнить функционал аналитической платформы необходимыми современными компонентами.
Данные из нового озера уже используют в работе Центр развития финансовых технологий, Департамент залогового обеспечения, Департамент финансов и планирования, Департаменты розничного и корпоративного бизнеса, Департамент рисков и Лаборатория искусственного интеллекта.
Могу выделить несколько направлений монетизации. Во-первых, это наша ИИ-платформа. С озером данных интегрирована ModelOps-платформа банка и система RAISA (RSHB AI Systems and Applications), обеспечивающие оптимизацию бизнес-процессов и предоставляющие дополнительные инструменты для работы с различными хранилищами и источниками. Инструментами ИИ уже пользуются более 300 сотрудников из разных подразделений.
Во-вторых, это оптимизация бизнес-задач. Интеграция с озером данных улучшила аналитику клиентской базы и ускорила маркетинговые кампании благодаря быстрому доступу к данным, а интеграция с аналитической CRM-системы повысила продажи и удовлетворенность клиентов. Департаменту рисков озеро помогает лучше управлять кредитным портфелем и снижать риски. Центр развития финансовых технологий использует озеро для управления экосистемой «Своё». Также озеро широко используется для задач повышения качества данных.
- Наверняка банк умеет считать деньги. Пытались ли оценить финансовый эффект от озера данных?
Да, конечно. Я бы сделал фокус на финансовом эффекте в целом от использования внедренной технологии в разрезе некоторых активностей по развитию бизнеса банка: аналитический сервис для оценки залогов – 368 млн руб., цифровой профиль клиентов – 5 млрд руб., модели искусственного интеллекта – 1,8 млрд руб.
Таким образом, совокупный эффект на данный момент составляет более 7 млрд руб. И это лишь небольшая часть от того, что уже сделано и тем более микроскопическая часть от того, что возможно сделать.
- Что в ходе проекта получилось особенно удачно?
Можно сказать, что уникальность проекта заключается в быстром и бесшовном переходе с иностранной платформы данных Cloudera на отечественное решение Arenadata без приобретения дополнительного оборудования и без нарушения текущих бизнес-операций. Команда преодолела сложные технические вызовы, такие как адаптация ACID-таблиц в новой среде, где ранее такой функционал не использовался, интеграция решений Informatica с Arenadata и реализация методики поэтапной миграции для поддержания уровня производительности. Кроме того, проект закладывает основу для перехода на архитектуру Lakehouse, объединяя функции озера данных и хранилища данных в единой системе.
- В каком направлении будет развиваться проект?
В первую очередь, будет дальнейшее развитие и масштабирование проекта, включая переход на целевую архитектуру Lakehouse к 2025 году. Планируем повышение уровня доступности сервисов (SLA) и сокращение времени поставки данных в озеро данных до двух раз. Ожидаем значительного расширения аналитических возможностей и увеличения количества пользователей озера данных с 300 до более 500 пользователей.
В конечном итоге, платформа должна стать надежным фундаментом для развития новых проектов на базе искусственного интеллекта.