ВТБ успешно внедрил комплексное решение, объединяющее централизованное хранилище данных, озеро данных и оперативное хранилище — три ключевых компонента, обрабатывающих более 10 Пбайт информации. Эта платформа не просто обеспечила надежное хранение и быструю аналитику — она стала фундаментом для цифровой трансформации банка. В ее основе — не только масштабируемая инфраструктура, но и целый набор дополнительных инструментов: бизнес-глоссарий, каталог метаданных, Data Lineage и self-service BI-решения.

Как удалось интегрировать столько систем в единую экосистему? Какие технологии и архитектурные решения обеспечили ее стабильность и производительность? И, главное, как это повлияло на операционную эффективность и принятие решений в банке? О реализации проекта рассказывает Владимир Громов, заместитель руководителя департамента технологического развития общебанковских систем ВТБ и номинант на премию Data Award.

- Расскажите, что стало причиной реализации проекта по созданию импортонезависимой платформы данных в ВТБ? Какие факторы подтолкнули банк к этому масштабному шагу?

Так как задач предстояло решить много, мы запустили не проект, а масштабную программу «Модернизация платформы данных», включившую в себя более двух десятков проектов, направленных на внедрение целевых компонент новой технологичной платформы данных.

Причин запуска было несколько, и все они были значимыми. Во-первых, ВТБ исполняет указы Президента РФ о технологической независимости. Это не просто формальность, а стратегическая необходимость для обеспечения стабильности и безопасности банковской системы страны. Мы поставили перед собой амбициозную задачу — создать платформу, которая полностью независима от зарубежных технологий, и, как показали результаты, мы с этой задачей справились.

Во-вторых, у нас было наследие от приобретенных банков. После их интеграции мы получили несколько разрозненных хранилищ данных, которые использовали разные технологии и модели данных. Это создавало сложности в управлении и анализе информации. Перед нами стоял выбор: продолжать поддерживать эти разрозненные системы или объединить их в единую платформу. Мы выбрали второй путь, и это оказалось правильным решением.

Третья причина — это требования бизнеса. Банк развивается, и нам нужно было ускорить процессы обработки данных для принятия решений. Бизнес-подразделения требовали более быстрого доступа к качественным данным, чтобы оперативно реагировать на изменения рынка и потребности клиентов. Мы стремились сократить time-to-market и повысить качество данных, что в итоге позволило нам стать более гибкими и конкурентоспособными.

- Что представляет собой созданная платформа? Какие ключевые компоненты в нее входят?

Платформа данных — это комплексное решение, которое состоит из трех ключевых компонент: аналитического централизованного хранилища данных, озера данных и оперативного хранилища данных. Общий объем данных, которые мы обрабатываем, превышает 10 Пбайт. Это огромный объем информации, который требует мощной инфраструктуры и продуманной архитектуры.

Централизованное хранилище данных — основа платформы. Это важнейшая система нашего аналитического ландшафта, в которой в единую модель собрана информация обо всех направлениях бизнеса организации — корпоративный и инвестиционный бизнес, средний и малый и, конечно, розничный. Хранилище данных обладает высокой производительностью и надежностью, что позволяет реализовывать функционал, требующий выполнения достаточно сложных преобразований данных при поддержании высокого уровня доступности.

Озеро данных предназначено для обработки больших объемов структурированной и полуструктурированной информации. Эта система позволяет анализировать данные единого хранилища совместно с внесистемными и «внешними» данными. В озере обеспечивается большая глубина хранения, что является базовым требованием для многих бизнес-задач, а также здесь реализован функционал пользовательских «песочниц». В дополнение, с помощью озера данных нами решается задача архивирования выводимых из эксплуатации систем, что позволяет получить доступ к данным этих систем по первому требованию.

Оперативное хранилище данных — это точка входа для данных в платформу. Здесь обеспечивается первичная подготовка данных для дальнейшей загрузки в озеро данных, хранилище и систему «Оперативные витрины данных», где мы решаем задачи оперативной аналитики и отчетности.

Помимо этих ключевых систем, мы разработали и внедрили множество платформенных компонент, компонент управления данными и прикладных систем для конечных бизнес-пользователей. К примеру, в рамках нашей программы внедрен бизнес-глоссарий, который помогает нам поддерживать единое понимание данных в платформе, что особенно важно для крупных организаций.

Каталог метаданных позволяет отслеживать происхождение данных и строить Data Lineage — карты потоков данных. Этот инструмент позволяет быстро разобраться, как данные перемещаются внутри платформы данных, кем и как они используются.

Также мы внедрили модуль аналитических справочников, который помогает бизнес-пользователям использовать единые унифицированные справочники в своих бизнес-витринах, и модуль исполнения регламента платформы данных, который предназначен не только для отслеживания работоспособности компонентов платформы, но и позволяет администратору осуществлять управление потоками загрузки данных.

Для визуализации данных мы используем сразу несколько импортозамещенных BI-инструментов: один отвечает за регламентную отчетность и функциональность OLAP-кубов, второй используется для самостоятельной разработки отчетов (self-service BI) и аналитики.

- На каких технологиях реализована платформа? Какие решения вы использовали?

Жалко, конечно, что формат интервью не предполагает демонстрации слайдов. Конечно, так было бы гораздо интереснее говорить про технологии.

Для построения ключевых элементов платформы данных мы использовали технологии от российского вендора Arenadata. BI решения у нас также вендорские — «Форсайт» и PIX BI. Для загрузки данных и оркестрации используем Apache Airflow и вендорский продукт Form.IT. Если говорить о собственных решениях, то в части оркестрации загрузок важно отметить собственную разработку — фреймворк, который позволяет в том числе упростить процесс создание кода за счет шаблонизации типовых операций.

В остальном, у нас очень много собственной разработки с использованием инструментов open source. Dremio — для управления доступом, OpenMetadata — для Data Lineage, PostgreSQL — для взаимодействия с потребителями с OLTP нагрузкой и оперативных аналитических витрин, Django, React, Nginx — для веб-приложений.

- Какими силами реализован проект? Сколько человек было задействовано?

У нас были очень амбициозные сроки реализации, и для того, чтобы их выдержать, нам потребовалось собрать действительно большую команду. В сжатые сроки удалось собрать более 2 тыс. высококвалифицированных специалистов, которые были организованы в более чем 250 производственных команд.

Особенность наших команд состоит в том, что в них включаются как сотрудники ИТ-подразделений, так и руководители и специалисты со стороны бизнеса, что позволяет обеспечивать необходимый баланс бизнес и ИТ экспертизы, а также обеспечивает синхронность усилий для достижения целей.

Общий объем инвестиций в создание ключевых систем составил более 1,2 млн человеко-часов. Это колоссальный объем работы, который потребовал слаженной работы всех участников.

- Какие сложности возникали в ходе проекта и как вы их решали?

Сложностей было много, и каждая требовала нестандартного подхода. Например, в самом начале программы в 2020 году мы столкнулись с тем, что внедряемые вендорские технологии «из коробки» не обладали частью критичных компонентов, которые были доступны ранее в передовых зарубежных продуктах. Оказалось, что мы стали одними из первых крупных заказчиков, которому такая функциональность потребовалась, и для решения этой задачи нам пришлось взять на себя роль в каком-то смысле владельца продукта, в задачи которого вошло совместное с вендором развитие их решения через формирование дорожной карты необходимых доработок и контроль ее реализации. Кстати, один из вендоров в конце прошлого года даже отметил наше подобное взаимодействие наградой «За вклад в развитие продукта». Здесь же отмечу, что определенные решения пришлось разрабатывать самостоятельно.

Еще одной сложностью было параллельное с нашей программой изменение ландшафта систем-источников, которое проводилось в рамках реализации стратегии цифровизации. Источники не просто переезжали из одной СУБД на другую, они распадались на кучу взаимосвязанных микросервисов, которые реализуют свою уникальную функциональность. Это не только потребовало значительного усиления проектного контроля и синхронизации нашей программы с внешними программами, но и привело к необходимости внедрения нового подхода к загрузке данных из множества этих микросервисов.

Для решения нашей командой был разработан новый компонент архитектуры на базе Apache Kafka, который обеспечивал сервис стриминга новых данных в оперативное хранилище в формате единой модели данных, которую разрабатываем и поддерживаем совместно с командой Управления архитектуры данных, а также с командами источников. Основная задача была в том, чтобы выработать единый атрибутивный состав данных по одним и тем же сущностям, приходящим из разных систем, а также максимально обеспечить неизменность этого состава. К примеру, возьмем сущность «Кредитная заявка». Эта сущность создается в более чем пяти различных источниках. Примененный подход позволил нам получать данные в едином формате и тем самым экономить на стоимости разработки и снизить ее сроки.

Также мы столкнулись с необходимостью ускорения импортозамещения ряда компонент платформы уже по ходу реализации нашей программы. Например, уже в самом конце внедрения целевого озера данных, поступила информация о невозможности дальнейшего использования проприетарного ПО репликации данных между кластерами Hadoop, полноценной альтернативы которому на тот момент просто не существовало на рынке. Нами было принято решение срочно писать код самостоятельно. Потребовалось оперативно собирать команду лучших экспертов из разных подразделений, которая обладала бы необходимой экспертизой и желанием быстро включиться в работу и создать этот продукт. В конечном счете мы задачу успешно решили, уложившись в полгода работы.

- Какое значение имеет созданная платформа для банка? Какие результаты уже достигнуты?

Платформа данных обеспечивает поддержку ключевых бизнес-процессов банка. Управленческая и обязательная отчетность — это лишь малая их часть. На платформе данных работает более 300 моделей искусственного интеллекта, рассчитываются витрины для скоринга клиентов розничного и малого корпоративного бизнеса, автоматизировано взаимодействие с Бюро Кредитных Историй, подготавливаются и отдаются в каналы различные клиентские справки и выписки, отрабатываются запросы госорганов и регуляторов, обеспечиваются оперативными данными антифрод и AML-проверки, работают CRM кампании и прочее. Возвращаясь к предыдущему вопросу, это был еще один аспект, создававший сложности в управлении. В рамках проекта мы взаимодействовали практически со всеми бизнес-подразделениями банка и перестраивали процессы, которые имеют самую низкую толерантность к различного рода сбоям.

На текущий момент основные работы уже завершены. Можно с уверенностью сказать, что платформа данных внедрена и приносит пользу организации. Пользователи работают в новых системах, а мы внимательно следим за тем, чтобы система отвечала ожиданиям пользователей. Совместно с командами прикладного сопровождения и инфраструктурой каждый день отслеживаем, как отработал регламент и нет ли каких-то системных проблем, требующих вмешательства. Мы ежедневно разбираем возникающие дефекты качества данных и сфокусированы на скорейшем устранении дефектов с наибольшим влиянием на бизнес, следим за доступным пространством и пользовательской нагрузкой.

Кстати, здесь нам очень помогает еще одна собственная разработка — система МИР ХД (Мониторинг исполнения регламента Хранилища данных). Этот инструмент позволяет следить за всеми ключевыми метриками «здоровья» системы практически в онлайн-режиме и своевременно реагировать на отклонения.

- Каковы планы по дальнейшему развитию платформы?

ВТБ — это банк, который уделяет очень много внимания теме данных. Планов у нас очень много. Я остановлюсь лишь на некоторых из них.

Мы уверены, что платформа данных будет расти. Когда я говорю об этом, я имею в виду и рост данных как таковой, и рост количества новых дата-сервисов, которые обеспечит платформа. Помимо органического роста, мы ожидаем три значительных «скачка» в росте данных, которые будут связаны с присоединением трех банков группы — РНКБ, Почта-Банка и БМ-Банка. Присоединение РНКБ случится уже летом 2025 года. Также мы понимаем, что продуктовая стратегия банка поставит перед нами новые вызовы в части создания новых дата-сервисов и инструментов работы с данными.

Что это значит для нас? Во-первых, нам нужно обеспечить запас производительности и доступного пространства под эти задачи. Мы планируем во II–III кварталах 2025 года завершить переход хранилища данных на новую мультикластерную конфигурацию. Если в двух словах, то мы планируем разделить слои хранения данных на разные кластеры Arenadata DB и тем самым разнести расчетную нагрузку, что позволит нам пробить определенный потолок в производительности, в который мы потихоньку начинаем упираться.

Во-вторых, перед нами стоит задача научиться «охлаждать» данные в более дешевой технологии. Для реализации задачи мы используем S3. Основная сложность тут не столько технологическая, сколько организационная. Нужно договориться со всеми потребителями о достаточном уровне глубины данных в «горячем» слое и научить использовать данные разных слоев совместно.

Здесь рождается третья ключевая задача — внедрить инструмент бесшовного доступа к данным, находящимся в разных технологических элементах платформы. Мы активно изучаем и пилотируем технологию Trino и хотим не позднее III квартала превратить наши изыскания в новую проектную инициативу.

Решение этих задач позволит существенно экономить банку на дорогостоящем хранении и повысить возможности наших бизнес-пользователей в работе с данными.

Если говорить о функциональном развитии, то мы продолжим заниматься импортозамещением систем нашего ландшафта.

В части развития нового функционала, мы ожидаем много задач от нашего розничного бизнеса. Я постоянно общаюсь с руководителями бизнес-функций и вижу огромный запрос к нам, который, уверен, трансформируется в совместные проекты.

- Какой вклад проект вносит в отрасль?

Я уже рассказал о том, что мы поспособствовали развитию ряда вендорских продуктов, которые сейчас являются флагманами рынка данных каждый в своей нише.

Помимо этого, мы охотно делимся экспертизой и нашим опытом с рынком. Все время, что шла программа, мы выступали на крупных конференциях, проводили референс-визиты для других организаций, где рассказывали о том, как мы продвигаемся, какие у нас успехи, где мы сделали что-то не так и какие особенности нужно учесть. Нескромно посмею утверждать, что все эти усилия позволили добавить уверенности в том, что отечественные технологии способны решать самые сложные и разнообразные задачи даже в таких больших компаниях.

Еще один вклад, который был сделан не без участия нашей программы, — это накопленная экспертиза нашего технологического партнера, Холдинга Т1, совместно с которым мы проходили этот путь. Благодаря этому, рынок приобрел опытного партнера, который помогает другим заказчикам достигать своих целей.

Мы гордимся тем, что смогли создать одну из крупнейших платформ данных на импортонезависимых технологиях. Это был сложный, но очень важный проект, который обеспечил технологический суверенитет банка и принес значительный эффект как компании, так и рынку в целом. Мы открыты к сотрудничеству и приглашаем профессионалов присоединиться к нашей команде. У нас еще много интересных задач, и мы готовы делиться своим опытом и решениями с нашими партнерами.