СберФакторинг разработал универсальное решение SBF Data Management, которое позволило упростить работу с корпоративными данными: оптимизировать и автоматизировать процессы, ускорить принятие решений, снизить риски, обеспечить качество данных, создать новые возможности для монетизации и развития бизнеса. Система включена в реестр отечественного ПО Минцифры и подготовлена к развертыванию на внешней инфраструктуре. О создании решения рассказывает Михаил Пекер, директор по управлению данными СберФакторинг и номинант на премию Data Award.
- Что привело к развитию проекта по управлению данными в СберФакторинг? В чем заключались новые вызовы?
Реализованный нами ранее функционал – каталог данных, бизнес-глоссарий, логическая модель данных, реестр отчетов, сервис поиска чувствительных данных – оказался очень полезен и востребован сотрудниками разных подразделений, а руководство компании было довольно достигнутыми результатами и полученным экономическим эффектом. Так что в нашем случае «аппетит пришел во время еды». И это замечательно.
В 2024 году у нашей команды появились новые вызовы. Наиболее интересные среди них – необходимость улучшения клиентских путей по работе с данными для повышения эффективности бизнес-процессов, а также обеспечение возможности масштабирования и тиражирования системы по управлению данными SBF Data Management.
- Какой был выбран подход для ответа на эти вызовы?
Перед началом нового этапа развития нашего решения по управлению данными мы изучили опыт других компаний, рассмотрели доступные на рынке решения и инструменты. В качестве вариантов рассматривали как open source, так и вендорские продукты. Проанализировав все плюсы и минусы, а также оценив риски и доступный бюджет, мы остановились на варианте развития системы собственными ресурсами компании.
- Какие задачи стояли перед проектом?
Для развития SBF Data Management нам требовалось проанализировать клиентские пути по работе пользователей с данными, найти точки для оптимизации, чтобы сделать эти пути более простыми и удобными. Улучшения касались качества данных, работы с отчетами, описания данных и поиска чувствительных данных в базах. К тому же было очень важно упростить возможность масштабирования и тиражирования системы и, конечно же, учитывая текущие тренды, внедрить современные ИИ-технологии – генеративные модели (Gen AI) для описания данных.
- Какие требования предъявлялись к будущему решению?
Требований было достаточно много, но одно из ключевых – это соответствие критериям, предъявляемым к отечественному ПО. Также было необходимо обеспечить возможность развертывания SBF Data Management на внешней инфраструктуре, сделать удобнее клиентские пути по работе с данными. Отдельно хочется отметить требование по применению современных средств искусственного интеллекта.
- На каких технологиях решили развивать продукт?
Основа нашей системы написана на Python. Это набор сервисов, которые обеспечивают преобразование и загрузку данных, построение витрин. Также есть вспомогательные сервисы мониторинга «здоровья» системы и отправки уведомлений, а еще с помощью Python у нас созданы механизмы взаимодействия с другими автоматизированными системами и базами данных.
Главные модули SBF Data Management реализованы на микросервисной архитектуре, в концепцию которой отлично вписался брокер сообщений RabbitMQ. Для оркестрации, визуализации и поиска необходимой информации мы адаптировали некоторые open source решения – Airflow, Superset. Кроме того, мы добавили еще один компонент – DocHub. Используя его и язык JSONata, нам удалось добиться той наглядности и интерактивности логической модели данных, которую мы с коллегами хотели видеть.
В IV квартале 2024 года мы начали переход на пользовательский интерфейс собственной разработки на React.
- Каких ресурсов потребовало развитие продукта?
Учитывая амбициозные вызовы, нам потребовалось расширить команду. В реализацию были вовлечены представители различных подразделений. Конечно, основные ресурсы были выделены со стороны команды ИТ, офиса CDO, но и представители бизнес-подразделений, а также методологи активно принимали участие на разных этапах. Это позволило добиться наибольшей эффективности при развитии продукта. Масштаб развития SBF Data Management оценивается в более чем 16,5 тысяч человеко-часов.
- Каких результатов удалось достичь? Чем можно похвастаться?
В 2024 году мы продолжили активное развитие нашего продукта. Нам удалось оптимизировать процессы и создать классные инструменты контроля качества данных. Теперь клиентский путь стал еще удобнее и не имеет разрывов от момента заведения требования к качеству данных до разработки проверок, постановки их на мониторинг и оперативного реагирования на отклонения качества данных. В результате общий уровень качества данных держится на уровне выше 90% и даже доходит до 98%.
Перевод ключевых модулей на микросервисную архитектуру и создание документации по описанию их работы в несколько раз сократили трудозатраты на поддержку и развитие системы.
Сервис описания данных с применением Gen AI помог нам буквально за один день описать десятки тысяч объектов баз данных. Теперь мы не переживаем, что разработчик может забыть добавить описание колонки или таблицы перед выводом в промышленную среду.
Отдельного внимания стоит связка логической модели данных с процессной и физической моделями. Благодаря автоматизации этой связки в моменте можно увидеть и оценить масштаб и влияние любого изменения, понять ответственных за его реализацию, а также расставить приоритеты.
Все эти мероприятия и инструменты обеспечили экономический эффект более 35 млн руб. в прошлом году. А прогнозный эффект на три года уже составляет около 140 млн руб.
Но это еще не все. В конце прошлого года SBF Data Management была включена в реестр отечественного ПО Минцифры, а в связи с присвоением системе признака наличия ИИ нам удалось снизить налоговую нагрузку. Очень важно, что в процессе подготовки к регистрации в реестре мы смогли существенно упростить развертывание нашей системы на внешней инфраструктуре, сделав его автоматическим, и теперь оно происходит за несколько минут «по кнопке».
- Что представляет собой решение, какие компоненты появились?
SBF Data Management является комплексным решением, которое позволяет автоматизировать ряд процессов по управлению данными согласно DAMA-DMBoK. В начале 2024 года система уже включала в себя такие модули как реестр данных, реестр отчетов, бизнес-глоссарий, логическая модель данных, сервис поиска чувствительных данных. А в дополнение к ним в нашем решении появились еще несколько важных компонентов.
Во-первых, это модуль контроля качества данных, который позволяет заводить и анализировать требования к качеству данных, настраивать проверки и контролировать их успешность, оперативно реагировать на отклонения качества данных посредством отправки уведомлений владельцам данных, чтобы отклонения не перерастали в инциденты. А на дашбордах можно увидеть основные показатели качества данных, которые важны для владельцев данных и руководства.
Второй новый компонент – сервис описания данных. Этот сервис генерирует описание для физических объектов (таблицы, колонки) в базах данных там, где описание отсутствует. Сам сервис для пользователей находится «под капотом». Запускается он по расписанию в ночное время, чтобы не создавать дополнительной нагрузки на базу данных. Он находит объекты в базах без описания, анализирует данные в этих объектах и создает для них описание.
Еще один компонент – модуль статистики. С его помощью мы видим пользовательскую активность в нашей системе. Можем понять, какой функционал представители какого подразделения используют больше для решения рабочих задач. Таким образом у нас появилась наглядная картина, которую проще проанализировать и определить направления развития системы.
Важно отметить, что основные компоненты реализованы на микросервисной архитектуре, что существенно облегчает развитие, масштабирование и поддержку системы.
- Как развитие SBF Data Management отразилось на процессах работы с данными?
Развитие нашего решения не только сделало удобнее работу по ряду процессов – управление архитектурой, безопасностью, качеством данных, метаданными, НСИ, – но и обеспечило необходимую доступность и централизацию информации в рамках развития функции по управлению данными, а также обеспечило удобную работу пользователей.
- Как вы боретесь за качество данных? Как измеряете его?
Качество данных – это одно из важнейших направлений, которому уделяется большое внимание в data-driven организациях, и СберФакторинг – не исключение. Теперь, когда мы разработали свой модуль контроля качества данных, развитие этого направления вышло на новый уровень.
Сейчас все основные объекты качества данных централизованы в нашей системе управления данными. Здесь заводятся требования (ТКД), создаются проверки (ПКД), осуществляется мониторинг и контроль отклонений качества данных. К этому набору сервисов мы недавно добавили еще один – сервис отправки уведомлений об отклонениях. Теперь продуктовые команды и владельцы данных могут оперативно принять меры для восстановления необходимого уровня качества данных.
В настоящее время мы уделяем внимание нескольким показателям: это охват и глубина ТКД и ПКД, количество инцидентов качества данных, а также общий уровень качества данных.
- Каковы планы по развитию платформы управления данными?
Все мы прекрасно знаем, что нет предела совершенству, и философия непрерывного улучшения Кайдзен нам очень близка. Поэтому мы не останавливаемся на достигнутом и планируем развивать нашу систему, ведь она является единым окном, через которое сотрудники компании получают необходимую информацию о данных, владельцах, терминах, определениях и многом другом. Мы планируем сделать ее еще более удобной для пользователей и расширить функционал. Из ближайших шагов, которые мы планируем: расширение возможностей пользовательского интерфейса, разработку и внедрение инструментов управления мастер-данными, создание «умных» проверок качества данных с применением искусственного интеллекта, а также создание дополнительных инструментов для снижения риска возникновения инцидентов качества данных.
Помимо внутренних пользователей, наш опыт и инструменты оказались интересны и коллегам из других компаний. Все чаще звучит вопрос о возможности развернуть в их внутреннем контуре SBF Data Management. И теперь это абсолютно реально.