Традиционный подход к работе с данными предусматривает их постоянный трансфер из хранилища в бизнес-приложения и обратно. В этом трансфере, конвейере данных, участвуют взаимосвязанные процессы, которыми нужно управлять. А для этого требуется штат квалифицированных специалистов. Этот подход оправдан в компаниях, где развивается только одно направление бизнеса. Но, как только появляется еще одно, такая централизованная архитектура данных начинает давать сбои. Преодолеть их призван подход к управлению данными, который называется Data Mesh.
Автор: Вадим Горожанкин, старший системный аналитик компании IT_ONE |
Сегодня компании создают отдельные ИТ-команды, которые выполняют различные задачи от структурных подразделений. Такой задачей, к примеру, может быть анализ данных и создание модели машинного обучения, на основе которой потом искусственный интеллект будет эти данные обрабатывать. Но, при необходимости внесения корректировок возобновленная задача может попасть к другим специалистам – ее передадут в ту группу, где в моменте есть свободные ресурсы. В результате бизнес сталкивается с проблемами: непонятно, к кому обращаться в случае возникновения вопросов, кто несет ответственность за работоспособность сервиса. Все это связано с централизованной моделью владения и управления данными.
Та же самая проблема возникает, когда данные, которыми располагает и с которыми работает компания, хранятся в едином озере данных, где информация об их происхождении теряется. Массив данных превращается в клубок, который очень трудно, если вообще возможно, распутать.
Решить эту проблему должен подход Data Mesh. Он нацелен на децентрализацию процесса управления данными – вместо одного департамента компании, который аккумулирует все знания на основе всех данных, формируются домены в соответствии с бизнес-направлениями. Такая структура позволяет объединить всех сотрудников конкретного бизнес-направления и специалистов департамента, отвечающего за данные. В результате дата-аналитики и дата-инженеры становятся полноценными участниками рабочей группы, занятой решением отдельно взятой задачи.
Как понять, что Data Mesh стал актуальным для бизнеса
Перед тем, как переходить к Data Mesh, нужно ответить на несколько вопросов:
- Насколько многочисленна компания и насколько развита в ней культура работы с данными для того, чтобы внедрять Data Mesh? Для небольших компаний еще не время внедрять данный подход.
- Насколько увеличивается разрыв между двумя подразделениями: подразделениями бизнеса и разработки, отвечающими за операционные данные и подразделением по аналитике данных? Данные передаются из области операционных данных в аналитическую с использованием ETL, при этом в операционных данных часто отсутствует четкое определение контрактов для обмена данными. В результате даже незначительное изменение в структуре передаваемых данных может вызвать ошибки в работе конвейера.
- Насколько велико расхождение между инвестициями в данные и прибылью от них? Встречаются ситуации, когда компании в качестве метрики успеха использования данных считают инвестиции в развитие культуры управления данными, однако корректным будет учитывать прибыль, полученную от инвестиций в данные. И если данный разрыв увеличивается в годовой отчетности, то это повод задуматься о переходе на новый подход.
Ответы на эти вопросы позволят компании определить тот момент, когда переход на Data Mesh стал необходимостью.
Кроме этого, переход на Data Mesh актуален для компаний, которые намерены продолжать масштабирование, поскольку такой подход позволяет избежать глобальных изменений и провести децентрализацию при помощи простого создания функциональных доменов. Полезен Data Mesh и в тех случаях, когда компания не получает ожидаемой отдачи от инвестиций в управление данными, при том, что бизнес уже достаточно развит. Тогда необходимо развивать корпоративную культуру работы с данными, чему Data Mesh активно способствует.
Как подготовиться к переходу на Data Mesh
Чтобы внедрить подход Data Mesh, необходимо подготовиться. Первый этап — организационный. Нужно создать внутри компании доменную систему управления, которая подразумевает менеджмент в соответствии с бизнес-направлениями, а не функциональными задачами.
Второй этап — наращивание возможностей компании до того уровня, который необходим для запуска Data Mesh. Жестких технологических требований к бизнесу этот подход не предъявляет, но требует, чтобы предприятие обладало необходимыми человеческими ресурсами, располагающими достаточно высоким уровнем квалификации.
О развитии необходимых компетенций сотрудников (или приглашении их со стороны) стоит позаботиться перед тем, как начинать миграцию на новый подход. Не существует, к слову, и четких временных критериев такого перехода.
Бизнес-ориентированным организациям при подготовке к переходу на Data Mesh необходимо понять, какие группы пользователей будут работать с теми или иными данными. И в соответствии с этой «картой» определяются временные рамки проекта и осуществляется его финансирование.
Эта задача особенно важна. Если временные рамки проекта и финансирование определены до ее решения, то проект по переходу компании на Data Mesh неизбежно столкнется с серьезными проблемами, поскольку конкретная реализация подхода непосредственно зависит от того, как определены потребности бизнеса в данных.
Эволюционные изменения
Все перечисленное справедливо в тех случаях, когда организация осуществляет «резкий» переход к Data Mesh. Но возможен и другой, более простой путь — эволюционная реорганизация подходов к управлению данными.
В этом случае все работы, которые связаны с переходом на Data Mesh, делятся на три этапа. Первый — проведение исследований, изучение существующих потребностей в данных и подходов к работе с ними, разработка методики для отдельных функциональных блоков. Основные потребители на данном этапе — новаторы и ранние последователи подхода в компании (опытные пользователи). На втором этапе происходит расширение и масштабирование первых результатов, происходит развитие поддерживаемых платформой сервисов для сокращения издержек и расширения аудитории, в том числе будущих целевых пользователей платформы. Третий этап необходим для того, чтобы запустить повседневное стабильное использованием Data Mesh в масштабах всей организации. Корректным считается переход на данный этап, когда основные потребности целевых пользователей удовлетворены и нет необходимости в масштабных изменениях. Количество изменений на данном этапе сокращается до минимума, основные усилия направляются на поддержание стабильной работы и исправление дефектов.
Эти три этапа — своего рода «этапы зрелости», на каждом из которых в организации постепенно развиваются принципы Data Mesh.
Возможные сложности
В процессе перехода на Data Mesh могут возникнуть сложности. Первая из них связана, как это часто случается, с «человеческим фактором». Вероятно, что многие сотрудники организации не сразу примут новый подход, который означает для них выход из зоны комфорта. Чтобы избежать недовольства, стоит на первом этапе перехода тщательно выверять результаты, которые ожидают увидеть конечные пользователи, — дата-аналитики, ML-разработчики и т. д. Они не должны воспринимать изменения, как снежный ком, который неожиданно упал на их головы.
Для многих компаний трудности могут возникнуть в связи с государственными и социальными политиками, которым они должны соответствовать. Поэтому при планировании перехода нормативные требования должны строго учитываться. Но стоит готовиться к тому, что на некоторых этапах перехода возникнет необходимость корректировки проекта из-за юридических и регуляторных требований.
Переход на Data Mesh может привести к тому, что изменения в подходе к работе с данными могут оказаться слишком радикальными, и избавиться от зависимостей, которые сформировались в предыдущие годы, сразу не получится. Исключать их придется постепенно, и происходить это будет по мере дальнейшего развития Data Mesh в организации.
Возможна ситуация, когда бизнесу станет очевидна неактуальность одного или нескольких дата-продуктов, которые до перехода на Data Mesh использовались в компании. В этом случае нужно быть готовыми к тому, чтобы от них придется избавиться вовсе или заменить другими. Это, к тому же, «оживит» дата-платформу компании и добавит ей гибкости.
Но есть и другие продукты — супервостребованные. Более того, от них серьезно зависят и другие дата-продукты компании. Они напоминают некий пузырь, из которого необходимые данные стремятся получить другие сервисы. Парадокс в том, что Data Mesh как раз и нацелен на то, чтобы лишить те или иные продукты такой централизованной роли «монополиста». В этом случае нужно отслеживать работу других дата-продуктов для того, чтобы исправить возможные неполадки.
Как понять, насколько успешным оказался переход
Существует набор метрик, которые позволяют оценить результативность перехода к Data Mesh.
Первое направление отслеживания результатов — люди. Data Mesh должен изменить мышление специалистов, сделать его универсальным. Например, до перехода в компании использовались сугубо команды разработки, а новые доменные команды предполагают объединенные команды разработки с сотрудниками департамента анализа данных. После перехода все они должны сформировать единую команду.
Отслеживаются и изменения в структуре компании в целом. Ее процессы перестают контролироваться централизованно, приходят в большее соответствие с дата-продуктами. Впрочем, эти изменения могут фиксироваться опционально, особенно если до старта проекта компания уже перешла на доменную структуру управления. Но, если ее не существовало, такой контроль необходим.
Data Mesh нацелен и на развитие инфраструктуры, децентрализованного владения данными и моделями их использования. Отсутствие в компании централизованного озера данных, которое объединяет и хранение, и управление здесь будет основным признаком успешности перехода.
Существует целый ряд признаков, наличие которых говорит о том, что компания в той или иной степени перешла использование Data Mesh. Это — принцип доменного владения: показатели роста числа независимых доменов, которые генерируют аналитические данные, и пользователей, которые этими данными пользуются.
Еще одна метрика — соотношение доменов с кроссфункциональными командами, которые занимаются разработкой, но не включают в свой состав дата-разработчиков. При переходе к Data Mesh их соотношение должно выравниваться, а идеальным показателем будет соответствие одного домена одной кроссфункциональной команде, в которую входят ML-разработчики, data-аналитики и другие специалисты.
Наконец, существует и такая метрика, как рост объемов P2P-обмена данными. Это — количество межкомандных каналов обмена данными или их потребления.
Как видим, процесс перехода на Data Mesh не прост и потребует от компании значительных, в первую очередь организационных усилий. Они в любом случае окажутся ненапрасными, если бизнес имеет прямую зависимость от данных, а компания стремится к масштабированию.