Данные — фундамент принятия взвешенных управленческих решений, выполнения качественной оптимизации бизнес-операций и необходимое условие для внедрения и эксплуатации инструментов ИИ. Однако все это будет работать на практике, только если в компания налажены процессы управления данными, в том числе определено, кто и какие действия может и должен совершать при работе с критичной для бизнеса информацией.

Классический подход к управлению данными предполагает создание специальной организационной структуры — офиса данных, разработку политик, регламентов и стандартов работы с информацией внутри компании и при ее взаимодействии с внешним миром. При этом для каждой из областей: управление знаниями и метаданными, управление интеграцией или аналитикой предполагается создание отдельных команд и выстраивание уникальных процессов, что отвлекает ресурсы компании от ее профильной деятельности, вынуждая расширять штат ИТ-подразделения.

Процессный подход

Основная особенность процессов управления данными — это отношение к данным как к бизнес-активу, причем отличному от реального объекта, который эти данные продуцирует. Это предполагает внедрение на всех уровнях организационной структуры компании методологии управления данными и описание этапов жизненного цикла информационных объектов, по аналогии с регулированием жизненного цикла материальных объектов или услуг, оказываемых предприятием. В этом случае бизнесу необходимо, чтобы для оптимального выполнения бизнес-операции было достаточно доступных данных. Кроме этого, важно обеспечить качество, интерпретируемость и возможность использования данных.

Иными словами, хорошо управляемые данные доступны потенциальным потребителям и имеют непосредственное отношение к их потребностям. Однако невозможно исчерпывающе определить эти потребности без отделения понятия данных от связанных объектов — данные могут использоваться многократно и в различных контекстах. Это приводит к необходимости описания каждого процесса по управлению жизненным циклом данных, для того чтобы учесть все потенциальные перемещения между потребителями. Зачастую попытка в явном виде организовать такой процесс сталкивается со сложностями из-за возможных множественных интерпретаций информационных объектов, их взаимного проникновения, влияния и трансформации — возможное завершение жизненного цикла одного информационного объекта может быть началом для следующего.

Таким образом, несмотря на то, что термин «управление данными» стал общепринятым, в действительности точнее говорить об управлении информацией, предусматривающем отслеживание не только самих сведений, но и смыслов, вкладываемых в них различными группами потребителей.

Описание контекстов данных может осуществляться как в формате «сверху вниз», предполагающем построение детальной концептуальной и логической модели предметной области, так и «снизу вверх». Преимущество второго сценария заключается в более явной связи между бизнес-процессами, системами и пользователями. Регистрация выполнения операций бизнес-процессов невозможна без создания или изменения информационных объектов, а при анализе таких взаимодействий можно выявить реальную модель таких объектов организации и нащупывать их логические границы.

Реализация процессного подхода

Выстраивание системы управления данными «снизу вверх» чаще всего начинают с нескольких групп процессов.

Процессы регистрации использования информационных объектов. Операции этого процесса запускаются при каждом факте обращения к объекту в одной из систем, а контекстом служит набор атрибутов опрашиваемого объекта. Для сбора такой информации используются подходы прослеживаемости наблюдаемости данных (data observability). Такие процессы можно рассматривать как транспонирование обычного бизнес-процесса.

Процессы определения правил обработки данных. Операциями данных процессов являются технические шаги в информационных системах или сервисах обработки данных. В первую очередь это касается технологических процессов, реализованных ИТ-сотрудниками организации, и изменениями в этих процессах в связи с разработками или внедрениями. Регистрация таких процессов — это отметки в постановках на реализацию, технические задания, руководства и эксплуатационные документы. Контекст зависит от фиксирования физической модели обрабатываемых объектов.

Коммуникационные процессы. В эту группу попадают все процессы, связанные с передачей информации между различными факторами, в том числе интеграционные процессы, подготовка и отправка отчетности, создание выходных документов и обработка первичных документов. Источником для анализа могут быть графическое представление потока данных, DFD-диаграмма (data flow diagrams) и другие аналогичные архитектурные артефакты.

Комбинация процессов этих групп позволит получить целостную картину жизненного цикла различных информационных объектов организации, комплексная оценка которых даст возможность контролировать очередной шаг, на котором находится конкретный объект, и формировать обратную связь при необходимости оптимизировать выполнение процесса. При этом определение структуры процессов можно провести с помощью анализа вводных, что избавит от необходимости погружения участников процессов в специфику задач управления данными. Пример такого отображения шагов существующего процесса разработки в шаги процесса из группы управления данными, структура которого только определяется, приведен на рис. 1.

Процессный подход к управлению данными
Рис. 1. Определение операций процесса управления данными

Обязанности владельца и офицера данных

Стандартная модель процессов управления данными включает в себя множество ролей, у каждой из которых есть собственная зона ответственности. Фактически при реализации процессного подхода «снизу вверх» управление данными как набор действий возможно только с определения и запуска деятельности двух групп пользователей: владелец данных и офицер данных.

Задача управления данными предполагает выстраивание консенсуса между всеми участниками процессов, однако такое единогласие не может быть достигнуто только путем применения формальных процедур — необходим человек с достаточными полномочиями для разрешения возможных конфликтов. Таким человеком может быть владелец данных, формирующий представление о направлениях развитии управления данными и определяющий задачи с точки зрения бизнес-приоритетов.

Цикл развития системы управления выглядит следующим образом.

  1. Определение «снизу вверх» общей картины использования данных и информационного дефицита — недостатка информации, необходимой для оптимального выполнения функций или операций.
  2. Формализация информационных объектов по пользователям и процессам.
  3. Определение владельцев данных и их погружение в проблемы процессного взаимодействия.
  4. Вовлечение владельцев данных в процессы и анализ типовых проблем.
  5. Уточнение бизнес-запросов.
  6. Развитие программы управления данными.

Владелец данных должен быть заинтересован в повышении эффективности выполнения бизнес-процесса, соответствующего определенным данным, и должен подключаться к задачам управления данными. Синхронизация бизнес-пользователей и ИТ-подразделений также одна из задач владельца данных.

Офицер данных (data steward)  — более сложная роль и фактически это участник процессов управления данными, глубоко погруженный в задачи и правила работы с данными, способный оказать необходимую помощь другим пользователям. Если владелец данных подключается в середине цикла выстраивания процессов управления данными, то участие офицеров данных требуется с самого начала — они берут на себя основную ответственность по идентификации и оценке качества информационных активов организации и должны сформулировать требования по их описанию, доступности и необходимым проверкам.

Поддержка офицером данных взаимодействия пользователей различных направлений упрощает координацию процессов управления данными и делает их более прозрачными — чем больше будет специалистов, принимающих роль офицера данных, тем чаще коммуникации будут идти в контексте сведений управления данными и тем проще оценивать качество процессов и точки их развития.

На начальных этапах развития методов управления данными в организации офицеры данных рекрутируются из сотрудников. При этом их переход начинается с минимальной нагрузки, при которой управление данными выступает не дополнительными обязанностями, а новым слоем коммуникации. Для анализа и формализации процессов управления данными к роли офицера данных необходимо подключать других специалистов.

  • Бизнес-пользователи — основные участники процесса, способные определить метаданные для бизнес-объектов, включая концептуальную и логическую модель, а также описать логическую связь данных. Эти специалисты говорят о данных на языке бизнеса и могут донести потребность изменений до высшего руководства.
  • Технические специалисты, включая разработчиков и системных аналитиков. Для управления данными важна экспертиза по обработке данных в информационных системах, хранилищах и их интеграции. Такие специалисты могут описать физическую связь данных, и чаще всего именно эти сотрудники становятся ответственными за реализацию этапов жизненного цикла данных.
  • Проектный офис, сотрудники которого представляют управление данными во внутренних проектах компании, обеспечивая взгляд на их результативность не только с точки зрения полученной функциональности, но и с точки зрения данных.
  • Специалисты, ответственные за эксплуатацию, которые выступают источником сведений о проблемах, связанных с качеством и доступностью данных, вытекающих из анализа инцидентов и запросов на доработку. Участие таких специалистов дает возможность проанализировать жизненный цикл данных в историческом разрезе и сформулировать описание реальных потребностей в данных.
Рис. 2. Взаимодействие офицеров данных

Несмотря на различный опыт этих специалистов и наличие уже устоявшихся взаимоотношений, использование общей терминологии управления данными позволяет им общаться на универсальном языке (рис. 2).

Роль искусственного интеллекта

Первичная проработка процессов требует анализа и систематизации большого количества разрозненной информации в виде регламентов, журналов исполнения (логов), проектных решений и т. д. Для начинающего офицера данных все это может оказаться слишком трудоемко, что часто и является блокирующим фактором при планировании внедрения процессов управления данными. Для разрешения этой проблемы можно использовать инструменты искусственного интеллекта. Во-первых, ИИ быстро справится с фиксированием сведений об информационных активах, этапах их жизненного цикла и автоматизированных операциях. Для ведения и систематизации таких данных применяются инструменты создания и ведения онтологий — формальных семантических моделей. Для поиска объекта, заполнения фасетных характеристик и сортировки используются таксономии, причем для одного типа объектов таксономий может быть несколько — в зависимости от контекста использования, задачи или пользователя.

Рис. 3. Формирование модели знаний предметной области

Отдельные объекты данных собираются в графовую структуру путем добавления между ними структурированных связей. Описание возможных классов объектов данных, их иерархий, связей между такими классами является терминологическим блоком семантического графа (T-Box) и определяет возможные графы, которые могут быть построены из данных для учета контекста и различных точек зрения. Переход от такого графа к графу знаний достигается благодаря добавлению онтологии — многомерной модели, описывающей объект в разных контекстах его использования (рис. 3). Таким образом, информация, добавляемая в онтологию, встраивается в общую картину и для нее определяются или сохраняются все известные связи, она проверяется на непротиворечивость с известными фактами и становится доступна для анализа всеми офицерами данных.

В-вторых, инструменты искусственного интеллекта могут хорошо решать задачи извлечения информации из неструктурированных источников: документов, логов и описаний. Для этого применяются большие языковые модели, инструменты анализа естественного текста: NLP- и NER-модели (Named Entity Recognition), инструменты класса process mining. Все эти технологии позволят ускорить и унифицировать сбор контента для его добавления в онтологическую модель, что позволит всем офицерам данных, независимо от их навыков, добавлять информацию к общему графу знаний.

Особняком стоит задача расширенных проверок качества данных (Augmented Data Quality), для решения которой используются сверточные сети, классифицирующие алгоритмы и онтологические модели.

Применение специализированных инструментов позволяет решать такие специфические задачи, как построение инвариантных версий объектов, приведение входящего объекта к эталону, классификация объектов для дедупликации с различной степенью достоверности и пр. Это открывает дополнительные возможности автоматической корректировки данных, а не только проведения проверок за счет репликации опыта офицеров данных по внесению корректировок.

***

Развитие практик управления данными может принести большую пользу организации, однако основная проблема — преодоление начальных этапов формирования и обучения команды и получение первичного опыта, помогающих оценить экономический эффект. Процессный подход — один из вариантов движения в этом направлении за счет формирования команды и ее развития. По мере появления коллектива и формирования культуры управления данными возможен переход к классическим методам и практикам.

Для увеличения вероятности успешного развития направления управления данными, при проработке карты процессов предполагается использовать референсные модели процессов, модели данных предметной области и наработанный опыт. Эффективным может быть и применение технологий ИИ для сокращения трудоемкости операций, выполняемых офицерами данных.

В дальнейшем можно переходить к определению подходов к интервьюированию и фиксированию записей о данных, созданию алгоритмов и инструментов формирования семантического слоя описания данных и инструментов анализа; извлечению метаданных из неструктурированных документов и отдельных фактов.

Леонид Шумский (LSHumskiy@ datatech.ru) — руководитель направления «Платформа данных», компания «Дататех» (Москва). Статья подготовлена на основе материалов выступления на форуме «Управление данными 2024».