Любые данные, требующиеся для принятия обоснованных управленческих решений, проходят стадии поиска, сбора, аккумуляции и классификации. Но даже использование для этих задач современных ИТ-инструментов не гарантирует достоверности и полезности обработанных данных. Цена ошибки из-за некорректных данных часто оказывается весьма высокой и может стать критичной для бизнеса, поэтому стремительно набирают популярность методики управления данными, а сам процесс управления в компаниях начинает напрямую влиять на экономику внутренних процессов, включая и себестоимость, и объем производства.
Скорость и эффективность проектов по управлению данными зависят от комплексного использования методологического, программного и организационного обеспечения. Одним из важнейших результатов таких проектов становятся цифровые паспорта объектов (цифровое представление объекта в виде набора атрибутов, документов и связанных объектов), содержащие описание всего жизненного цикла объекта. Потребителям будут доступны эти данные как «единая версия правды». Инструментально это обеспечивается программными продуктами класса «интеграционная шина данных»,«интеграционная платформа»1, а организационно — путем выполнения проектов по организации управления данными.
Типовыми этапами таких проектов являются: выявление бизнес-цели (что ожидается достичь); формирование объектов воздействия (данные о каких объектах будут контролироваться); описание ИТ-среды (в каких источниках будут доступны данные); формализация данных (отнесение данных к онтологической модели); нормализация данных (связывание объектов в разных источниках и приведение их к единому виду).
Этап 1. Выявление бизнес-цели
При инициации любого проекта планируется внесение изменений в текущие бизнес-процессы, а значит, и в деятельность сотрудников, которая регламентируется должностными инструкциями.
Для исполнения своих служебных обязанностей с помощью ИТ-инструментов необходим своевременный доступ сотрудника к данным. Для этого требуется обеспечить ИТ-инструменты необходимыми данными.
Понимание команды отраслевых консультантов целевого бизнес-процесса позволит наиболее точно реализовать схему информационных потоков. Своевременное исполнение обязанностей сотрудником в ИТ-решении с актуальными данными обеспечит бесперебойную работу бизнес-процессов. Это, в свою очередь, позволит снизить себестоимость.
На данном этапе формируются правила зависимости функционирования бизнес-процессов от потоков и качества данных в ИТ-инструментах.
Этап 2. Формирование объектов воздействия
Бизнес-процесс — это всегда действие, которое выполняется над каким-либо объектом. Это действие меняет состояние объекта или его характеристику.
На данном этапе происходит выявление списка объектов, участвующих в бизнес-процессах. Таким образом создается описание бизнеса — онтологическая модель (рис. 1). Особое внимание на этом этапе уделяется определению объекта и его атрибутов; установлению иерархией объектов и связей между ними; определению уникальных характеристик объекта.
Рис. 1. Пример онтологической модели |
На протяжении всего проекта отраслевые эксперты вместе с сотрудниками бизнеса уточняют онтологическую модель. Для эффективной работы здесь необходимы инструменты, обеспечивающие визуализацию модели, анализ ее связей и возможность быстрой корректировки.
Навигация по графическому представлению модели может оказаться наиболее важной в начале процесса, при проектировании онтологической модели. Самой же трудоемкой задачей станет описание уникальности каждого экземпляра объекта.
Этап 3. Описание ИТ-среды
Обычно у компаний уже имеется огромный пласт информации, хранящийся в источниках данных в ИТ-среде: базы данных, файлы и бумажные документы, ожидающие оцифровки. Однако вся эта масса данных часто разрозненна, имеет разные форматы и нацелена на обеспечение отдельных частей бизнес-процессов.
Корректное описание мест хранения данных позволяет обеспечить доступ ко всей информации, включая как исторические, так и текущие данные об объектах. Наличие специальных коннекторов в интеграционной платформе обеспечивает поддержку различных технологий, используемых для хранения данных: СУБД PostgreSQL, Oracle, MS SQL; Excel и др. (рис. 2). Разные коннекторы к одной и той же технологии дают разные скорости и разное качество работы с данными.
Рис. 2. Архитектура интеграционной шины данных |
Следует обратить внимание, что данные могут быть распределены — их источники хранятся на разных серверах. В этом случае интеграционная платформа должна обеспечить безопасное хранение метаданных о доступе к этим серверам и источникам.
Опыт показывает, что большинство компаний имеет оцифрованное описание своей ИТ-среды. Это ускоряет и упрощает данный этап, через регламентную синхронизацию описания с мета-данными в интеграционной платформе.
Этап 4. Формализация данных
Это самый сложный этап — здесь выполняется анализ каждого источника, на хранение каких объектов онтологии он обеспечивает. Это позволяет классифицировать данные во всех источниках и привязать их к объектам онтологии.
Каждый объект онтологии может храниться в нескольких источниках данных, а также в каждом источнике может храниться лишь часть информации об объекте, поэтому на следующем шаге формируются правила аккумуляции частей объекта онтологии из разных источников и приведения их к единому формату. Это гарантирует, что все запросы к интеграционной платформе по поиску данных будут получать одинаковые ответы, подготовленные в соответствии с установленными правилами.
В интеграционной платформе наиболее востребованы инструменты решения следующих задач:
- распределение частей объектов онтологии по различным источникам хранения данных;
- определение степени оцифровки объекта онтологии (выявление атрибутов объекта, которые не были привязаны ни к одному источнику данных);
- приоритизация выбора данных для атрибута объекта из нескольких источников, с которыми он связан;
- разработка правил для сложных выборок данных для атрибута из источников, иногда требующая описания алгоритма программным кодом;
- оценка уникальности объектов в источнике данных и их соответствия уникальности объектов онтологии.
Улучшить качество классификации и предотвратить ошибки помогают функции интеграционной шины по просмотру данных в источнике, как в самих структурах хранения для поиска их принадлежности, так и в терминах онтологической модели после сопоставления для проверки его качества.
Этап 5. Нормализация данных
На данном, самом трудоемком, этапе происходит формирование справочников, перекодировка значений справочников и объектов между источниками.
Задача перекодировки возникает из-за несовпадения идентификации данных в различных источниках и отсутствия синхронизации справочных данных. Это затрудняет автоматическое приведение единой записи экземпляра объектов к единому виду. Например, одна улица может иметь в разных источниках разные коды и названия — интеграционная платформа должна обеспечить доступ к информации об улице с учетом кодов и названий каждого источника. Для этого проводится перекодировка справочных данных: когда записям эталонных справочников задаются соответствия записей каждого из источников. Формирование эталонного наполнения справочников и поиск соответствий в справочниках других источников — самая тяжелая часть процесса управления данными, и здесь требуется привлечение специалистов с отраслевым опытом. Чтобы сократить трудоемкость и минимизировать влияние человеческого фактора, в интеграционную шину включены следующие инструменты:
- эталонное наполнение на основе уже существующих справочников, описанных где-либо;
- мастер автоматизированного сопоставления данных по определенным правилам, например, с учетом схожести названий улиц;
- обучение нейросетей, способных сопоставлять новые справочные данные с эталонными значениями на основе предыдущих аналогичных сопоставлений.
Каталог, реестр мастер-данных, цифровой паспорт объекта
Результатом выполнения пяти этапов настройки интеграционной шины данных являются каталог данных как единое описание информационной среды и единый реестр мастер-данных. Благодаря каталогу пользователи могут взаимодействовать с цифровыми паспортами экземпляров объектов (агрегированная из всех источников информация по каждому экземпляру объекта, описывающая весь его жизненный цикл) и выполнять поиск данных во всех доступных источниках. Использование специализированных сервисов визуализации отраслевой информации при подключении к интеграционной платформе позволяет отраслевым экспертам получить инструмент поиска и анализа и ретроспективной визуализации состояния объекта через работу с цифровым паспортом (рис. 3).
Рис. 3. Пример цифровых паспортов по нефтедобыче |
Все данные предоставляются через интеграционную платформу в унифицированном формате, поэтому пользователи работают с одной и той же информацией, независимо от источников данных и способов их хранения. Платформа позволяет и бизнес-пользователям, и ИТ-специалистам находить нужную информацию об объекте, используя понятные термины и опираясь на онтологическую модель.
Интеграционная платформа преобразует запросы в правила извлечения данных из различных источников (см. Этап 4), выбирает необходимую информацию, стандартизирует ее и предоставляет список объектов, соответствующих заданным критериям. Этот список может быть расширен или ограничен новыми критериями поиска, но в итоге каждый экземпляр объекта из списка может быть открыт как цифровой паспорт.
Чаще всего поиском пользуются сотрудники, которым необходимы данные, отсутствующие в их текущих ИТ-инструментах. И здесь важно управление доступом на основе ролей, которое поможет ограничить доступ к конфиденциальной информации.
Наиболее популярен контекстный поиск и поиск на карте с сохранением результатов для дальнейшего использования.
Встраивание виртуального помощника (чат-бота) в интеграционную шину данных для поиска информации позволяет снизить затраты на техническую поддержку. Взаимодействие с таким помощником также осуществляется на основе онтологической модели.
***
Реализация проекта управления данными с использованием интеграционной платформы позволяет решать задачи по синхронизации данных между источниками (ETL); обеспечению контроля качества данных (DQ), оценке ценности актива и перспектив бизнеса.
Комплексное решение типовых задач управления данными с предложенным подходом поможет решить не только отдельные задачи проектов по информационному обеспечению, но и создать единую информационную среду между всеми пользователями, приложениями и данными.
Оперирование единой информацией на всех уровнях снижает вероятность ошибки и помогает оптимизировать время выполнения бизнес-процессов в соответствии с нормативными требованиями. Внедрение поисковых механизмов и сервисов автоматической классификации данных значительно сокращает временные затраты на различных этапах этих бизнес-процессов.
Однако необходимо учитывать, что на данном уровне зрелости организации процесса управления данными может возникнуть проблема достоверности данных. Проверки качества данных и контроль за информационными потоками обеспечивают согласованность данных для всех пользователей, но не гарантируют их полную достоверность. Именно применение инструментов и методик анализа данных в первоисточниках, а также построение бизнес-моделей компании смогут обеспечить следующий уровень зрелости процесса управления данными.
Литература
1. Леонид Черняк. SOA и сервисы данных // Открытые системы.СУБД. — 2008. — № 2. — С. 30–35. URL: https://www.osp.ru/os/ 2008/02/4923630 (дата обращения: 21.04.2024).
2. Леонид Черняк. Общая шина предприятия // Открытые системы.СУБД. — 2003. — № 4. — С. 22–26. URL: https://www.osp.ru/os/2003/04/182897 (дата обращения: 21.03.2024).
3. Наталья Дубова. Периферия IaaS // Открытые системы.СУБД. — 2008. — № 2. — С. 36–39. URL: https://www.osp.ru/os/2008/02/4924431 (дата обращения: 21.05.2024).
Иван Мугалев (imugalev@atollis.com) — генеральный директор, компания «АТОЛЛис» (Москва). Статья подготовлена на основе материалов выступления на конференции «Качество данных 2024».
1 В качестве такого инструмента используется интеграционная шина данных (Enterprise Data Bus, EDB) [1], работающая вместе с корпоративной сервисной шиной (Enterprise Service Bus, ESB) [2] и техно логией интеграции данных предприятия (Enterprise Information Integration, EII) [3]. — Прим. ред.