В «Северстали» использовали передовые практики управления данными для области технологических данных. В рамках проекта решена задача сбора технологических данных с датчиков и обогащения их метаданными: технические места, единицы измерения, связи с проектами, владельцами данных. Наличие полной информации о них помогает сэкономить время на коммуникации и поиски в ходе дата-проектов. О роли достоверных и прозрачных технологических данных для компании рассказывает Евгений Курильщиков, владелец продукта «Управление данными» «Северстали» и номинант на премию Data Award.
- Почему управление технологическими данными было выделено в отдельное направление, которое требует дополнительных усилий?
Безусловно, технологические данные – это тоже данные. В классическом подходе мы оперируем метаданными, а сами данные рассматриваем только в контексте их качества. Нас интересует тип данных, в каких базах данных и таблицах они лежат, их происхождение и связь с терминами бизнес-глоссария. Здесь же объектом является физическая величина, которую мы получаем с датчика, и нам важны атрибуты этого сигнала, а не информация, в какой таблице мы его храним. Из непрерывного потока информации с датчиков мы извлекаем метаинформацию о сигналах, и сохраняем ее в каталоге, обогащая необходимыми атрибутами.
- В чем заключается особенность решаемой задачи?
Она заключается в огромном массиве данных. Нам нужно было не только организовать сбор метаданных в онлайн-режиме, но и провести большую работу с историческими данными, чтобы понять, что мы собирали раньше и что перестали, какие изменения произошли. То есть мы начали не с чистого листа, у нас уже был большой объем информации, в котором нужно было навести порядок.
- Почему это важно для «Северстали»?
Здесь нам поможет Льюис Кэролл: «Ну а здесь, знаешь ли, приходится бежать со всех ног, чтобы только остаться на том же месте. Если же хочешь попасть в другое место, тогда нужно бежать по меньшей мере вдвое быстрее!». Чтобы быть конкурентоспособными, нужно быстро принимать решения о том, как улучшить производительность, повысить качество, сократить незапланированные простои. Мы уже реализовали много проектов, используя технологические данные, и понимаем, что при реализации проекта уходит много времени на поиск тех самых 10-20 параметров работы оборудования, которые необходимы для реализации ML-модели. Имея хорошо описанные данные, мы сокращаем время разработки дата-продукта.
- С определением владельца других данных бывают проблемы, вплоть до назначения в приказном порядке. С технологическими данными все еще сложнее?
Да, я бы сказал, что здесь все еще сложнее. Ведь владельцем технологических данных является производственный персонал, так как операторы обеспечивают появление этих данных, знают все о конкретном датчике: где он установлен, как откалиброван, в каких единицах измерения снимает показания и т.д. Безусловно, инженеры являются специалистами высокого уровня, но их не обучали тем навыкам, которых мы сейчас от них требуем. А мы хотим, чтобы помимо сбора измерений они еще и описывали эти сигналы в нашей системе. Поэтому приходится дополнительно объяснять, зачем это нужно и каким образом нужно проводить это описание.
- Кто может быть владельцем технологических данных?
Как показывает практика, это технологический персонал: инженеры АСУТП, КИПиА, специалисты по ремонту и техническому обслуживанию – то есть сотрудники, которые занимаются обслуживанием оборудования, установкой и настройкой сбора данных в технологической сети.
- Как определяется политика сбора и хранения данных?
Изначально мы собирали все данные, с запасом на будущее – вдруг пригодятся. Но начав работы по описанию и каталогизации сигналов, которые собирали долгие годы, пришло понимание, что не все сигналы несут полезную нагрузку. Например, нет смысла хранить данные по оборудованию, которое уже списано или модернизировано. Мы определили для себя, что такое полезный сигнал, и на этапе считывания данных с контроллеров технологического оборудования начали их фильтровать.
- Что было сделано в рамках проекта?
В инструменте управления данными была реализована карточка объекта «тег» и «техническое место». Настроены процессы сбора метаданных и разработан регламент описания, определены обязательные и необязательные атрибуты, которые нам необходимы. По мере работы с огромным массивом информации мы начали выявлять отклонения от ожидаемого процесса. Скажем, в исторических данных могло быть пропущено один-два месяца, и сегодня уже никто не знает почему. Или, например, мы выявили случаи, когда на уровне оборудования сигнал изменял физическую сущность. Это могло произойти, если датчик меняли и на контроллере в порт подключали измерение с датчика напряжения вместо датчика тока. Подобные открытия подвели нас к проверке качества данных, которые мы собираем.
- Как боретесь за качество данных?
Для себя мы определили критерии качества, которые предъявляем к сигналам, и настроили ряд проверок. В настоящее время дата-стюарды отслеживают параметры качества, связанные сигналами, и в случае обнаружения аномалий предпринимают корректирующие действия. Наша задача – предоставить дата-инженерам качественное описание данных и быть уверенными, что описание соответствует фактически измеряемой величине, что сигналы привязаны к правильному узлу оборудования. Также на текущий момент мы отслеживаем изменения метаданных сигналов, которые используются в различных моделях машинного обучения или других инструментах. Ведь изменение сигнала, на котором строятся те или иные технологические процессы, может привести к некорректному поведению модели.
- Каковы результаты?
Нашей задачей была, в первую очередь, минимизация времени поиска необходимых сигналов, сократив время разработки моделей и увеличив производительность дата-команд, а также обеспечение доступа к этим данным большему кругу пользователей.
Нам удалось выстроить процесс сбора метаданных, решить вопрос с определением и назначением владельцев данных, создать команду дата-стюардов, которые помогают владельцам данных в описании и обогащении данных. Также, проанализировав накопленные данные, мы поняли, что есть ресурс для оптимизации хранилища, так как иногда собираются избыточные данные. Поэтому мы определили четкие критерии, определяющие, какие данные нужно собирать, а какие нет.
Также в процессе работы мы определили критерии качества к собираемым сигналам и приступили к разработке инструмента проверки качества промышленных данных, особенно тех, которые используются в моделях или технологических процессах.
Несколько проектных команд используют наш каталог как единственный источник данных об оборудовании и датчиках, которые на нем установлены. В настоящее время описано более 10% из более чем 500 тыс. активных сигналов.
- Какова роль проекта для компании?
Основная цель проекта для бизнеса – сформировать новую культуру работы с данными и сделать еще один шаг к принятию решений на основе данных. Мы пытаемся вовлечь в процессы управления данными как можно больше подразделений и сотрудников, сформировать привычку нести ответственность за данные, которые мы создаем и используем в ежедневной работе. Также данный проект даст целостную картину о параметрах работы всего оборудования и позволит реализовать проект цифрового двойника предприятия.
- Каковы дальнейшие направления развития?
Основная задача – распространить практику описания сигналов на все цеха и агрегаты. Это и даст возможность перейти к созданию цифровой копии комбината.
- Как проект отразится на дальнейших дата-проектах «Северстали»?
Я считаю, что по мере описания сигналов, дата-проектов станет больше, а их реализация будет занимать меньше времени. Дата-инженеры будут избавлены от необходимости проводить изыскательские работы по поиску сигналов, которые собираются с оборудования, и проверять, насколько этим сигналам можно доверять.