Многие компании пересматривают приоритеты своих проектов по работе с данными. Например, они считают, что в настоящий момент есть более важные задачи, чем управление качеством данных. Однако это ошибка, и именно вопрос качества данных становится актуальным как никогда. Как показали выступления на конференции «Качество данных — 2023», организованной издательством «Открытые системы», качественные данные вполне могут стать залогом успеха бизнеса.
«Сейчас организации концентрируются на управлении данными для достижения двух основных целей: монетизации данных и повышения гибкости действий компании в ответ на изменения рынка», — подчеркнула Полина Минеева, старший менеджер практики Applied Intelligence компании Axenix. За прошлый год многое изменилось: предприятия сконцентрировались на оперативных задачах, но активно пересматривают бизнес-стратегии, а значит, должны продумывать стратегию использования данных.
Полина Минеева: «Наступил data-минимализм, о котором начали говорить несколько лет назад: компаниям не нужно собирать и накапливать лишние данные. Отслеживание реального использования данных позволит выделить те из них, на которые не стоит тратить свои ресурсы» |
В нынешних условиях ключевыми для компаний становятся три направления. Первое из них — эффективность работы сотрудников: требуется сохранять экспертизу. Необходимо создать бизнес-глоссарий, каталог данных, базу знаний. Культура работы с данными приобретает новое значение. Приходится распределять между менеджерами сферы ответственности за наличие данных и их качество. Второе направление — контроль самих данных. Наступил data-минимализм, о котором начали говорить несколько лет назад: компаниям не нужно собирать и накапливать лишние данные. Отслеживание их реального использования позволит выделить те из них, на которые не стоит тратить ресурсы. Наконец, третье направление — технологии, в том числе импортозамещение. Выбирая продукты для замены решений, работающих с данными, нужно ориентироваться на средне- и долгосрочную перспективу и исключать выстраивание архитектуры по принципу лоскутного одеяла.
«Хорошо, когда теория работает на практике, однако реальность часто вносит свои коррективы: всегда есть искушение отложить экспертизу качества данных ‘на потом’», — констатировал Алексей Никитин, генеральный директор Visiology. Качеством данных необходимо заниматься, причем системно. Это вызов для компании, и такую задачу надо решать: невозможно предоставить адекватную аналитику без качественных данных. Но, как ни странно это звучит, именно внедрение BI является чуть ли не единственным способом повысить качество данных. Очень сложно заниматься качеством системно, не видя результатов анализа, и тем более — объяснить целесообразность этого занятия бизнесу.
Проактивность и анализ причин
«Фраза ‘У самурая нет цели, а есть только путь’ ассоциируется у меня с обеспечением качества данных», — признался Ростислав Даньков, директор по управлению проектами ВТБ. Все профессионалы понимают, что это операционный процесс и требования к данным постоянно меняются. Тем не менее взгляд на качество как на цель тоже может быть полезным, например, являясь вехой при внедрении отраслевых стандартов. По словам Данькова, даже на «пути самурая» необходимы привалы, на которых можно отдохнуть и оглядеться.
В ВТБ в управлении качеством данных применили методологию, известную как цикл Деминга, и создали решение, позволяющее «проворачивать» такой цикл. Сейчас основным показателем качества является доля инцидентов, зарегистрированных пользователями. Если проверки качества работают корректно, то она должна быть небольшой. Как отметил Даньков, продвинутые методики оценки эффективности системы обеспечения качества данных сами по себе предъявляют дополнительные требования к данным. И эти методики эволюционируют вместе с ростом зрелости системы управления данными.
Алевтина Тинас: «Проект автоматизации управления качеством данных по своему значению для Tele2 оказался сродни высадке человека на Луну» |
Алевтина Тинас, руководитель департамента по управлению данными компании Tele2, в свою очередь, сравнивает борьбу за качество данных с освоением космоса: «Вроде бы прошли огромный путь, но конца ему не видно». Проект автоматизации управления качеством данных по своему значению для Tele2 оказался сродни высадке человека на Луну. Решение позволило информировать пользователей о проблемах с качеством данных, а также изменить подход к текущим и новым проверкам. Как отметила Тинас, нужно не только исправлять ошибки, но и анализировать причины их появления — именно это дает огромный вклад в повышение качества данных.
Как полагает Сергей Федоров, управляющий директор SberData, часто данные плохого качества выявляют по обращениям пользователей («лечат там, где болит») или же, напротив, сталкиваются с огромным числом требований, которые невозможно реализовать. Поменять ситуацию в корне способен искусственный интеллект, опирающийся на модели процессов управления качеством данных. Выступление Федорова было посвящено обсуждению опыта развертывания системы мониторинга качества данных, работающей сегодня в Сбербанке. Ее использование дает процессу проактивность — позволяет не дожидаться появления ошибок и предвидеть их, минимизировать трудозатраты и повысить оперативность, а также помочь владельцам данных выявлять причины появления ошибок.
Антон Гельмут, директор проектов и архитектор аналитических решений компании «Сапиенс солюшнс», рассказал о построении системы контроля качества данных, поддерживающей продуктовый подход к данным. Она соответствует стандартам ISO 8000-6x. В числе прочего система позволяет выявлять проблемы в данных до появления негативной реакции бизнес-подразделений на некорректную отчетность. В решении предусмотрено несколько видов реакций на проблемы, в том числе информирование пользователей, исправление данных и поиск первопричин. Кроме того, оно позволяет решить такой традиционно больной вопрос, как вовлечение бизнес-экспертов в процесс управления качеством данных.
По мнению Леонида Шумского, начальника управления департамента перспективных проектов компании «Дататех», чем раньше начать контроль качества данных, тем лучше будет результат. Возможность работы с качеством данных нужно закладывать еще при проектировании корпоративного хранилища. Для его реализации Шумский рекомендовал подход DataOps. «Все уже придумано, надо только применить методологию DevOps к узкой области работы с данными», — считает он.
Без западных вендоров
«Главное — не паниковать и не торопиться отказываться от достижения цели. Важно оставаться гибкими и эту гибкость закладывать в планы развития», — описал свой подход Егор Донцов, архитектор данных компании «Сибур Диджитал». Он поделился опытом решения задач обеспечения качества данных в условиях санкций. В компании было установлено решение SAS Data Quality и выстроен процесс проверки качества данных. Кроме того, в начале 2022 года начали внедрение SAS Decision Management как инструмента self-service-проверок качества данных. Однако после ухода вендора выяснилось, что на российском рынке нет коммерческих решений, поддерживающих такие процессы, поэтому было принято решение ориентироваться на продукты open source. В «Сибуре» для создания необходимого решения использовали Python и библиотеку Great Expectations. Проект был запущен в декабре, а готовый продукт планируется получить уже к концу второго квартала 2023 года.
Егор Донцов: «Главное — не паниковать и не торопиться отказываться от достижения цели. Важно оставаться гибкими и эту гибкость закладывать в планы развития» |
«Еще год назад мы хотели стать ‘российской Informatica’, имеющей полную линейку продуктов для управления данными. В какой-то мере нам это удалось, и теперь надо линейку развивать», — заявил Владислав Каменский, генеральный директор «Юниверс дата». По его мнению, наличие всеобъемлющей платформы крайне важно: компаниям не потребуется складывать пазл из продуктов разных вендоров, тем более что на российском рынке их осталось очень немного.
Пойдя дальше, «Юниверс дата» совместно с DIS Group создала «Площадку данных» — интегрированное решение для реализации сценария «одного окна», позволяющее предоставить бизнесу прямой доступ к данным. Как объяснил Каменский, продукты класса Data Governance очень востребованы на рынке, однако бизнес-пользователи не понимают их сути и не умеют ими пользоваться.
«Сложную структуру, находящуюся ‘под капотом’, необходимо скрыть. Любой бизнес-пользователь должен иметь возможность прийти в ‘супермаркет данных’ и заказать то, что ему нужно», — согласился Олег Гиацинтов, технический директор DIS Group. Для реализации такого решения существует целый спектр технологий и подходов. В течение прошлого года DIS Group заменила отечественными продуктами весь стек ушедших с российского рынка западных продуктов, имевшихся в ее портфеле. Основными стали решения компаний «Юниверс дата» и «Плюс7».
Порядок начинается с НСИ
«В последние полгода отмечается небывалый всплеск интереса компаний к решениям Master Data Management. При этом часто интерес исходит напрямую от бизнеса, который приходит со своими проблемами», — поделилась наблюдениями Мария Аверина, партнер по управлению департаментом бизнес-аналитики компании Navicon. Выясняется, что обеспечение качества нормативно-справочной информации избавляет бизнес от массы различных трудностей. Ярким примером могут служить растущие компании, активно занимающиеся поглощением конкурентов. Им нужна отчетность, которую в условиях разнородных систем и отличающихся стандартов построить невозможно. Второй пример — «грязные» клиентские данные, нарушающие процессы обслуживания и не соответствующие политике взаимодействия с клиентами. Третий пример — логистика: компании теряют грузы из-за несогласованности справочников.
Мария Аверина: «В последние полгода отмечается небывалый всплеск интереса компаний к решениям Master Data Management. При этом часто интерес исходит напрямую от бизнеса, который приходит со своими проблемами» |
Как подчеркнула Аверина, внедрение систем MDM — это лишь средство сократить затраты, заработать на этом крайне сложно. Кроме того, есть и некоторые ограничения: например, внедрение MDM не окупится в небольшой компании с оборотом до 1,5 млрд руб. или в компании, имеющей централизованную корпоративную систему.
Станислав Пиголкин, технический директор компании DATAREON, рассказал о возможностях интеллектуального модуля онтологий для управления мастер-данными предприятия. Решение является самообучаемым: оператор может корректировать работу системы, и эти корректировки будут вноситься в модель. Применение онтологий при нормализации номенклатуры позволяет значительно упростить процесс обработки данных благодаря автоматическому разбору и структурированию первичных данных в соответствии с созданными правилами. Это сильно облегчает работу дата-стюарда.
Баир Данилов, руководитель направления НСИ в компании IBS, в своем выступлении «приземлил» тему проверки качества мастер-данных. По его мнению, качество мастер-данных — это степень соответствия их характеристик требованиям. А требования разнятся, поэтому важно в одних случаях их не превышать, а в других — обеспечивать их строгое выполнение. Как минимум, качество данных надо проверять на этапе создания записи, при идентификации и сопоставлении данных, а также при проверке всех данных. Это может происходить как на уровне системы, так и с помощью логических бизнес-проверок, а также сложной доработки систем, выполненной с использованием языков программирования.
Для нормализации НСИ требуется провести разбивку описания изделий по атрибутам либо стандартизировать их представление. Для этого необходимо не только разделить текст на фрагменты, но и отсеять некорректные значения и аномалии, разрешить коллизии, касающиеся отнесения к разным атрибутам, привести к единому формату и унифицировать представление. Как отметил Алексей Арустамов, генеральный директор компании Loginom, эти сложности в процессе нормализации НСИ успешно решаются с помощью машинного обучения. В ходе выступления он продемонстрировал возможности решения по обучению модели и дальнейшему применению для нормализации НСИ. Что немаловажно, представленное решение реализовано на платформе low-code и поэтому доступно широкому кругу пользователей.
Как уверен Игорь Татаренко, директор департамента «Мастер-дата» ТПХ «Русклимат», наведение порядка в НСИ не только полезно для оптимизации работы, но и может помочь производителю выглядеть современным и правильно позиционироваться на онлайн-площадках. Предприятию важно работать со всеми топ-площадками, на которых может продаваться продукция, и обеспечить единое и достоверное представление товаров и их характеристик. Несмотря на все успехи цифровизации, работа даже крупнейших маркетплейсов изобилует допотопными подходами, и зачастую требуются прямое взаимодействие с отделами контента, изучение особенностей их работы и налаживание личных связей. Расширение управления НСИ на территорию партнеров положительно изменит деятельность торговых площадок, даст больше возможностей и им, и производителям, и продавцам, и покупателям.