Достоверность данных — одно из главных условий доверия к ним со стороны бизнес-пользователей, однако это не единственный фактор, влияющий на доверие. Как достоверность данных поможет обеспечить доверие к ним? Какого рода действия и инициативы в наибольшей степени способствуют повышению достоверности данных, улучшению их качества и росту доверия к ним при принятии решений? На достоверность данных влияют не только технологические, но и организационные факторы — об этом заявили многие эксперты, принявшие участие в конференции «Качество данных 2025».

Эксперты

Андрей Андриченко (info@sdi-solution.ru) — директор по развитию, компания «ЭсДиАй Солюшен»

Андрей Бойко (www.b2b-center.ru) — коммерческий директор, B2B-Center

Григорий Бокштейн (sales@tdata.tech) — ведущий эксперт по управлению данными компании TData

Иван Вахмянин (info@visiology.su) — управляющий партнер, компания Visiology

Олег Гиацинтов (info@dis-group.ru) — технический директор, DIS Group

Наталья Кудрявцева (info@navicons.com) — функциональный архитектор, компания Navicon

Арсен Кудзиев (hello@parma.ru) — руководитель отдела аналитического департамента, компания PARMA TG

Виктор Мастеров (info@sofros.ru) — директор департамента НСИ и интеграции, компания СОФРОС

Виталий Миронов (mail@modernsolution.ru) — генеральный директор, компания «Современные бизнес-аналитические решения»

Игорь Моисеев (hello@arenadc.io) — директор по развитию DataCatalog (ГК Arenadata)

Ирина Мягкова (relex.ru) — заместитель директора по развитию, компания «РЕЛЭКС»

Сергей Полехин (info@pix.ru) — владелец продукта PIX BI, компания PIX Robotics

Михаил Рощин (ibs@ibs.ru) — заместитель директора отделения департамента НСИ и интеграционных сервисов, IBS

Николай Скворцов (info@1c-datalogic.ru) — руководитель направления методологии, компания «1С: Логика Данных»

Полина Сорокина (info-russia@axenix.pro) — консультант практики «Стратегия данных и управление данными», Axenix

Александр Учаев (1c@1c.ru) — менеджер по продукту 1С: MDM, компания «1С»

Алиса Школьникова (request@korusconsulting.ru) — руководитель направления Data Governance департамента аналитических решений ГК «КОРУС Консалтинг»

Ключевые факторы достоверности данных

Виктор Мастеров: «Именно достоверность, как параметр качества данных, требует повышенного внимания к предметной области»

Виктор Мастеров: «Именно достоверность, как параметр качества данных, требует повышенного внимания к предметной области» «Обеспечение достоверности данных является одной из составляющих комплексного процесса управления качеством данных, — утверждает Виктор Мастеров. — И хотя в DAMA DMBOK2 термин "достоверность" не используется, он фигурирует в других научных дисциплинах, связанных с управлением данными. Например, согласно одному из определений, "достоверность данных определяется их свойством с необходимой точностью отражать реально существующие объекты. Измеряется достоверность доверительной вероятностью необходимой точности, то есть вероятностью того, что отображаемое значение параметра отличается от истинного значения этого параметра в пределах необходимой точности". Что касается внедрения, развития и поддержки систем управления качеством данных, то приоритет организационно-алгоритмических факторов и решений вряд ли подлежит сомнению. При этом именно достоверность как параметр качества данных требует повышенного внимания к предметной области (домену данных)».

Алиса Школьникова считает, что компании следует в первую очередь уточнить свое понимание достоверности данных. Также важно понять, в каких именно точках жизненного цикла данных будет измеряться их достоверность. «Исходя из этого, выбираются целевая архитектура и инструменты, необходимые для обеспечения качества данных и их автоматического исправления, — поясняет Школьникова. — Главные среди нетехнологических факторов — люди и процессы: нужно определить ответственных за формирование требований к достоверности данных и тех, кто будет разбирать возникающие ошибки и минимизировать проблемы, связанные с качеством. Эти же ответственные должны корректировать меняющиеся со временем требования к качеству данных».

Виталий Миронов: «Главное правило: система полезна только тогда, когда данные заслуживают доверия»

«Обеспечение достоверности данных — ключевая задача при работе с информационными системами, — уверен Виталий Миронов. — Главное правило: система полезна только тогда, когда данные заслуживают доверия. Это доверие строится на прозрачных процессах, четких стандартах и оперативной реакции на проблемы». Среди технологических факторов, влияющих на достоверность данных, Миронов видит решения для сбора и обработки данных, инструменты управления качеством данных и средства информационной безопасности. Среди организационных — квалификацию и обучение персонала, выстроенные процессы и корпоративную культуру, а также собственно управление качеством данных, включая контроль их качества на основе утвержденных стандартов и метрик.

Николай Скворцов, ссылаясь на книгу Лауры Себастьян-Коулман «Ответы на вызовы в области управления качеством данных» (Laura Sebastian-Coleman, "Meeting the Challenges of Data Quality Management"), обращает внимание на пять основных аспектов управления качеством данных. Во-первых, организация должна хорошо знать и понимать свои данные, требования к ним и их взаимосвязи. Во-вторых, необходимо понимать, как на состояние данных могут повлиять процессы, с помощью которых они создаются, а также способы их использования. В-третьих, нужно представлять, как выбор технологий повлияет на создание, доступность, использование и качество данных. В-четвертых, поставщики и потребители данных должны обладать знаниями, информацией и навыками, необходимыми им для доступа к данным, их понимания и интерпретации. Наконец, в‑пятых, нужно формировать корпоративную культуру в части контроля данных внутри организации и подотчетности за данные в рамках их жизненного цикла. Шестым, дополнительным аспектом является наличие согласованного корпоративного словаря по качеству данных — без него может возникнуть путаница даже в простейших понятиях.

Олег Гиацинтов: «Достоверность данных определяется как степень соответствия данных требованиям пользователя»

«Достоверность данных определяется как степень соответствия данных требованиям пользователя, — продолжает Олег Гиацинтов. — Чтобы ее достичь, необходимо понимать требования каждого пользователя к достоверности, определить общие подходы к оценке и обеспечению качества данных, закрепить в регламентах требования к проверкам, назначить ответственных за качество и применять технические решения, позволяющие оценивать и улучшать качество данных согласно требованиям пользователей».

Как отмечает Полина Сорокина, достоверность, по сути, означает степень соответствия данных происходящим в реальности событиям и позволяет судить, насколько собранные данные заслуживают доверия. Впрочем, достоверность данных весьма относительна: «Об одной и той же записи в таблице два разных специалиста могут вынести противоположные суждения. Поэтому в крупных организациях, чтобы избежать разночтений, назначают владельцев данных — компетентных специалистов, способных корректно сформулировать критерии качества данных, в том числе достоверности. Проблемы с качеством могут возникать на всех этапах жизненного цикла данных, следовательно, нужны проверки качества на всем пути "следования" данных — от их ввода до загрузки в конечные аналитические продукты. Важно выстроить процесс управления качеством данных».

Со своей коллегой соглашается Наталья Кудрявцева: «Обеспечение достоверности данных — задача, решаемая на протяжении всего их жизненного цикла. Ключевым моментом является степень доверия к источнику данных. Кроме того, существенную роль играют конкретные способы получения: например, данные, записанные на слух, более подвержены ошибкам, чем полученные путем сканирования документов. На качество данных влияют также квалификация и мотивация специалистов, занимающихся их вводом, удобство применяемого ими интерфейса и наличие контроля вводимых данных. Важно, чтобы пользователь мог быстро и легко находить информацию и использовать ее повторно вместо того, чтобы вводить заново».

Андрей Бойко уточняет: «Чтобы данные были достоверными, они должны быть востребованными, точными, согласованными, своевременными, доступными и интерпретируемыми. Среди технологических факторов, влияющих на эти характеристики, важны правильно спроектированные архитектура и СУБД, обеспечивающие очистку и автоматическое тестирование целостности данных еще на этапе их создания. Также существенное значение имеют прозрачность источников и пригодность данных для реализации конкретных задач, стандартизация моделей данных и низкое количество противоречий в структуре и семантике. Среди важных не технологических факторов — стандартизация данных, их валидация, определение метрик качества и его непрерывный мониторинг».

Ирина Мягкова: «Как правило, чтобы максимально защитить данные, применяются СУБД с закрытым кодом, имеющие сертификаты ФСТЭК или Минобороны»

Ирина Мягкова также рекомендует обратить внимание на СУБД, играющих важную роль в обеспечении безопасности данных: «Как правило, для этих целей применяются СУБД с закрытым кодом, имеющие сертификаты ФСТЭК или Минобороны».

Михаил Рощин выделяет три основных аспекта обеспечения достоверности данных: «Во-первых, необходимо определить наборы правил для контроля качества данных и их обновления, а также метрики для отслеживания и регламентирования процессов. Во-вторых, нужны технологии для осуществления проверок. Наконец, необходима команда специалистов для регулярного отслеживания инцидентов с качеством данных и их устранения».

Арсен Кудзиев: «Компании, где имеется позиция CDO, уже сделали главный шаг на пути обеспечения достоверности данных»

Арсен Кудзиев важным считает наличие специалистов, ответственных за внедрение политик управления данными, и предоставление им необходимых ресурсов и полномочий: «Компании, где имеется позиция CDO или аналогичная, уже сделали главный шаг на пути обеспечения достоверности данных». Следующий по значимости фактор — последовательное внедрение практик работы с данными: определение ключевых доменов данных, разработка процессов и регламентов работы с данными, управление сопутствующими рисками, определение ролей и полномочий сотрудников, отвечающих за отдельные домены и их сегменты. Технологии являются обеспечивающим инструментом для повышения достоверности данных».

Сергей Полехин также уверен, что на достоверность данных влияют прежде всего люди, которые за них отвечают: «За каждым набором данных должен быть закреплен ответственный, который будет знать, почему данные именно такие по составу и форме, откуда они взяты, как часто обновляются, и он сможет, исходя из четко поставленной функциональной задачи, правильно оценить уровень их достоверности». Среди технологических факторов на достоверность данных влияют методы их сбора, хранения и обновления, а для подтверждения достоверности важно проверять не только конкретный набор данных, но и возможность его корректного сопоставления с данными из других источников.

«Обеспечить достоверность данных можно только комплексно: важно разработать четкий регламент актуализации данных, регулярно проверять источники, внедрять эффективные инструменты управления данными, которые легко встраиваются в бизнес-процессы и способствуют работе, а не мешают ей, — подчеркивает Григорий Бокштейн. — Именно такой подход, заложенный в нашу платформу управления данными, позволил одному из наших ключевых клиентов повысить уровень достоверности данных, попадающих в хранилище и конечные отчеты».

Андрей Андриченко особо отмечает важность разработки единых стандартов описания форматов представления данных и обмена ими: «Стандартизировать термины и определения, необходимые для создания библиотеки шаблонов, содержащей наборы характеристик для различных групп однородных информационных объектов, позволяет описанная в стандарте ГОСТ ИСО 22745 методология открытых технических словарей (Open Technical Dictionary, OTD), реализованная в среде MDM: сначала должна быть унифицирована терминология предметной области, после чего на основе единого глоссария терминов можно создавать шаблоны, принадлежащие различным уровням классификационной иерархии каталогов и нормативно-технических справочников. В атрибуты шаблонов необходимо включить информацию о допустимых значениях. Библиотека стандартизованных шаблонов обеспечивает обмен качественной информацией, независимо от реализации приложений».

Александр Учаев: «Нетехнологические факторы все активнее переходят в разряд технологических»

По мнению Александра Учаева, нетехнологические факторы все активнее переходят в разряд технологических: «Автоматизация изначально была направлена на устранение человеческих ошибок. Технологические же факторы разнятся, исходя из типа самих данных: если для основных и справочных важна проверка соответствия классификаторам и каталогам из доверенных источников, то для транзакционных данных на первый план выходит комплексная взаимная верификация с использованием сервисов крупных вендоров».

Иван Вахмянин обращает внимание на то, что данные всегда неточны — они отражают реальность, поэтому неизбежны искажения: «Абстрактная достоверность данных в отрыве от конкретной бизнес-задачи не имеет смысла. Поэтому самое важное в работе с данными — четко формулировать бизнес-задачи, определять требования к данным и при этом ясно понимать, кто их будет использовать и для принятия каких именно решений. Опыт успешных проектов показывает, что на постановку задачи, работу с бизнес-заказчиком и проработку требований должны быть направлены не менее 20–30% трудозатрат аналитиков».

Инструменты для обеспечения достоверности данных

Переходя к обсуждению инструментов, эксперты отметили важность не только технологических средств, но и процессов и оргструктур.

Школьникова обращает внимание на то, что инструменты не исчерпываются ИТ-продуктами: «Это еще и набор правил, которые должны быть сформулированы и регламентированы, и люди, ответственные за работы по обеспечению достоверности данных. Среди технологических инструментов самый, пожалуй, важный — источники данных. И чем больше предъявляется требований к источникам, тем проще поддерживать чистоту данных. Если по каким-то причинам невозможно обеспечивать достоверность данных в источниках, то необходимо позаботиться о достоверности данных в корпоративном хранилище и BI-системах».

Полина Сорокина: «Важным шагом является выстраивание полноценного процесса управления качеством данных

Сорокина видит ключ к обеспечению достоверности данных в сочетании выстроенных процессов управления качеством данных и рационального применения программных средств для их проверки: «Для сбора проверок, мониторинга их исполнения и устранения инцидентов в едином информационном пространстве имеются специальные инструменты. Наиболее передовые из них позволяют быстро оценивать качество данных, найденных в каталоге таблиц или отчетов, не требуя дополнительных переходов и переключения между приложениями».

По мнению Бокштейна, самым простым ответом на вопрос об инструментах для обеспечения достоверности данных было бы перечисление продуктов, однако не все так однозначно: «Рассмотрим пример мобильного оператора. Data Governance позволяет продемонстрировать бизнесу, какие данные у него есть (например, абонентская база, количество и расположение вышек и т. д.), и связать их между собой. Master Data Management позволяет унифицировать НСИ. Средства Data Quality — проверить качество данных. Однако одного лишь внедрения этих инструментов недостаточно, очень важно, чтобы у бизнеса были налажены внутренние бизнес-процессы. Важна работающая связка "инструмент — методология". Поэтому более корректно утверждать, что необходим приведенный набор инструментов, но с условием, что эти инструменты должны бесшовно встраиваться в текущие бизнес-процессы и поддерживать их развитие, чтобы процессы не пришлось менять ради выстраивания работы с данными».

Николай Скворцов: «Очень важно обеспечить эффективное взаимодействие разнородных рабочих групп, участвующих в создании, поставке, обработке и использовании данных»

Скворцов особый акцент делает на создании единого информационного пространства в области качества данных: «Оно представляет собой не столько инфраструктурную, сколько социотехническую систему: в рамках пространства очень важно обеспечить эффективное взаимодействие разнородных рабочих групп, участвующих в создании, поставке, обработке и использовании данных — здесь помогут подходы, заимствованные из социологии. В качестве важного типа инструментов для создания единого информационного пространства следует особо выделить пограничные объекты (boundary objects), обеспечивающие коммуникацию между группами. Они предоставляют сведения о том или ином аспекте работы с данными, которые могут быть немного по-разному интерпретированы внутри каждой группы в зависимости от направления ее деятельности, но общее понимание ключевых моментов остается неизменным. К пограничным объектам можно отнести любые артефакты, способствующие устранению разницы в представлениях различных рабочих групп о корпоративных данных, требованиях к ним и их взаимосвязях: глоссарии, модели данных, диаграммы SIPOC (Suppliers, Inputs, Processes, Outputs, Consumers — "поставщики, входы, процессы, результаты, потребители") и т. п.».

По наблюдениям Кудзиева, на выбор инструментов влияет множество факторов: конкретная бизнес-задача, ИТ-инфраструктура, количество преобразований данных, особенности их агрегации и пр.: «Перед внедрением технологических инструментов нужно провести предпроектный аудит, по итогам которого сформировать список необходимых компонентов. Базовый инструментарий обычно включает в себя онтологии и глоссарии данных, системы MDM, решения для отслеживания происхождения данных и инструменты управления качеством данных. В условиях импортозамещения крупные организации достаточно успешно применяют решения на базе открытого ПО: DataHub, OpenMetaData, DBT + Great Expectations и др.».

Мастеров считает, что говорить о каком-то универсальном и фиксированном наборе инструментов было бы методологически необоснованно: «Согласно базовому принципу, сформулированному в DAMA DMBOK2, инструменты следует выбирать с учетом системной архитектуры и планируемых настроек еще на фазе планирования проекта управления качеством данных предприятия. Применительно к достоверности наиболее важное значение имеют инструменты формирования запросов к данным, шаблоны правил качества данных и репозитории метаданных».

Согласно замечанию Гиацинтова, инструменты для обеспечения достоверности данных следует выбирать в зависимости от метрик качества: «В первую очередь понадобятся инструменты класса Data Quality, имеющие в своем составе внушительный арсенал возможностей для оценки и анализа качества данных по основным бизнес- и техническим характеристикам и приведения данных в порядок. Для сложных метрик качества, таких как контролируемость и согласованность данных, применяются решения Data Governance, позволяющие выявлять суть и логику трансформации данных. Для простейших проверок обычно используются стандартные средства интеграции данных — ETL/ELT и подобные».

С точки зрения Вахмянина, необходимое условие обеспечения достоверности данных — это формирование «единой точки правды»: «Для этого можно создать общее КХД или использовать встроенное в BI-платформу хранилище. Также требуются механизмы ETL, обеспечивающие не только загрузку, но проверку и сопоставление данных. В задачах проверки достоверности данных большую пользу приносит искусственный интеллект».

Андрей Андриченко: «Подсистема машинного обучения позволяет втрое сократить время обработки заявок на включение новых позиций в систему MDM»

Андриченко также высоко оценивает перспективы ИИ в управлении данными: «Применение ИИ может значительно повысить достоверность данных. По мнению наших клиентов, подсистема машинного обучения, интегрированная в программный комплекс Semantic MDM, позволяет примерно в три раза сократить время обработки заявок на включение новых позиций в систему MDM и при этом существенно снизить количество ошибок».

Миронов помещает в свой портфель программных и методических инструментов средства для верификации и очистки данных и автоматизации проверки качества данных, в том числе платформы для оценки надежности источников информации (например, FactCheck.org) и системы контроля происхождения и целостности изображений (такие как Exif Viewer, FotoForensics, TinEye, Google Reverse Image Search). Кроме того, он рекомендует выстроить проведение регулярных аудитов и проверок качества данных, обучение персонала методам работы с данными и их верификации, а также внедрение стандартов, процедур и инструкций, обеспечивающих последовательность и надежность процессов обработки и проверки данных.

Полехин перечисляет три вида инструментов, необходимых для обеспечения достоверности данных: средства проверки данных на корректность, решения для устранения в них шумов и информации, не нужной для решения конкретных бизнес-задач, а также инструменты для сопоставления данных, позволяющие понять, насколько они соотносятся между собой и пригодны ли для совместного использования.

Бойко рекомендует сконцентрировать внимание на системах мониторинга, очистки и валидации данных, а также платформах MDM: «Крайне важен последовательный и комплексный подход, включающий профилирование данных, определение правил и метрик, документирование стандартов в области качества данных и их внедрение».

Игорь Моисеев также выступает за комплексный подход, охватывающий различные аспекты управления информацией: «В первую очередь необходимы средства управления качеством данных, инструменты профилирования и каталоги метаданных. Эти системы востребованы в инфраструктуре каждой организации, хранящей и обрабатывающей информацию».

Кудрявцева предлагает использовать инструментальный набор, включающий механизмы поиска (в том числе с частичным совпадением вводимых данных и определением ограничений, предотвращающих дублирование), средства ввода данных и их автоматизированного контроля, а также механизмы интеграции для проверки вводимых данных на соответствие достоверным источникам.

Михаил Рощин: «Необходима команда специалистов для регулярного отслеживания инцидентов с качеством данных и их устранения»

Рощин особо выделяет «коробочные» решения для проверки и контроля качества данных — такие как «Плюс7 ФормИТ DQ», рекомендуемое для импортозамещения продукта Informatica Data Quality, а также инструменты для реализации правил контроля качества данных на базе существующих интеграционных средств и создания отчетов с метриками качества данных.

Очень конкретно определяет набор средств обеспечения достоверности данных Учаев. Помимо специализированных продуктов класса MDM, имеющихся у компании «1С», он включает в инструментальный портфель отраслевые продукты, содержащие готовые интерфейсы для обмена со специализированными финансовыми сервисами, кредитными бюро, государственными реестрами и скоринговыми системами, а также готовые специализированные сервисы верификации и стандартные библиотеки «1С», позволяющие разработчикам добавлять в создаваемые продукты функции обеспечения достоверности данных.

Мягкова, в свою очередь, предлагает учитывать важность СУБД как средства обеспечения безопасности хранения и передачи информации, а также аудита вносимых изменений.

Как видно, для обеспечения достоверности данных требуется комплексный подход, охватывающий не только технологические, но также методологические и организационные инструменты.

Как обеспечить достоверность данных?

Необходимое условие доверия к данным

Достоверность данных — одно из главных условий доверия к ним со стороны бизнес-пользователей, однако это не единственный фактор, влияющий на доверие. Как достоверность данных поможет обеспечить доверие к ним? Какого рода действия и инициативы в наибольшей степени способствуют повышению достоверности данных, улучшению их качества и росту доверия к ним при принятии решений?

Эксперты сходятся во мнении о том, что доверие к данным напрямую связано с тем, как воспринимают данные их пользователи.

«Доверие к данным определяется в первую очередь психологией людей, корпоративной культурой компании и отношением к информации. Если решения в компании принимаются без аналитического обоснования, сотрудники не будут использовать ни сами данные, ни инструменты работы с ними. Повысить доверие к данным поможет совокупность факторов: авторитет и доказанная эффективность работы CDO, появление более сложных задач, требующих качественной аналитики, внедрение инструментов, позволяющих отслеживать происхождение и историю изменения данных, и пр. — считает Кудзиев. — Похожую задачу наши специалисты решили в ходе проекта в Пермском крае, где в нескольких тысячах бюджетных учреждений была внедрена централизованная облачная система управления финансово-хозяйственной деятельностью, основанная на датацентричном подходе и включающая специально разработанные аналитические инструменты для получения сводных показателей. Благодаря им любой показатель в консолидированных отчетах может быть разложен на понятные составляющие, а источники данных отслеживаются вплоть до первичных документов и отдельных бухгалтерских проводок».

Сергей Полехин: «За каждым набором данных должен быть закреплен ответственный»

Вахмянин предлагает исходить из того, что людей нельзя заставить использовать данные и обязать принимать на их основе решения, тем не менее можно сформировать культуру работы с данными: «Сотрудники должны видеть, что призыв опираться на данные — это не просто слова. Например, если на совещаниях решения не принимаются без их обоснования на основе данных, уровень управленческой культуры сразу вырастает — а с ним и достоверность данных. Другими словами, наиболее важным инструментом в контексте работы с данными всегда является личный пример руководителя». Полехин рекомендует отталкиваться от бизнес-задачи: «Например, можно считать достоверными данные, содержащие корректную информацию обо всех сделках компании за последний год. Однако ответ на вопрос, можно ли доверять таким данным, зависит от конкретных задач. Если в 99% сделок их объем равен примерно 1000 рублям, а 1% сделок заключались на миллионы рублей, то можно говорить о достоверности данных в целом, но эти данные будут статистически недостоверными — без дополнительной обработки их нельзя использовать для обучения алгоритмов прогнозирования. Чтобы это стало возможно, необходимо применить к данным инструменты математической статистики и корректно удалить из исходного набора статистические выбросы. Но очищенный набор данных становится непригодным для корректного расчета премий продавцам, поскольку из него выпадают самые крупные сделки. Таким образом, важно рассматривать характеристики достоверности данных и доверия к ним только в контексте конкретных бизнес-задач».

Мастеров предлагает понимать под доверием к данным доверие к их источникам (поставщикам) и распорядителям (операторам) данных: «Сами по себе данные вряд ли целесообразно рассматривать в качестве объекта доверительного отношения. Достоверность, особенно если трактовать ее как воспроизводимую и контролируемо подтверждаемую точность, может быть отнесена к числу тех параметров качества данных, обеспечение которых в наибольшей степени способствует повышению репутации и доверия к работе поставщиков и распорядителей данных. Оптимальный способ достижения этой цели можно рассматривать как реализацию классической маркетинговой триады "возможность — преимущество — выгода": высокое качество данных и, в частности, их достоверность можно соотнести с получаемым преимуществом, которое может быть использовано для повышения эффективности бизнеса и достижения коммерческого успеха. Демонстрация четкой зависимости между повышением достоверности данных и улучшением показателей бизнеса будет лучшей верительной грамотой для тех, кто предлагает такой продукт целевой аудитории».

Григорий Бокштейн: «Обеспечить достоверность данных можно только комплексно»

Бокштейн приводит пример того, как достоверность данных влияет на бизнес: «Большая производственная компания, прежде чем выделить бюджет на создание, вывод на рынок и продвижение нового продукта, анализирует производственные мощности в разрезе географии своего присутствия, а также продажи в каждом конкретном регионе, потребительское поведение разных целевых аудиторий и многое другое. Если на каком-то этапе принятия решения данные окажутся недостоверными, неполными, будут неверно проанализированы или интерпретированы, бизнес понесет убытки».

Учаев рассматривает доверие к данным как результат тщательно организованного управления их жизненным циклом, включающего выстраивание процессов управления их качеством, в том числе актуализации данных, проведения консолидированных проверок и постоянного мониторинга качества: «Получение достоверных и качественных результатов и их бесперебойное предоставление пользователям являются основой, если угодно, репутацией, позволяющей судить о доверии к данным в этой организации».

По наблюдениям Гиацинтова, достоверные данные существенно повышают уровень доверия к данным в случае, если имеются явные доказательства высокого качества данных в соответствии с метриками каждого конкретного пользователя: «Например, при построении важного бизнес-отчета обычно формируется привязанный к нему отчет о качестве использованных данных, представленный в метриках, понятных конкретному пользователю. Подобная работа должна быть точечной, направленной на персональное предоставление информации о качестве данных».

Доверие к данным напрямую зависит от того, насколько они достоверны, полны и точны, уверена Кудрявцева: «Этого можно достичь, только если сделать процесс управления данными прозрачным и автоматизировать его. Сотрудники должны понимать, как собираются данные, хранятся и кто вносит в них изменения. При этом процессы, связанные с работой с данными, должны оставаться достаточно гибкими».

Одной только достоверности данных недостаточно для того, чтобы пользователи им доверяли, подчеркивает Миронов: «Необходимо также обеспечить прозрачность процесса работы с данными и добиться вовлечения пользователей. Для этого у них должен быть доступ к сведениям о происхождении данных, их проверки и обработки (включая описания метаданных, бизнес-правил и расчетов показателей, стандартов форматов, правила работы и др.). Кроме того, необходимы регулярные автоматизированные проверки и возможности для аудита данных. Нужно также обеспечить быструю реакцию на ошибки в данных с уведомлением об их исправлении — особенно это касается ошибок, о которых сообщают сами пользователи. Наконец, нужно предоставить им наглядные и понятные средства визуализации и обеспечить доступность данных, включая возможности для проверки выборок и промежуточных этапов расчетов».

Рощин призывает обратить внимание на последствия потери доверия к данным: «Восстановить его бывает крайне сложно, это долгий и кропотливый процесс — необходимо на регулярной основе показывать, где возникают некорректные данные, на что они влияют и как найденные ошибки устраняются. Другими словами, нужны максимальная прозрачность и открытость данных. Поэтому лучше внедрять подсистемы контроля качества как можно раньше. Желательно, чтобы процессы проверки данных появлялись одновременно с развертыванием критически важных для бизнеса систем».

Алиса Школьникова: «Чем больше предъявляется требований к источникам, тем проще поддерживать чистоту данных»

«Очевидно, что, если в данных постоянно встречаются ошибки, сотрудники перестают им доверять, — добавляет Школьникова. — Возврат к доверию происходит не быстро, но он точно возможен благодаря регулярно проводимым процедурам сверки. Кроме того, необходимо сформировать критерии и предоставить инструменты, позволяющие сотрудникам самостоятельно валидировать достоверность данных, например, проверять отчетность на корректность и соответствие данным из учетной системы. Важно при этом превратить валидацию в интересную задачу с понятными целями и результатами. Самым активным пользователям данных можно предложить варианты с геймификацией».

«Доверие к данным формируется благодаря их последовательности, воспроизводимости и прозрачности, — продолжает Бойко. — Чтобы повысить ценность данных для бизнеса и облегчить их использование в различных процессах, мы рекомендуем связывать данные с источниками, проверять их корректность, применять количественные метрики для оценки качества и надежности данных, а также гарантировать безопасность и конфиденциальность информации».

Согласно замечанию Андриченко, подключать внешние сервисы для обеспечения автоматической верификации и обогащения данных помогают интеграционные возможности систем MDM: «Например, для верификации данных о контрагентах может использоваться облачный сервис "Контур.Фокус", позволяющий по ИНН организации оперативно получать и обновлять информацию о компании в справочнике контрагентов. В этом случае доверие к данным строится на доверии к внешнему источнику».

Скворцов особое значение придает информированию заинтересованных лиц о взаимосвязях работ в области управления данными: «Владение такой информацией — важная предпосылка повышения доверия к данным. Не случайно в области управления качеством продукции стали популярны методологии бережливого производства и шести сигм, ориентированные на учет связей. Более того, один из ключевых инструментов методологии шести сигм — диаграммы SIPOC — взяты на вооружение в DAMA DMBOK2, где они используются как основа контекстных диаграмм областей знаний. Ценность их в том, что они позволяют представить управление данными в виде набора взаимосвязанных элементов. Такое целостное описание работ, составляющих управление данными, могло бы стать важным пограничным объектом (на языке социологии) — инструментом коммуникации между разнородными рабочими группами, обеспечивающим функционирование единого корпоративного информационного пространства в области качества данных».

Повышение достоверности данных. Что делать?

Опрошенные эксперты в целом поддерживают важность комплексного подхода, охватывающего не только технологические мероприятия, но и инициативы организационного характера.

Наталья Кудрявцева: «Обеспечение достоверности данных — задача, решаемая на протяжении всего их жизненного цикла»

Кудрявцева обращает внимание на исследования, показавшие, что главными препятствиями в работе с данными многие компании считают людей и процессы: «Для повышения достоверности данных важны в первую очередь разработка общих для всей компании регламентов и формирование корпоративной культуры, ориентированной на высокое качество работы с информацией. Люди должны быть обучены, знакомы с лучшими практиками, должны знать, где найти точные, непротиворечивые данные и как извлекать из них ценную информацию. Кроме того, важно выбирать инструменты, соответствующие требованиям бизнеса в области работы с данными. Так, компаниям, внедрившим в ходе импортозамещения множество разрозненных ИТ-систем, полезно выстроить процессы централизованного сбора и унификации данных на основе систем MDM. Наконец, важно добиться прозрачности процессов управления данными и четко распределить зоны ответственности и контроля изменений».

Школьникова еще более категорична: «Главное — это люди. Поэтому основные инициативы должны быть связаны с поиском ответственных за данные. Чем больше данных будет охвачено владельцами — формальными и неформальными, теми, кто реально отвечает за ввод данных, понимает, как определять их достоверность, проактивно минимизирует ошибки ввода и участвует в том, чтобы предоставлять данные в нужном для бизнес-целей виде, тем больше будет доля достоверных данных».

Игорь Моисеев: «В первую очередь необходимы средства управления качеством данных, инструменты профилирования данных и каталоги метаданных»

Моисеев также рекомендует сочетать технологические и организационные меры: «Ключевыми действиями являются разработка стандартов и политик, определяющих приемлемые для организации нормы качества данных, определение ролей и обязанностей сотрудников, отвечающих за управление данными, и контроль качества данных». Моисеев уверен, что достоверность данных нужно поддерживать на всех этапах их жизненного цикла. В частности, надо встроить механизмы проверки вводимых данных на корректность и соответствие заданным форматам, внедрить автоматизированную проверку качества данных в таблицах с применением инструментов Data Quality, сформировать глоссарий, описывающий онтологию качества данных и обеспечивающий унификацию форматов данных, показателей, метрик и описаний объектов. Также важно задействовать опыт экспертов — представителей российских консалтинговых компаний и интеграторов.

Миронов, соглашаясь с коллегами, среди необходимых действий и инициатив отмечает также стандартизацию процессов, включая разработку регламентов, создание единого глоссария терминов и форматов данных, применение таких методологий управления качеством, как бережливое производство и шесть сигм, а также обучение и развитие персонала. В комплекс мер также рекомендуется включить автоматизацию различных этапов работы с данными и применение машинного обучения для выявления аномалий и прогнозирования возможных проблем с данными. Важно также не забыть про мониторинг и аудит данных и, конечно, формирование культуры работы с данными, в том числе стимулирование открытого доступа к данным внутри организации. «Внедрение этих действий и инициатив не только улучшит достоверность данных, но и повысит эффективность бизнес-процессов в целом», — добавляет Миронов.

Скворцов в качестве наиболее важной инициативы выделяет разработку и реализацию корпоративной стратегии работы с данными: «Она должна охватывать мероприятия по решению основных проблем, связанных с качеством данных, и созданию единого информационного пространства в этой области, что подразумевает разработку и сопровождение пограничных объектов (моделей, диаграмм, глоссариев и т. п.) для обеспечения коммуникации между рабочими группами, вовлеченными в процессы управления и использования данных. Важно также предусмотреть деятельность по обеспечению единой интерпретации таких объектов всеми группами. Выработка общего понимания — ключ к повышению доверия, в том числе и к данным».

Кудзиев предлагает в первую очередь выявить наиболее критичные для бизнеса области данных: «Для их определения имеет смысл обратить внимание на ситуации, когда из-за низкого качества данных организация может столкнуться с серьезными проблемами и финансовыми издержками, например, штрафами со стороны регуляторов или просчетами в операционном планировании. Разделив задачи на меньшие, мы ускорим решение бизнес-проблемы и улучшим качество данных для конкретной задачи. В дальнейшем добавление новых доменов будет способствовать формированию и развитию подхода Data Mesh».

«Сбор данных, обеспечение их достоверности и качества должны исходить из решаемой бизнес-задачи, — продолжает Полехин. — Поэтому прежде чем пытаться повысить достоверность данных, нужно четко сформулировать задачу, которую нужно решить на их основе. Кроме того, необходимо периодически проводить аудит данных, чтобы уточнять, какие именно данные собираются, откуда доставляются и с какой периодичностью. Например, данные, которые использовались для описания и контроля какого-то бизнес-процесса, спустя год могут оказаться бесполезными или неполными из-за того, что в процессе произошли изменения или поменялись правила расчета показателей его эффективности. Обеспечение достоверности данных — непрерывный процесс, который должен быть строго соотнесен с пониманием бизнес-задач, решаемых на основе этих данных».

Усилия по обеспечению достоверности данных оправданы, поскольку решения, принимаемые на основе достоверных данных, будут более точными, отмечает Гиацинтов: «Для повышения достоверности, конечно, требуется систематизация процессов, нацеленных на повышение качества данных, и их регламентация. Кроме того, нужна отдельная организационная структура для управления достоверностью данных. Инструменты, применяемые для подобных работ, должны соответствовать требованиям пользователей в части повышения достоверности данных».

Как обеспечить достоверность данных?

По мнению Мастерова, описание подходов, термины и понятия, изложенные в DAMA DMBOK2, можно принять за нормативную основу, что также позволяет минимизировать вероятность некорректных интерпретаций. Следует подчеркнуть, что достоверность относится к тем параметрам качества данных, для обеспечения и контроля которых большое методологическое значение имеет подход, основанный на адаптации цикла Шухарта — Деминга, состоящего из повторяющейся последовательности фаз: планирование — реализация — контроль — доработка — планирование и т. д. В число методов, важных для обеспечения достоверности, Мастеров советует включить контроль входных данных, контроль качества внешних данных, формализованный контроль изменений, автоматизированное (с подтверждением вручную) или исправление данных вручную, а также применение эффективных метрик качества данных и использование программных средств для его проверки и аудита. Разумеется, потребуется и обучение персонала, занимающегося подготовкой данных и особенно обработкой данных из внешних источников.

Андриченко акцентирует внимание на том, что обеспечение качества данных в системах MDM базируется на специализированных функциях контроля и верификации вводимых данных, включая механизмы ограничительных таблиц, содержащих сведения о допустимых комбинациях значений атрибутов информационных объектов, связанных с определенным классом и извлеченных из соответствующей нормативно-технической документации: «Мастер формирования номенклатурных позиций, реализованный в MDM на основе механизма ограничительных таблиц, обеспечивает создание множества качественных записей без необходимости отслеживания запрещенных комбинаций значений атрибутов и без ручного ввода — основного источника ошибок».

Андрей Бойко: «Крайне важен последовательный и комплексный подход»

«Наибольшее влияние на качество данных оказывают системные действия: проверка источников на надежность и прозрачность, валидация и фактчекинг, критический анализ с точки зрения логики и доказательной базы, проверка актуальности данных», — продолжает Бойко. Рощин среди действий и инициатив по повышению достоверности данных советует реализовать меры по введению метрик качества данных, его регулярных проверок и минимизации ошибок, связанных с человеческим фактором при вводе. Также, конечно, нужно описать бизнес-процессы работы с данными и жизненный цикл данных.

Учаев исходит из того, что только комплексный подход к организации процесса управления данными как цифровым активом может обеспечить высокую достоверность обрабатываемых данных. В качестве примера он предлагает рассмотреть сервис обеспечения достоверности транзакций «1С: Сверка 2.0». Среди его функций — идентификация и проверка достоверности данных подключаемых организаций, сверка атрибутов контрагентов и сопоставление их с организациями, идентификация и сверка версий учетных систем, данных, а также принципов учета операций и документов, поиск и сопоставление корреспондирующих документов (включая их реквизиты и аналитические данные), выявление разногласий, их консолидация и хранение.

«К задаче повышения достоверности данных мы подходим комплексно, — делится опытом своей компании Бокштейн. — В первую очередь стремимся обеспечить высокие стандарты качества — для этого используем автоматизированные инструменты валидации и очистки данных, проверяем их на ошибки и аномалии. Также разрабатываем четкие стандарты для сбора, хранения и обработки данных. Кроме того, стремимся обеспечить прозрачность процессов работы с данными — ведем подробную документацию об источниках, методах сбора и обработки данных, предоставляем метаданные для объяснения контекста данных, их значений и ограничений. Разумеется, обучаем команды, задействованные в работе с данными, собираем и анализируем обратную связь с ними. Наконец, развиваем культуру работы с данными: для этого важно, с одной стороны, заручиться поддержкой руководства, чтобы сотрудники рассматривали инициативу как значимую, и, с другой, — использовать достоверные данные для обоснования принимаемых решений, что также способствует росту доверия и уверенности в их качестве. Важно также регулярно проводить аудит данных (в том числе внешний) и предоставлять пользователям понятные прозрачные метрики качества данных. Не следует забывать и об обеспечении безопасности и конфиденциальности данных».

Иван Вахмянин: «В проверках достоверности данных большую пользу приносит искусственный интеллект»

Согласно мнению Вахмянина, данные становятся действительно достоверными только тогда, когда руководители регулярно используют их для принятия решений — тем самым они демонстрируют, что эти данные приоритетны, и поддерживают культуру управления компанией на основе данных. Повысить качество данных помогает внедрение современной BI-платформы, благодаря чему данные становятся наглядными и понятными. «За счет их визуализации становятся видны их изъяны, специалисты получают возможность их исправить, — поясняет Вахмянин. — Проект внедрения бизнес-аналитики может показаться довольно сложным, но он значительно упрощается при использовании лучших практик. Учитывая высокий уровень интереса к ним, мы взялись за их систематизацию и разработку российский методологии внедрения технологий бизнес-аналитики и управления на основе данных».

***

Основа мероприятий и инициатив по повышению достоверности данных — это действия организационного и методологического характера. Технологические проекты помогают довести их до логического завершения и переложить выполнение рутинных процедур на ИТ-инструменты.

Михаил Зырянов (mikez@osp.ru) — шеф-редактор, OSP.RU (Москва).