Многие эксперты конференции «Качество данных 2024», организованной издательством «Открытые системы» и Министерством цифрового развития, связи и массовых коммуникаций РФ, отметили повышение бизнес-ориентированности функции управления данными. От своего офиса данных компания все чаще требует конкретных результатов.
Как отметила CDO ВТБ Светлана Бова, изначально от директоров по данным ожидали просто наведения порядка в данных, затем – повышения цифровой грамотности сотрудников и эффективности использования данных. Прогнозируется, что в будущем на них возложат ответственность за монетизацию данных и обеспечение эффективного внедрения и использования средств искусственного интеллекта в критичные для бизнеса процессы.
«Управление данными уже заняло ключевую роль в стратегиях цифровой трансформации. Более того, сейчас для всех государственных организаций стало обязательным выполнение соответствующих KPI, а CDO есть в каждой уважающей себя компании», — подчеркнула Бова. При этом, по ее словам, наблюдается заметная рассинхронизация между ожиданиями и реальностью. Сейчас главный приоритет директоров по данным, озвучиваемый компаниями, – качество данных, но при этом все финансовые и людские ресурсы направлены на построение хранилищ данных, а все время CDO – на работу со стратегией и владельцами данных.
«Черный ящик» – это нормально
Список задач офиса CDO поистине огромен – от сугубо технических вопросов до разбора причин инцидентов, взаимодействия с бизнесом и выстраивания корпоративной культуры. Кто должен реализовывать задачи по обеспечению качества данных?
«Расширять команду в последнее время крайне трудно, и мы пригласили на работу роботов. Первым направлением автоматизации стал инцидент-менеджмент – автоматическая публикация инцидентов в ITSM-системе», — поделилась Екатерина Моисеева, руководитель направления качества данных в компании Tele2. Таким образом удалось снизить нагрузку на бизнес-подразделения по заведению заявок и на команду по разбору и сопровождению заявок. Следующими шагами стала автоматизация информирования пользователей, а также простейших способов контроля качества данных и сбора требований к ним.
Константин Перьев: «При работе с качеством данных мы действуем как проактивно, так и по инцидентам. Но конечно, в первую очередь мы стараемся сформировать пул потенциальных рисков и проактивно с ним работать» |
Константин Перьев, руководитель проектов Минцифры, рассказал о работе с инцидентами качества данных и методах воздействия на поставщиков данных, которые министерство реализует как оператор системы межведомственного взаимодействия (СМЭВ). Подходы к повышению качества данных включают жесткие проверки данных на витрине, подготовку регулярных детализированных протоколов ошибок и плотную работу с владельцами данных. При этом министерство движется в сторону повсеместного внедрения инструментов форматно-логического контроля – от контроля атрибутов к контролю качества свойств объекта, автоматизации ведения инцидентов и исправления ошибок, а также выявлению аномалий в данных.
Дефекты в качестве данных могут привести к вполне осязаемым потерям. Например, ошибка в температуре хранения или условиях транспортировки товара может привести к его порче, напомнила Полина Сорокина, консультант практики «Прикладной искусственный интеллект» компании Axenix.
Для обеспечения качества данных вполне можно ли использовать искусственный интеллект, хотя в этом случае есть нюансы. Сейчас наблюдается всплеск применения инструментов машинного обучения и продвинутой аналитики в функции управления данными. Сорокина описала проведенные эксперименты по извлечению информации из текстовых данных (например, описаний товаров) с помощью больших языковых моделей. Были моменты, решаемые хорошо, но были и провалы, когда модели отказывались замечать очевидные ошибки. Подобные неоднозначные результаты были получены и при анализе изображений для поиска несоответствий фото и его описания.
Сергей Гарбук: «Если каждое действие алгоритма ИИ будет понятным для человека и интерпретируемым, то он перестанет быть ИИ. 'Черный ящик' – это нормально, но при этом важно соответствие требованиям в области целостности и конфиденциальности данных» |
«Если каждое действие алгоритма ИИ будет понятным человеку и интерпретируемым, то он перестанет быть искусственным интеллектом. 'Черный ящик' – это нормально, но при этом важно соответствие требованиям в области целостности и конфиденциальности данных», — заявил Сергей Гарбук, председатель технического комитета 164 «Искусственный интеллект» Росстандарта. Основные цели стандартизации процессов разработки ИИ – обеспечение гарантий функциональной корректности созданных систем. Без гарантий того, что система будет вести себя определенным образом в определенных условиях, невозможно создание систем доверенного ИИ.
Вопросы культуры
Рекомендациями о том, как привить большой компании data-driven культуру, поделился Борис Вольфсон, до конца прошлого года занимавший должность вице-президента по продукту и данным компании «СберМаркет».
Борис Вольфсон: «Я видел много компаний, где формально существуют хорошо выстроенные процессы управления данными и внедрены системы аналитики, но на деле решения принимаются и контролируются без учета данных» |
«Я видел много компаний, где формально существуют хорошо выстроенные процессы управления данными и внедрены системы аналитики, но на деле решения принимаются и контролируются без учета данных», — сказал он. Чтобы быть data-driven, компании недостаточно просто иметь данные. Важно понимать их и уметь интерпретировать, применять их для принятия решений, интегрировать их в продукты компании. Но главное – создать культуру, в которой данные являются ключевым элементом всех бизнес-процессов, и это самый сложный для формирования элемент. Вольфсон рассказал, как в «Сбермаркете» «оцифровали data-driven культуру», создав индекс использования данных и их качества.
«Ориентируясь на ИТ, мы часто забываем, что действуем в интересах бизнес-заказчика. Например, даем хороший, но сложный инструмент и удивляемся, что им не хотят пользоваться. Даем красивые дашборды, которые отображают ненужную сотруднику информацию», — признала Ольга Воронцова, главный бизнес-архитектор «БФТ-холдинг». Пользователь должен получать в итоге не только достоверные и качественные, но и полезные и понятные ему данные, иначе с его точки зрения данные будут «плохими». Главный способ добиться этого – говорить на одном языке с пользователями. Как известно, терминология разных отделов до сих пор может серьезно отличаться, поэтому важно наличие бизнес-глоссария и единой методологии расчета показателей.
Ольга Воронцова: «Часто мы, ориентируясь на ИТ, забываем, что действуем в интересах бизнес-заказчика. Например, даем хороший, но сложный инструмент и удивляемся, что им не хотят пользоваться» |
Качеством данных зарабатывают деньги
Что делать человеку, которого назначили ответственным за качество данных? По мнению Евгения Быкова, директора по организации работы с данными Промсвязьбанка, в первую очередь следует понять текущее положение вещей, найти зоны роста, выработать стратегию и тактику, определить ролевую модель и функции участников. И главное – изменить парадигму отношений внутри ролевой модели – отношений между владельцами данных и пользователями.
«Владельцем данных должен быть человек, у которого есть стимул и влияние – он должен быть заинтересован в результате и иметь возможность влиять на процесс. Я против того, чтобы владельцев назначали – это так не работает. Люди приносят пользу только когда в чем-то заинтересованы», – уверен Быков.
Евгений Быков: «Владельцем данных должен быть человек, у которого есть стимул и влияние – он должен быть заинтересован в результате и иметь возможность влиять на процесс. Я против того, чтобы владельцев назначали – так не работает» |
Затем важно определить критерии качества данных, выработать SLA и разработать средства мониторинга данных, согласовать действия в случае инцидентов. Нужно всегда находить причину проблем и реагировать на них, дорабатывая контроли. При этом ответственность за ошибки должна лежать на всех участниках процесса.
Вадим Уланов, директор по данным компании «ВсеИнструменты.ру», рассказал про своеобразный социальный эксперимент, в ходе которого офис данных эволюционировал в направлении цифровой трансформации бизнеса. В результате удалось добиться «перерождения» команды: она стала сама выдвигать инициативы и брать ответственность за их реализацию.
«Мы свою функцию управления фродом и гарантирования доходов в последние несколько лет начали позиционировать в компании как источник прибыли», — заявил Сергей Энгерс, руководитель разработки решений по управлению фродом и гарантированию доходов «ВымпелКома». Проверки качества данных – это не затраты, они приносят деньги компании. Это видно через предоставляемые бизнесу возможности: повышение выручки за счет управления рисками, управление выручкой за счет инструментов мониторинга, реализация инструментов для подсчета маржинальности. Так, в результате проведенных работ удалось увеличить уровень покрытия рисков с 56% до 85%, а рост выручки от продуктов за 2023 год составил 52%.
Чтобы получать пользу от данных, необходимо переходить от использования агрегированных к детальным данным, не верить источникам данных и всегда проверять их. Кроме того, важно активно вовлекать пользователей в управление данными и использовать подход Data Mesh.
Николай Шевцов: «Если взглянуть на ситуацию чуть внимательнее, то на качестве данных мы зарабатываем вполне конкретные деньги, которые можно показывать руководству, аргументируя таким образом свои идеи» |
«Если взглянуть на ситуацию чуть внимательнее, то на качестве данных мы зарабатываем вполне конкретные деньги, которые можно показывать руководству, аргументируя таким образом свои идеи», — согласен Николай Шевцов, CDO «ОТП-Банка». Для этого в банке отнеслись к качеству данных как к продукту: выделили «спецназ» -- команду, отвечающую за качество клиентских данных и продукты на их основе. Для этих продуктов определены KPI – объем денег, которые они должны принести.
Александр Безуглый, руководитель платформы по интерактивной аналитике и качеству данных «М.Видео-Эльдорадо», также является сторонником федеративной модели управления данными. Некоторое время назад централизованная функция управления данными была абсолютно непрозрачной для бизнеса и поэтому вызывала недоверие.
На текущий момент в компании создано 10 доменов данных, а офис данных представляет собой четыре платформенных команды. Общие правила и каталог данных позволяют бизнесу осознанно управлять портфелем реализуемых задач. А с недавнего времени в «М.Видео-Эльдорадо» появился и дата-комитет, на котором владельцы данных определяют направления развития офиса данных.
В ходе децентрализации знания команды офиса данных разделились, в компанию пришли новые люди, и, как следствие, стало больше проблем с данными. Выходом стало внедрение процессов обеспечения качества данных, позволяющих не тушить пожары, реагируя на инциденты, а действовать проактивно.
***
Как согласились многие эксперты, вопрос качества данных отнюдь не является монолитом. Его вполне можно разложить на составляющие, которые важно изучить и научиться с ними работать. При этом не следует разделять ответственность за качество данных между людьми, не владеющими всем спектром возможностей работы с данными. Качество данных можно обеспечить только совместной работой аналитиков, разработчиков, архитекторов и дата-офиса. И чем раньше компания применит такой подход, тем проще ей будет.