Форум «Управление данными — 2022», в седьмой раз организованный издательством «Открытые системы», состоялся в Москве в конце сентября. В его работе — очно или онлайн — приняли участие более четырехсот специалистов. На форуме обсуждались стратегии, архитектуры и практики работы с данными, приобретающие особое значение в условиях современной трансформации отечественной экономики и изменений ландшафта российского ИТ-рынка.
«Отечественная индустрия данных доказывает свою технологическую независимость и зрелость в столкновении с беспрецедентными вызовами. Сегодня, как никогда, форум — незаменимая площадка для обмена свежими идеями и опытом извлечения ценности из корпоративных данных, который прошел проверку кризисом», — подчеркнул Дмитрий Волков, программный директор форума.
Глобальные тенденции и рекомендации начинающим
«Сегодня, когда глобальная экономическая и политическая турбулентность способна внезапно влиять на потребность предприятий в новой информации, критически важными становятся оперативность и гибкость управления данными», — заявил Максим Григорьев, генеральный директор «Ассоциации ФинТех».
Издержки, связанные с хранением огромных массивов исторических данных, в сложившейся ситуации становятся неоправданными из-за быстрого изменения процессов и тенденций. Такие данные теряют актуальность, вследствие чего устаревают модели машинного обучения и искусственного интеллекта. Поэтому следует использовать новые методы аналитики на основе «малых» и «широких» данных, считают в Gartner. Не нужно бороться за большие данные — необходимо рассчитывать на более современные инструменты работы с данными и искать их инновационные источники, пояснил Григорьев.
Здесь способны помочь такие технологии, как DataOps, ModelOps, DevOps: они поддерживают операционализацию работы с данными, а также позволяют обеспечивать как формирование конвейеров для работы и с данными, и с моделями на базе искусственного интеллекта, так и встраивание искусственного интеллекта в приложения. Очень важным для унифицированного управления разнородными данными становится использование платформ на базе распределенной архитектуры Data Fabric, поскольку оно позволяет выполнять переход от создания хранилищ данных к концепции интеграции их источников.
Таковы глобальные тенденции развития отрасли работы с данными. Но многие отечественные организации еще только приступают к решению подобных задач и хотят понять, что и как нужно делать.
Этим компаниям следует сформировать стратегию на основе собственных задач и лучших практик в данной области, постараться учесть трудности на выбранном пути и оценить возможные риски. Тогда их проекты, может быть, не пополнят список тех 80% инициатив по созданию и развитию систем управления данными, которые, согласно Gartner, не приводят к ожидаемым результатам.
«Система управления данными должна включать не только ИТ-решения, но и соответствующие бизнес-процессы, определенные роли и функции участников таких процессов. Ее внедрение — итеративный процесс, который должен следовать общей методологии и стратегии, а также учитывать возможную вариативность бизнес-процессов. Наиболее эффективный вариант — идти от проблемы», — считает Кирилл Евдокимов, директор практики Data Governance компании Adastra. Он провел мастер-класс, в рамках которого обсуждались практический опыт выстраивания системы управления данными, проблемы развертывания и развития процессов Data Governance, а также пути и причины, приводящие к провалу инициатив.
Кирилл Евдокимов: «Внедрение системы управления данными — итеративный процесс, который должен следовать общей методологии и стратегии, а также учитывать возможную вариативность бизнес-процессов» |
При развертывании работы с данными не следует рассчитывать только на CDO, советует Светлана Бова, управляющий директор департамента ИТ-архитектуры банка ВТБ, так как «управление данными пронизывает все бизнес-процессы организации и внедрение практик управления приводит к расширению штата».
Она отметила, что требования к компетенциям в этой области предъявляются не столько к персоналу ИТ, сколько к сотрудникам бизнес-подразделений: именно там на основе данных генерируются идеи о новых процессах и продуктах: «Самое сложное — заинтересовать людей и встроить управление данными в процессы всей организации, реализуя это в едином ритме с управлением изменениями».
Варвара Макарьина, руководитель направления стандартизации данных и управления знаниями компании «Балтика», настоятельно рекомендует уделять повышенное внимание актуальности данных и отображению непрерывно происходящих изменений в важнейшем инструменте описания данных — каталоге данных.
Источники данных могут изменять название и содержание, данные могут менять место своего расположения, возможны модификации процессов их обработки, пояснила она. Критическая утрата актуальности приводит к ошибкам, а также к потере доверия к каталогу данных. Поэтому если не выстроен процесс отслеживания изменений, то самые подробные и актуальные их описания быстро устаревают.
Поддержание актуальности данных — непрерывный процесс. В «Балтике» рекомендуют, помимо прочего, рационально сочетать административные и автоматизированные методы внесения изменений, регулярно привлекать владельцев данных к аудиту источников, проверять реальное наличие ответственных за данные, научиться выделять заявки в ИТ-службу на изменение данных, способные повлиять на их описание, снабдить людей понятными инструкциями работы с каталогом.
Продукты и технологии
Спрос на отечественные программные продукты растет небывалыми темпами. В области управления данными российские организации все глубже погружаются в поиск обеспечивающих технологическую независимость решений, которые создаются на основе отечественных платформ и инструментов. Докладчики представили основные возможности и особенности наиболее известных и перспективных из них.
Многофункциональная платформа «Юнидата» предназначена для построения систем управления корпоративными данными (основными данными и справочной информацией), которые осуществляют централизованный сбор данных, стандартизацию сведений, учет текущей и исторической информации, ведение статистики, а также обеспечивают качество данных.
Алексей Цырюльников: «Мы рассматриваем платформу как гибкий и масштабируемый архитектурный подход, предоставляющий набор компонентов, которые обеспечивают функциональность, необходимую каждому предприятию» |
«Мы рассматриваем платформу не как конкретный продукт, а как гибкий и масштабируемый архитектурный подход, предоставляющий набор компонентов, обеспечивающих функциональность, необходимую каждому предприятию», — сообщил Алексей Цырюльников, заместитель генерального директора компании «Юнидата».
Такой подход предоставляет возможность объединить разработанные в «Юнидата» технологическую платформу, продукты, методологию управления данными, а также методологию внедрения комплексов управления данными на основе отраслевого опыта партнеров компании.
Разработки «Юнидата», подчеркнул Цырюльников, ориентированы на требования международного рынка продуктов управления данными и отвечают запросам российских компаний на несколько лет вперед.
Максим Шляпнев, директор по развитию BI-направления компании Navicon, также обратил внимание на важность методологии при развертывании решений управления данными. «В таких задачах даже самый хороший продукт — это полдела. Не менее важная часть — внедрение методологии в компании. По усилиям и трудозатратам обе части, как правило, эквивалентны».
Платформа Navicon.MDM, которая, по словам Шляпнева, развивается уже более десятка лет, — это состоящее из нескольких компонентов веб-приложение, которое можно развернуть в облаке и на площадках организаций и интегрировать с их информационными системами. Такое приложение позволяет консолидировать данные различных источников в едином хранилище нормативно-справочной информации и осуществлять контроль качества данных с использованием бизнес-правил. До недавнего времени оно базировалось на технологиях Microsoft, теперь переведено на СУБД PostgreSQL.
«Построение решения управления данными начинается с MDM. Для эффективной работы необходимо определить владельцев данных, сформировать центр компетенции и осуществлять постоянную поддержку пользователей во время внедрения и эксплуатации», — утверждает Шляпнев.
Компания DIS Group, известная как многолетний партнер Informatica, представила на форуме набор отечественных решений Plus7 для комплексной цифровой трансформации предприятий. В его состав входят: платформа автоматизации операционной деятельности Plus7 Forsage Platform; система управления знаниями организаций и корпоративный коммуникационный портал Plus7 MayaK; решение по управлению данными Plus7 EDM; решение по интеграции данных, обеспечению их качества и формированию персонализированной информации Plus7 FormIT.
Plus7 EDM, единая платформа управления информацией о данных, процессах и людях, создана на базе Forsage Platform, разработанной DIS Group. В состав ее основных функций включены: определение и категоризация терминов, классификация объектов метаданных, получение сведений об их владельцах; представление прозрачной структуры метаданных, систем и потоков данных, детальная логика преобразования метаданных, формирование связи технических метаданных с бизнес-глоссарием; единое представление в логической и физической моделях метаданных и в терминах бизнес-глоссария.
«Plus7 EDM — это система управления данными на физическом, логическом и концептуальном уровнях, объединяющая возможности бизнес-глоссария и каталога данных. Она не связана с решениями Informatica», — подчеркнул Олег Гиацинтов, технический директор DIS Group, пояснив, что специалисты DIS Group предоставляют услуги миграции по каждому направлению решений Plus7.
Платформа данных Arenadata EDP пополнилась еще одним комонентом — продуктом Arenadata Catalog. Его начали разрабатывать зимой 2022 года на совместном предприятии «Датакаталог», созданном компанией Arenadata и Luxms, поставщиком систем BI и ETL. По словам Ивана Новоселова, генерального директора «Датакаталога», в этом продукте учтены актуальные требования российских заказчиков и практический опыт внедрения каталогов данных.
К наиболее важным из них, считают разработчики, в первую очередь следует отнести удобство работы с каталогом различных групп специалистов: бизнес-пользователей и аналитиков, заинтересованных в наличии бизнес-терминов и отчетов, а также инженеров и разработчиков, для которых важны технические метаданные. Кроме того, Arenadata Catalog обеспечивает повышение прозрачности и надежности данных, их поиск с учетом качества и специальных требований, соблюдение политик и правил управления данными, выполнение SLA для витрин данных. Для захвата метаданных в Arenadata Catalog применяется Apache Airflow, внутренний депозитарий организован на Postgres, поисковый «движок» в ядре также выполнен на свободном ПО.
Arenadata Catalog рассчитан на средние компании «с достаточно сложно организованными данными», пояснил Новоселов. Выпущен первый релиз, а в октябре начнутся пилотные проекты. Готовится редакция для небольших предприятий.
Надежда Ларина: «Подход low-code позволяет организовать 'правильную' работу с данными для большинства бизнес-пользователей без помощи разработчиков. Такая демократизация повышает общую культуру управления данными в рамках всей организации» |
Компания Visiology, разрабатывающая отечественные BI-решения, анонсировала на форуме выпуск релиза 3.0 своей BI-платформы Visiology, появление которого Алексей Никитин, заместитель генерального директора Visiology, назвал самым значительным шагом за все время развития этого решения.
Основная новая функциональность Visiology 3.0 — поддержка языка запросов DAX (Data Analysis eXpressions), который применяется в пакете облачных сервисов бизнес-аналитики Microsoft Power BI.
«Мы поддерживаем синтаксис языка DAX, но не используем никаких исходных кодов Microsoft: пользователям предоставляется привычный интерфейс DAX», — подчеркнул Никитин. Разработчики считают весьма эффективной для работы с данными поддержку DAX как для начинающих, так и для опытных специалистов, поскольку многие из них уже знакомы с Microsoft Power BI.
Вместе с тем отмечается значительный прирост производительности обработки данных в результате использования модернизированного In-Memory «движка» ViQube 2 в сочетании с новым хранилищем на основе колоночной аналитической СУБД с открытым кодом ClickHouse.
По словам Никитина, переход к языку DAX — важный шаг на пути развития самообслуживания, поскольку пользователи получают возможность самостоятельно проводить глубокий анализ данных. Наряду с этим ожидается формирование экосистемы за счет объединения бывших аналитиков PowerBI. Релиз Visiology 3.1 ожидается в феврале 2023 года.
Концепцию самообслуживания в аналитике реализует поддерживающая разработку low-code платформа Loginom, которая делает доступной для бизнес-пользователей продвинутую аналитику. Создатели платформы более двух десятков лет разрабатывают решения по анализу данных.
Loginom позволяет визуально формировать сценарии анализа данных из готовых компонентов, реализующие как простейшие операции, так и методы Data Mining. Наряду с многократным использованием таких сценариев, в Loginom предусмотрен импорт данных из файлов, баз данных, бизнес-приложений, веб-сервисов, ODBC и других источников, а также доступна работа с такими средствами отображения данных, как OLAP-кубы, таблицы, диаграммы и специализированные визуализаторы.
В Loginom уверены в том, что их платформа способствует вовлечению в корпоративную работу с данными многочисленных сотрудников предприятий, ранее применявших только Microsoft Excel.
«Подход low-code позволяет организовать 'правильную' работу с данными большинства бизнес-пользователей без помощи разработчиков. Такая демократизация повышает общую культуру управления данными в рамках всей организации», — убеждена Надежда Ларина, руководитель направления клиентского сервиса Loginom.
Аппаратные платформы для работы с данными
Такие платформы представил Роман Гоц, основатель компании «ДатаРу». Он пояснил, что «ДатаРу» — это российский вендор с двухлетней историей, основа коллектива которого — специалисты из команды компании Atos. «ДатаРу» поставляет российское ИТ-оборудование и осуществляет его крупноузловую сборку на территории нашей страны. В портфель компании входит серверное оборудование, а также решения для высоконагруженных СУБД и бизнес-критичных приложений, «умной» видеоаналитики, периферийных вычислений и гиперконвергенции. Компания расширяет номенклатуру поставок, добавляя сетевое оборудование, системы хранения данных и другие решения.
Среди продуктов «ДатаРу» можно упомянуть сертифицированный для работы с Astra Linux сервер «Датару БС», масштабируемый до 16 процессоров и содержащий в каждом двухпроцессорном модуле дисковое хранилище емкостью до 76,8 Тбайт. Он предназначен для поддержки СУБД, задач виртуализации и консолидации, машинного обучения.
«Мы поставляем серверы и другое оборудование, предоставляем комплексные решения, полноценную техническую поддержку производителя и профессиональные услуги, а также решения под ключ для задач корпоративных заказчиков», — сообщил Гоц.
Александр Ермаков: «Работа с Open Source требует глубокой экспертизы и формирования для каждого проекта управляемой команды разработчиков» |
Александр Ермаков, технический директор компании Arenadata, обратил внимание на рост интереса к ПО с открытым кодом, особенно заметный после ухода зарубежных игроков — ведь многие разработчики в корпоративном сегменте увидели в Open Source альтернативу «фирменному» программному обеспечению.
«Действительно, адаптированные к локальным требованиям решения и компоненты Open Source открывают реальный путь к импортозамещению», — подчеркнул Ермаков, отметив существующие на этом пути проблемы и риски.
В области управления данными к ним относятся, в частности, сложность сборки множества компонентов и технологий, трудности поддержки и управления гетерогенной федерацией данных, отсутствие единого поставщика услуг для сопровождения всех продуктов в рамках платформы данных. Основными геополитическими факторами являются возможность прекратить доступ к GitHub и значительный рост в проектах категории Open Source «закладок» — умышленно созданных вредоносных компонентов.
Исходя из своего опыта, в компании Arenadata считают, что работа с Open Source требует глубокой экспертизы и формирования для каждого проекта управляемой команды разработчиков. Чтобы создаваемые на основе Open Source продукты были безопасными и готовыми к развертыванию дистрибутивами, необходимо тщательно анализировать исходный код проекта, исправлять ошибки, оптимизировать существующий функционал, а также проверять совместимость с другими компонентами платформы и обеспечивать наличие компетентного персонала в службе поддержки.
Профессиональные сообщества и ИТ-кадры
Российская экономика испытывает острейший дефицит ИТ-специалистов: на начало 2022 года он оценивался в один миллион человек. Докладчикам форума постоянно задавали вопросы о поиске и обучении CDO, квалификации и экспертизе персонала работы с данными. В решении этих проблем может помочь опыт «Сбера», о котором рассказала Наталья Носенко, руководитель направления в департаменте управления данными SberData.
С 2018 года, после начала трансформации банка в ИТ-компанию, в «Сбере» начали развиваться профессиональные сообщества, число которых в настоящее время превышает два десятка. В сообществе DWH/BigData с двумя сотнями участников и двумя десятками экспертов, где Носенко отвечает за развитие образовательных инициатив, «хотят развивать компетенции, организовывать полезные мероприятия, повышать репутацию центра экспертизы». Носенко отметила важную роль сообщества в обеспечении эффективной взаимосвязи между разработчиками платформ, инженерами по данным, CDO, заказчиками и потребителями данных.
В «Сбере» считают, что профессиональные сообщества удовлетворяют потребности в обмене знаниями, опытом, в общении, мотивируют рост и развитие специалистов. Там намерены распространять этот опыт на сферы, не связанные с ИТ. «Для этого в «Сбере» есть собственная методология SberProfi, а вы можете использовать Community Canvas», — советует Носенко.
***
Кроме того, на форуме «Управление данными — 2022» рассматривались многочисленные практические примеры управления данными на отечественных платформах в различных отраслях российской экономики. Об этом — в отдельной статье.