Форум «Управление данными — 2022», в седьмой раз организованный издательством «Открытые системы», состоялся в Москве в конце сентября. В его работе — очно или онлайн — приняли участие более четырехсот специалистов. На форуме обсуждались стратегии, архитектуры и практики работы с данными, приобретающие особое значение в условиях современной трансформации отечественной экономики и изменений ландшафта российского ИТ-рынка.

«Отечественная индустрия данных доказывает свою технологическую независимость и зрелость в столкновении с беспрецедентными вызовами. Сегодня, как никогда, форум — незаменимая площадка для обмена свежими идеями и опытом извлечения ценности из корпоративных данных, который прошел проверку кризисом», — подчеркнул Дмитрий Волков, программный директор форума.

Глобальные тенденции и рекомендации начинающим

«Сегодня, когда глобальная экономическая и политическая турбулентность способна внезапно влиять на потребность предприятий в новой информации, критически важными становятся оперативность и гибкость управления данными», — заявил Максим Григорьев, генеральный директор «Ассоциации ФинТех».

Издержки, связанные с хранением огромных массивов исторических данных, в сложившейся ситуации становятся неоправданными из-за быстрого изменения процессов и тенденций. Такие данные теряют актуальность, вследствие чего устаревают модели машинного обучения и искусственного интеллекта. Поэтому следует использовать новые методы аналитики на основе «малых» и «широких» данных, считают в Gartner. Не нужно бороться за большие данные — необходимо рассчитывать на более современные инструменты работы с данными и искать их инновационные источники, пояснил Григорьев.

Здесь способны помочь такие технологии, как DataOps, ModelOps, DevOps: они поддерживают операционализацию работы с данными, а также позволяют обеспечивать как формирование конвейеров для работы и с данными, и с моделями на базе искусственного интеллекта, так и встраивание искусственного интеллекта в приложения. Очень важным для унифицированного управления разнородными данными становится использование платформ на базе распределенной архитектуры Data Fabric, поскольку оно позволяет выполнять переход от создания хранилищ данных к концепции интеграции их источников.

Таковы глобальные тенденции развития отрасли работы с данными. Но многие отечественные организации еще только приступают к решению подобных задач и хотят понять, что и как нужно делать.

Этим компаниям следует сформировать стратегию на основе собственных задач и лучших практик в данной области, постараться учесть трудности на выбранном пути и оценить возможные риски. Тогда их проекты, может быть, не пополнят список тех 80% инициатив по созданию и развитию систем управления данными, которые, согласно Gartner, не приводят к ожидаемым результатам.

«Система управления данными должна включать не только ИТ-решения, но и соответствующие бизнес-процессы, определенные роли и функции участников таких процессов. Ее внедрение — итеративный процесс, который должен следовать общей методологии и стратегии, а также учитывать возможную вариативность бизнес-процессов. Наиболее эффективный вариант — идти от проблемы», — считает Кирилл Евдокимов, директор практики Data Governance компании Adastra. Он провел мастер-класс, в рамках которого обсуждались практический опыт выстраивания системы управления данными, проблемы развертывания и развития процессов Data Governance, а также пути и причины, приводящие к провалу инициатив.

Кирилл Евдокимов
Кирилл Евдокимов: «Внедрение системы управления данными — итеративный процесс, который должен следовать общей методологии и стратегии, а также учитывать возможную вариативность бизнес-процессов»

При развертывании работы с данными не следует рассчитывать только на CDO, советует Светлана Бова, управляющий директор департамента ИТ-архитектуры банка ВТБ, так как «управление данными пронизывает все бизнес-процессы организации и внедрение практик управления приводит к расширению штата».

Она отметила, что требования к компетенциям в этой области предъявляются не столько к персоналу ИТ, сколько к сотрудникам бизнес-подразделений: именно там на основе данных генерируются идеи о новых процессах и продуктах: «Самое сложное — заинтересовать людей и встроить управление данными в процессы всей организации, реализуя это в едином ритме с управлением изменениями».

Варвара Макарьина, руководитель направления стандартизации данных и управления знаниями компании «Балтика», настоятельно рекомендует уделять повышенное внимание актуальности данных и отображению непрерывно происходящих изменений в важнейшем инструменте описания данных — каталоге данных.

Источники данных могут изменять название и содержание, данные могут менять место своего расположения, возможны модификации процессов их обработки, пояснила она. Критическая утрата актуальности приводит к ошибкам, а также к потере доверия к каталогу данных. Поэтому если не выстроен процесс отслеживания изменений, то самые подробные и актуальные их описания быстро устаревают.

Поддержание актуальности данных — непрерывный процесс. В «Балтике» рекомендуют, помимо прочего, рационально сочетать административные и автоматизированные методы внесения изменений, регулярно привлекать владельцев данных к аудиту источников, проверять реальное наличие ответственных за данные, научиться выделять заявки в ИТ-службу на изменение данных, способные повлиять на их описание, снабдить людей понятными инструкциями работы с каталогом.

Продукты и технологии

Спрос на отечественные программные продукты растет небывалыми темпами. В области управления данными российские организации все глубже погружаются в поиск обеспечивающих технологическую независимость решений, которые создаются на основе отечественных платформ и инструментов. Докладчики представили основные возможности и особенности наиболее известных и перспективных из них.

Многофункциональная платформа «Юнидата» предназначена для построения систем управления корпоративными данными (основными данными и справочной информацией), которые осуществляют централизованный сбор данных, стандартизацию сведений, учет текущей и исторической информации, ведение статистики, а также обеспечивают качество данных.

Алексей Цырюльников
Алексей Цырюльников: «Мы рассматриваем платформу как гибкий и масштабируемый архитектурный подход, предоставляющий набор компонентов, которые обеспечивают функциональность, необходимую каждому предприятию»

«Мы рассматриваем платформу не как конкретный продукт, а как гибкий и масштабируемый архитектурный подход, предоставляющий набор компонентов, обеспечивающих функциональность, необходимую каждому предприятию», — сообщил Алексей Цырюльников, заместитель генерального директора компании «Юнидата».

Такой подход предоставляет возможность объединить разработанные в «Юнидата» технологическую платформу, продукты, методологию управления данными, а также методологию внедрения комплексов управления данными на основе отраслевого опыта партнеров компании.

Разработки «Юнидата», подчеркнул Цырюльников, ориентированы на требования международного рынка продуктов управления данными и отвечают запросам российских компаний на несколько лет вперед.

Максим Шляпнев, директор по развитию BI-направления компании Navicon, также обратил внимание на важность методологии при развертывании решений управления данными. «В таких задачах даже самый хороший продукт — это полдела. Не менее важная часть — внедрение методологии в компании. По усилиям и трудозатратам обе части, как правило, эквивалентны».

Платформа Navicon.MDM, которая, по словам Шляпнева, развивается уже более десятка лет, — это состоящее из нескольких компонентов веб-приложение, которое можно развернуть в облаке и на площадках организаций и интегрировать с их информационными системами. Такое приложение позволяет консолидировать данные различных источников в едином хранилище нормативно-справочной информации и осуществлять контроль качества данных с использованием бизнес-правил. До недавнего времени оно базировалось на технологиях Microsoft, теперь переведено на СУБД PostgreSQL.

«Построение решения управления данными начинается с MDM. Для эффективной работы необходимо определить владельцев данных, сформировать центр компетенции и осуществлять постоянную поддержку пользователей во время внедрения и эксплуатации», — утверждает Шляпнев.

Компания DIS Group, известная как многолетний партнер Informatica, представила на форуме набор отечественных решений Plus7 для комплексной цифровой трансформации предприятий. В его состав входят: платформа автоматизации операционной деятельности Plus7 Forsage Platform; система управления знаниями организаций и корпоративный коммуникационный портал Plus7 MayaK; решение по управлению данными Plus7 EDM; решение по интеграции данных, обеспечению их качества и формированию персонализированной информации Plus7 FormIT.

Plus7 EDM, единая платформа управления информацией о данных, процессах и людях, создана на базе Forsage Platform, разработанной DIS Group. В состав ее основных функций включены: определение и категоризация терминов, классификация объектов метаданных, получение сведений об их владельцах; представление прозрачной структуры метаданных, систем и потоков данных, детальная логика преобразования метаданных, формирование связи технических метаданных с бизнес-глоссарием; единое представление в логической и физической моделях метаданных и в терминах бизнес-глоссария.

«Plus7 EDM — это система управления данными на физическом, логическом и концептуальном уровнях, объединяющая возможности бизнес-глоссария и каталога данных. Она не связана с решениями Informatica», — подчеркнул Олег Гиацинтов, технический директор DIS Group, пояснив, что специалисты DIS Group предоставляют услуги миграции по каждому направлению решений Plus7.

Платформа данных Arenadata EDP пополнилась еще одним комонентом — продуктом Arenadata Catalog. Его начали разрабатывать зимой 2022 года на совместном предприятии «Датакаталог», созданном компанией Arenadata и Luxms, поставщиком систем BI и ETL. По словам Ивана Новоселова, генерального директора «Датакаталога», в этом продукте учтены актуальные требования российских заказчиков и практический опыт внедрения каталогов данных.

К наиболее важным из них, считают разработчики, в первую очередь следует отнести удобство работы с каталогом различных групп специалистов: бизнес-пользователей и аналитиков, заинтересованных в наличии бизнес-терминов и отчетов, а также инженеров и разработчиков, для которых важны технические метаданные. Кроме того, Arenadata Catalog обеспечивает повышение прозрачности и надежности данных, их поиск с учетом качества и специальных требований, соблюдение политик и правил управления данными, выполнение SLA для витрин данных. Для захвата метаданных в Arenadata Catalog применяется Apache Airflow, внутренний депозитарий организован на Postgres, поисковый «движок» в ядре также выполнен на свободном ПО.

Arenadata Catalog рассчитан на средние компании «с достаточно сложно организованными данными», пояснил Новоселов. Выпущен первый релиз, а в октябре начнутся пилотные проекты. Готовится редакция для небольших предприятий. 

Надежда Ларина
Надежда Ларина: «Подход low-code позволяет организовать 'правильную' работу с данными для большинства бизнес-пользователей без помощи разработчиков. Такая демократизация повышает общую культуру управления данными в рамках всей организации»

Компания Visiology, разрабатывающая отечественные BI-решения, анонсировала на форуме выпуск релиза 3.0 своей BI-платформы Visiology, появление которого Алексей Никитин, заместитель генерального директора Visiology, назвал самым значительным шагом за все время развития этого решения.

Основная новая функциональность Visiology 3.0 — поддержка языка запросов DAX (Data Analysis eXpressions), который применяется в пакете облачных сервисов бизнес-аналитики Microsoft Power BI.

«Мы поддерживаем синтаксис языка DAX, но не используем никаких исходных кодов Microsoft: пользователям предоставляется привычный интерфейс DAX», — подчеркнул Никитин. Разработчики считают весьма эффективной для работы с данными поддержку DAX как для начинающих, так и для опытных специалистов, поскольку многие из них уже знакомы с Microsoft Power BI.

Вместе с тем отмечается значительный прирост производительности обработки данных в результате использования модернизированного In-Memory «движка» ViQube 2 в сочетании с новым хранилищем на основе колоночной аналитической СУБД с открытым кодом ClickHouse.

По словам Никитина, переход к языку DAX — важный шаг на пути развития самообслуживания, поскольку пользователи получают возможность самостоятельно проводить глубокий анализ данных. Наряду с этим ожидается формирование экосистемы за счет объединения бывших аналитиков PowerBI. Релиз Visiology 3.1 ожидается в феврале 2023 года.

Концепцию самообслуживания в аналитике реализует поддерживающая разработку low-code платформа Loginom, которая делает доступной для бизнес-пользователей продвинутую аналитику. Создатели платформы более двух десятков лет разрабатывают решения по анализу данных.

Loginom позволяет визуально формировать сценарии анализа данных из готовых компонентов, реализующие как простейшие операции, так и методы Data Mining. Наряду с многократным использованием таких сценариев, в Loginom предусмотрен импорт данных из файлов, баз данных, бизнес-приложений, веб-сервисов, ODBC и других источников, а также доступна работа с такими средствами отображения данных, как OLAP-кубы, таблицы, диаграммы и специализированные визуализаторы.

В Loginom уверены в том, что их платформа способствует вовлечению в корпоративную работу с данными многочисленных сотрудников предприятий, ранее применявших только Microsoft Excel.

«Подход low-code позволяет организовать 'правильную' работу с данными большинства бизнес-пользователей без помощи разработчиков. Такая демократизация повышает общую культуру управления данными в рамках всей организации», — убеждена Надежда Ларина, руководитель направления клиентского сервиса Loginom.

Аппаратные платформы для работы с данными

Такие платформы представил Роман Гоц, основатель компании «ДатаРу». Он пояснил, что «ДатаРу» — это российский вендор с двухлетней историей, основа коллектива которого — специалисты из команды компании Atos. «ДатаРу» поставляет российское ИТ-оборудование и осуществляет его крупноузловую сборку на территории нашей страны. В портфель компании входит серверное оборудование, а также решения для высоконагруженных СУБД и бизнес-критичных приложений, «умной» видеоаналитики, периферийных вычислений и гиперконвергенции. Компания расширяет номенклатуру поставок, добавляя сетевое оборудование, системы хранения данных и другие решения.

Среди продуктов «ДатаРу» можно упомянуть сертифицированный для работы с Astra Linux сервер «Датару БС», масштабируемый до 16 процессоров и содержащий в каждом двухпроцессорном модуле дисковое хранилище емкостью до 76,8 Тбайт. Он предназначен для поддержки СУБД, задач виртуализации и консолидации, машинного обучения.

«Мы поставляем серверы и другое оборудование, предоставляем комплексные решения, полноценную техническую поддержку производителя и профессиональные услуги, а также решения под ключ для задач корпоративных заказчиков», — сообщил Гоц.

Александр Ермаков
Александр Ермаков: «Работа с Open Source требует глубокой экспертизы и формирования для каждого проекта управляемой команды разработчиков»

Александр Ермаков, технический директор компании Arenadata, обратил внимание на рост интереса к ПО с открытым кодом, особенно заметный после ухода зарубежных игроков — ведь многие разработчики в корпоративном сегменте увидели в Open Source альтернативу «фирменному» программному обеспечению.

«Действительно, адаптированные к локальным требованиям решения и компоненты Open Source открывают реальный путь к импортозамещению», — подчеркнул Ермаков, отметив существующие на этом пути проблемы и риски.

В области управления данными к ним относятся, в частности, сложность сборки множества компонентов и технологий, трудности поддержки и управления гетерогенной федерацией данных, отсутствие единого поставщика услуг для сопровождения всех продуктов в рамках платформы данных. Основными геополитическими факторами являются возможность прекратить доступ к GitHub и значительный рост в проектах категории Open Source «закладок» — умышленно созданных вредоносных компонентов.

Исходя из своего опыта, в компании Arenadata считают, что работа с Open Source требует глубокой экспертизы и формирования для каждого проекта управляемой команды разработчиков. Чтобы создаваемые на основе Open Source продукты были безопасными и готовыми к развертыванию дистрибутивами, необходимо тщательно анализировать исходный код проекта, исправлять ошибки, оптимизировать существующий функционал, а также проверять совместимость с другими компонентами платформы и обеспечивать наличие компетентного персонала в службе поддержки.

Профессиональные сообщества и ИТ-кадры

Российская экономика испытывает острейший дефицит ИТ-специалистов: на начало 2022 года он оценивался в один миллион человек. Докладчикам форума постоянно задавали вопросы о поиске и обучении CDO, квалификации и экспертизе персонала работы с данными. В решении этих проблем может помочь опыт «Сбера», о котором рассказала Наталья Носенко, руководитель направления в департаменте управления данными SberData.

С 2018 года, после начала трансформации банка в ИТ-компанию, в «Сбере» начали развиваться профессиональные сообщества, число которых в настоящее время превышает два десятка. В сообществе DWH/BigData с двумя сотнями участников и двумя десятками экспертов, где Носенко отвечает за развитие образовательных инициатив, «хотят развивать компетенции, организовывать полезные мероприятия, повышать репутацию центра экспертизы». Носенко отметила важную роль сообщества в обеспечении эффективной взаимосвязи между разработчиками платформ, инженерами по данным, CDO, заказчиками и потребителями данных.

В «Сбере» считают, что профессиональные сообщества удовлетворяют потребности в обмене знаниями, опытом, в общении, мотивируют рост и развитие специалистов. Там намерены распространять этот опыт на сферы, не связанные с ИТ. «Для этого в «Сбере» есть собственная методология SberProfi, а вы можете использовать Community Canvas», — советует Носенко.

***

Кроме того, на форуме «Управление данными — 2022» рассматривались многочисленные практические примеры управления данными на отечественных платформах в различных отраслях российской экономики. Об этом — в отдельной статье.