Искусственный интеллект приносит массу практической пользы предприятиям в системах распознавания мошенничеств, чатботах службы поддержки, решениях прогнозной аналитики и не только. Но можно ли применять ИИ для более глобальных задач предприятия, в частности, для управления и интеграции данных?
Интеллектуальные технологии уже используются для обуздания хаоса корпоративных данных, но отраслевые эксперты сходятся во мнении о том, что при этом используется лишь малая толика доступных возможностей. Крупные поставщики систем интеграции — Informatica, IBM и SnapLogic автоматизируют некоторые задачи с помощью машинного обучения, а ряд новых компаний, таких как Tamr, Cinchy и Monte Carlo, положили интеллектуальные средства в основу своих разработок. Однако никто из них не приблизился к созданию решений, обеспечивающих сквозную автоматизацию процессов управления и интеграции данных.
Такой возможности пока нет — без участия человека учесть все возможные нюансы интеграции невозможно, не говоря уже об автоматизации преобразования запутанных архитектур данных предприятия. Но благодаря ИИ и машинному обучению можно существенно уменьшить объем ручного труда, автоматизировав каталогизацию, построение конвейеров и повышение качества данных.
Большинство предприятий сегодня применяют большое количество хранилищ данных для разных приложений и многочисленные инструменты управления данными, не всегда взаимодействующие друг с другом. Налаживать связь между ними помогают системы интеграции, полностью автоматизировать работу которых нельзя — участие человека нужно даже при решении простых с виду задач вроде определения того, относятся ли записи с одинаковым именем клиента к одному и тому же лицу. Соответствующие правила интеграции составляются людьми, и количество таких правил может исчисляться сотнями тысяч. Но если снабдить системы управления нормативно-справочной информацией механизмами обучения, они могли бы запоминать принципы составления правил и частично автоматизировать процедуру. Со временем при появлении новых источников данных или изменении форматов интеллектуальная система могла бы автоматически адаптироваться.
Каталогизация данных частично автоматизирована с помощью функций машинного обучения в системах Informatica CLAIRE и IBM Watson Knowledge Catalog. Каталогизация — первый этап формирования «матрицы данных» (data fabric), «лоскутного одеяла» всех полезных данных на предприятии. Такая матрица управляется с помощью метаданных — сопутствующей информации, которая может включать, например, сведения о закономерностях работы сотрудников с клиентами и данными, размещения и передачи данных и др. Движки систем интеграции, основанные на машинном обучении, автоматизируют сбор и анализ метаданных, помогая извлекать из них полезную информацию и формировать конвейеры.
Подобная функциональность есть у Informatica CLAIR и облачной платформы интеграции SnapLogic. Последняя запоминает особенности построения конвейеров разными клиентами и с учетом этих сведений дает рекомендации новым пользователям.
Наибольшую пользу искусственный интеллект на сегодня приносит в деле обеспечения качества данных — благодаря способности обучаться системы предлагают новые правила и корректировки с учетом обнаруженных закономерностей, которые при больших объемах данных человеку заметить трудно. Автоматизация обеспечения качества приносит немало пользы исследователям данных, которые 80% своего времени тратят на очистку и подготовку информации.
Смежная область, автоматизируемая средствами ИИ, — оперативный контроль данных (data observability), осуществляемый по мере их прохождения через конвейер с идентификацией проблем качества. К примеру, системы Anomolo и Monte Carlo с помощью механизмов машинного обучения следят сразу за многими характеристиками качества, включая точность, полноту, консистентность, уникальность, оперативность и достоверность. Такой контроль относится к процедурам DataOps, в рамках которых выполняется непрерывное тестирование компонентов конвейеров данных — информационных панелей, задач извлечения, трансформации и загрузки и др. Здесь есть простор для дополнительной автоматизации — например, после внесения корректировки человеком система могла бы в дальнейшем делать аналогичные исправления самостоятельно.
Со временем интеллектуальные технологии позволят автоматизировать все больше этапов управления и интеграции данных, включая обнаружение, сопоставление, преобразование, конвейеризацию и не только. Благодаря этому львиную долю рутинной работы, которую сейчас выполняют администраторы, аналитики и исследователи данных, можно будет устранить.