Инфраструктура управления данными для искусственного интеллекта

Системы, использующие инструменты искусственного интеллекта, сегодня внедряют многие компании, и логично предположить, что для успешного обучения, инференса и дообучения моделей может потребоваться определенная инфраструктура работы с данными. Придется ли менять подходы, уже применяемые в организациях в отношении инфраструктуры управления данными, чтобы без потери эффективности масштабировать решения на основе искусственного интеллекта? Какие дополнительные инструменты помогут справиться с новыми вызовами в области управления данными при интеграции ИИ-решений в унаследованную инфраструктуру? О том, какая именно нужна инфраструктура и инструменты для обеспечения данными систем ИИ, рассказывают эксперты форума «Управление данными 2024».

Опрошенные эксперты представили панорамное видение инфраструктуры, которую необходимо выстроить для успешного применения ИИ в бизнесе. Как отметил Антон Головко, ответ на вопрос о том, какой должна быть инфраструктура управления данными для систем с ИИ, в первую очередь зависит от потребностей конкретного бизнеса. Также, конечно, необходимо учитывать особенности имеющейся архитектуры данных и уже выстроенных процессов их обработки. «Если процессы относительно простые, источников данных немного, а машинное обучение рассматривается как инструмент для решения одной-двух задач, то сложная инфраструктура данных не нужна, — считает Головко. — Если же речь идет о крупном производстве с большим количеством потенциальных задач, то уже на ранних этапах проекта стоит собрать большое количество качественных данных. В случае с классическими задачами машинного обучения, когда мы имеем дело со структурированными данными, наилучшим решением будет использование хранилища признаков (Feature Store) — оно предоставляет для ИИ единый интерфейс, с которым специалисты по машинному обучению будут работать, не задумываясь об изначальной архитектуре данных. В случае с языковыми моделями и видеоаналитикой предпочтительнее задействовать объектное хранилище, если объем данных невелик, или озеро данных, если данных много».

Эксперты

Андрей Беляев (info@reksoft.ru) — руководитель направления консалтинга в области данных и аналитики, RNT Group (ГК «Рексофт»)

Александр Борисов (info@ramax.ru) — руководитель направления Data Science, RAMAX Group

Антон Головко (info@jet.su) — специалист по машинному обучению, «Инфосистемы Джет»

Илья Кулаков (info@t1.ru) — директор департамента перспективных проектов направления Т1 ИИ, холдинг Т1

Андрей Никитин (ibs@ibs.ru) — начальник отдела цифрового моделирования, IBS

Илья Фомичев (info@simbirsoft.com) — руководитель направления искусственного интеллекта, SimbirSoft

Андрей Никитин: «В большинстве случаев организации сталкиваются с необходимостью умеренных изменений»o

По мнению Андрея Никитина, для эффективного управления данными в системах на базе ИИ первостепенное значение имеют хранилища данных, системы ETL, управления метаданными, инструменты для обеспечения качества и валидации данных, а также инструменты контроля версионности данных и моделей. «Все эти компоненты формируют основу и обеспечивают базовые возможности для работы с данными. На их основе строятся все остальные элементы инфраструктуры, — поясняет Никитин. — Также потребуются инфраструктура для экспериментов в области машинного обучения, системы оркестрации и автоматизации, инструменты мониторинга и ведения системных журналов, средства информационной безопасности и управления доступом. Прочие компоненты зачастую могут быть добавлены или модернизированы позже, по мере развития и усложнения систем на базе ИИ».

Андрей Беляев исходит из того, что инфраструктура управления данными для ИИ представляет собой развитую форму платформ и фабрик данных предыдущего поколения: «Внедрение ИИ, и это стало особенно заметно с распространением генеративного ИИ, приводит к увеличению объемов неструктурированных данных, которые организация берется анализировать. Поэтому необходимо научиться хранить, эффективно обрабатывать и безопасно предоставлять потребителям массивы текстов, изображений и видео. Также могут потребоваться вычислительные мощности со специализированными процессорами (GPU, TPU и пр.) или внешние сервисы, предоставляющие API-интерфейсы к моделям машинного обучения. Следовательно, может понадобиться облачная или гибридная инфраструктура».

Илья Фомичев: «Чтобы подготовка и предоставление данных выстроились в стабильный процесс, важно правильно организовать работу специалистов, отвечающих за различные инструменты инфраструктуры данных»

«Чтобы успешно работать с данными, нужно их где-то хранить, — соглашается с коллегами Илья Фомичев. — Для больших объемов неструктурированных данных принято использовать распределенные файловые системы вроде HDFS. В какой-то момент объемы данных могут сильно вырасти, а скорость доступа к ним может замедлиться, и тогда на помощь приходят инструменты ETL. Для формирования адекватной инфраструктуры управления данными также необходимы инструменты для очистки, управления версиями, визуализации и быстрой интеграции данных. При этом ключевыми аспектами будут постоянная доступность и масштабируемость хранилищ, поскольку для работы алгоритмов ИИ важны гибкость и непрерывное получение данных. И, конечно же, чтобы подготовка и предоставление данных выстроились в стабильный процесс, важно правильно организовать работу специалистов, отвечающих за различные компоненты инфраструктуры данных». Впрочем, как отмечает Фомичев, для некоторых систем, например, работающих на основе поисковой расширенной генерации (Retrieval Augmented Generation), могут потребоваться векторные СУБД. При объеме баз свыше 10 тыс. векторов следует выбирать те, что наиболее точно соответствуют особенностям и целям ИИ-проекта.

Илья Кулаков: «Ключевым элементом инфраструктуры управления данными для поддержки систем на базе машинного обучения является максимально гибкая платформа хранения данных»

Илья Кулаков полагает, что ключевым элементом инфраструктуры управления данными для поддержки систем ИИ является максимально гибкая платформа хранения данных, позволяющая работать как со структурированными, так и с неструктурированными данными, формировать ограниченные персистентные наборы данных, максимально легко масштабироваться и использоваться для вычислений. Для разработки и тестирования идеальным будет применение облачной платформы, а также песочниц. «Второй по значимости элемент — интеграционная платформа, позволяющая пользователям самостоятельно выстраивать сложные потоки сбора и формирования данных, — так расставляет приоритеты Кулаков. — На третьем месте — управление неструктурированным контентом. На базе управления метаданными будет строиться критически важный функционал регистрации наборов данных, хранилищ признаков, управление конвейерами моделей и интеграций. При этом важным фактором для таких задач, как рекомендации и оптимизация, когда отклик от системы необходимо получать в реальном времени, является не только скорость передачи и обработки данных, но и качество ответа, поэтому при проектировании платформы не стоит забывать про методы и инструменты контроля качества стриминговых данных».

Александр Борисов: «Критическое значение приобретают компоненты, обеспечивающие качество данных, мониторинг пайплайнов данных, а также контроль дрифта данных»

Поскольку точность прогнозов ИИ-систем напрямую связана с данными на «входе», критическое значение приобретают компоненты, обеспечивающие качество данных, мониторинг конвейеров данных, а также контроль их дрифта, уверен Александр Борисов: «Качество данных наиболее важно для систем на основе классических алгоритмов машинного обучения, использующих табличные данные. Мониторинг пайплайнов данных востребован во всех перечисленных типах ИИ-систем, а контроль дрифта — для классического машинного обучения и видеоаналитики. Для больших языковых моделей и генеративного ИИ также будут полезны специальные модули безопасности, предотвращающие атаки через запрашиваемые данные (Prompt Injection)».

Насколько могут быть масштабны изменения в уже имеющейся инфраструктуре данных?

В оценках масштабов изменений в инфраструктуре управления данными при реализации ИИ-проектов эксперты разошлись во мнениях.

Антон Головко: «При наличии хранилища признаков потребуется интеграция ИИ-систем с существующей архитектурой. Для этого достаточно лишь настроить дополнительный интерфейс доступа»

Так, по наблюдениям Головко, менять существующую архитектуру зачастую не требуется: «При наличии хранилища признаков потребуется интеграция ИИ-систем с существующей архитектурой. Для этого достаточно лишь настроить дополнительный интерфейс для доступа ИИ-решения к имеющимся системам. В объектные хранилища и озера данных могут сгружаться имеющиеся данные из смежных систем, и уже откуда будет предоставляться доступ к данным для ИИ-систем».

Кулаков считает, что при наличии развитого озера данных и общей демократизации данных потребуются минимальные изменения. «Но если в компании нет возможности легко собрать датасет, разместить его в песочнице и обработать, то успешно внедрить и использовать ИИ-решение будет крайне сложно, — продолжает Кулаков. — Оптимальным подходом в данном случае будет проведение локального замера времени, требуемого на подготовку данных (time-to-data) для одного модельного варианта применения, и оценка приемлемости этих сроков для конкретной задачи. Архитектура данных при внедрении ИИ-решения не должна претерпеть существенного изменения в ядре и в основных потоках транзакционных данных — в жизненном цикле должно появиться еще одно ответвление на архивацию для последующего использования данных для машинного обучения. Кроме того, для ИИ-решения может потребоваться подключение новых поставщиков данных, но это типично для любой аналитической системы».

Андрей Беляев: «Хорошая новость в том, что можно двигаться быстро, опираясь на предыдущий опыт»

«Хорошая новость в том, что эволюционный шаг в развитии инфраструктуры данных при внедрении ИИ-решений основывается на уже имеющихся системах управления данными, а также на культуре данных и аналитики — можно двигаться быстро, опираясь на предыдущий опыт», — утверждает Беляев.

По мнению Борисова, масштаб изменений зависит как от конкретной имплементации процессов управления данными, так и от требований к данным со стороны внедряемого ИИ-решения: «Планирование изменений относится к числу проектных активностей и будет сугубо индивидуальным в каждом конкретном случае. Общим требованием для таких проектов является согласование процессов управления данными и управления жизненным циклом моделей машинного обучения. Другими словами, необходимо реализовать связку Data Governance и MLOps».

Никитин уверен, что масштаб необходимых изменений будет варьироваться. В частности, он зависит от уровня зрелости компании. «Например, если организация уже имеет современную, масштабируемую инфраструктуру данных, то, возможно, потребуются лишь минимальные изменения — добавление специфических ИИ-компонентов, таких как платформа для экспериментов в области машинного обучения или система контроля версионности моделей. И напротив, если имеющаяся инфраструктура существенно устарела или не соответствует требованиям ИИ-системы, то могут потребоваться масштабные изменения или полный пересмотр архитектуры. Естественно, это всегда сопряжено со значительными инвестициями в оборудование и программное обеспечение».

С точки зрения Никитина, зачастую внедрение ИИ-решений выливается не просто в добавление нового инструмента, а в фундаментальные изменения в работе с данными и принятие решений. Поэтому он рекомендует придерживаться поэтапного подхода к проведению изменений, начиная с пилотных проектов и затем постепенно масштабируя инфраструктуру данных по мере роста потребностей и компетенций в области ИИ.

Что изменится в подходах к управлению данными?

По мнению экспертов, могут потребоваться изменения в подходах, однако революционных подвижек можно не опасаться.

Андрей Никитин считает, что переход к широкому использованию ИИ-систем в организации действительно потребует значительных изменений в подходах к управлению данными: «Необходимо иметь возможность контролировать качество данных, отслеживать их жизненный цикл, управлять метаданными, обеспечивать сквозное управление информацией и информационную безопасность. Чтобы этого добиться, необходим комплексный подход. Кроме того, нужна трансформация культуры работы с данными в организации, причем не единовременный комплекс мероприятий, а последовательная эволюция подходов к управлению данными, происходящая по мере внедрения ИИ-технологий в компании».

Александр Борисов считает, что масштабы изменений в подходах напрямую зависят от уровня зрелости управления данными (DMMA) в конкретной организации: «Минимально необходимый уровень управления данными для масштабного внедрения ИИ-сервисов обычно соответствует уровню 3 — внедрены стандарты Data Governance. Но может потребоваться и переход на уровни 4 — обеспечена возможность измерения характеристик процессов и осуществляется их контроль, или 5 — реализована возможность измерения степени достижения целей процессов, — продолжает Борисов. — Таким образом, в каждой конкретной ситуации ответ будет зависеть от оценки зрелости управления данными и бизнес-задач, реализуемых с помощью ИИ-сервиса».

Инфраструктура управления данными для искусственного интеллекта

Андрей Беляев отмечает, что для получения максимальной пользы от ИИ необходимо серьезно подойти к обеспечению качества данных и их доступности, в том числе в режиме реального времени. Кроме того, в дополнение к DataOps необходимо выстроить процессы MLOps и LLMOps — они нужны для управления жизненным циклом моделей, хранения и сравнения различных версий, а также онлайн-мониторинга работы всех моделей. «Основными вызовами при внедрении новой инфраструктуры будут сложность интеграции новых компонентов в существующую среду, нехватка квалифицированных кадров, безопасность данных и проблемы масштабирования, — добавляет Беляев. — Также нетривиальным будет решение вопросов этики и регулирования в области ИИ».

Антон Головко полагает, что изменения в подходах могут потребоваться, если отсутствует сбор или оцифровка производственных данных, которые нужны для обучения моделей ИИ. Кроме того, изменения потребуются, если необходима более высокая частота сбора данных.

Вместе с тем Илья Кулаков придерживается мнения о том, что нет жестких предпосылок для изменений: «Если в компании широко развиты практики работы с данными и аналитикой, например, с применением BI-инструментов Self-Service, то необходимости в изменении подходов нет. С точки зрения управления данными, аналитика с помощью ИИ — это всего лишь еще один, причем уже хорошо известный вид аналитики».

Какие дополнительные инструменты управления данными помогут повысить эффективность их использования в ИИ-проектах?

Отвечая на этот вопрос, Никитин выделяет несколько ключевых категорий инструментов: средства для автоматизированной подготовки данных (например, DataRobot Data Prep или Trifacta); управление качеством данных (такие как Great Expectations или Anomalo); управление версионностью данных (Data Version Control или Pachyderm); каталогизация и поиск (Amundsen или DataHub); управление потоками данных (Apache NiFi или Prefect); федеративное обучение (TensorFlow Federated или PySyft); мониторинг и отслеживание моделей (MLflow или Weights & Biases); управление данными для больших языковых моделей (LangChain или DeepLake); обработка потоковых данных (Apache Kafka или Apache Flink). «Внедрение подобных инструментов может значительно улучшить процессы работы с данными при использовании ИИ-систем. Однако важно помнить, что выбор конкретных средств должен основываться на специфических потребностях организации, особенностях существующей инфраструктуры и уровне зрелости в области работы с данными и ИИ, — добавляет Никитин. — Для эффективного использования этих инструментов часто требуется не только их внедрение, но и изменение бизнес-процессов, обучение персонала и, возможно, реорганизация команд с целью обеспечения более тесного сотрудничества специалистов по данным, разработчиков ИИ и бизнес-пользователей».

Кулаков также рекомендует использовать средства управления метаданными — они понадобятся для поиска информационных объектов, создания хранилищ признаков (Feature Store) и регистрации датасетов: «Это открывает возможности повторного и многократного использования разработанных ранее моделей и алгоритмов, объединения моделей в функциональные цепочки. Кроме того, эти инструменты сокращают время на подготовку данных и в итоге увеличивают эффективность разработки моделей машинного обучения и использования в них данных. Для увеличения эффективности также применяются средства демократизации доступа к данным — как интеграционные платформы, так и средства их виртуализации с использованием семантического слоя». Кроме того, Кулаков призывает обратить внимание на защищенные анклавы данных: «Подобные инструменты представляют собой программно-аппаратные комплексы, позволяющие разместить в них данные и проводить обучение моделей без прямого доступа разработчиков к чувствительному контенту».

Головко поддерживает рекомендацию использовать хранилища признаков в качестве единого интерфейса данных: «Оно позволяет существенно упростить работу специалистов по машинному обучению, поскольку интеграция с существующими потоками данных выполняется лишь раз в ходе настройки хранилища признаков, облегчая разработку всех последующих ML-моделей на производстве».

Илья Фомичев напоминает о важности безопасности данных: «Сейчас актуальны инструменты не только для предварительной обработки данных, но и для обеспечения их конфиденциальности и шифрования». Также он советует взять на вооружение средства управления версионностью данных, такие, например, как Data Version Control (DVC), представляющее собой надстройку над Git.

***

В целом эксперты сходятся во мнении о том, что реализация ИИ-проектов и внедрение ИИ-решений не приведут к тектоническим сдвигам в инфраструктуре управления данными. Тем не менее определенные изменения могут потребоваться — в зависимости от того, насколько имеющаяся инфраструктура соответствует требованиям, предъявляемым со стороны систем на базе ИИ. Кроме этого, по мере перехода к широкому использованию ИИ могут понадобиться новые инструменты для повышения качества данных, ускорения их подготовки, а также средства для облегчения использования определенных классов ИИ-систем.

Михаил Зырянов (mikez@osp.ru) — шеф-редактор, OSP.RU (Москва).