Придется ли менять подходы, применяемые в организациях в отношении инфраструктуры управления данными, чтобы широко внедрять и успешно использовать решения на основе искусственного интеллекта? И какие дополнительные инструменты помогут справиться с новыми вызовами в области управления данных, возникшими в ходе интеграции ИИ-решений в имеющуюся инфраструктуру данных? Приводим ответы на эти вопросы, которые дали эксперты, планирующие принять участие в девятом форуме «Управление данными».
Что изменится в подходах к управлению данными
По мнению наших экспертов, изменения в подходах могут потребоваться. Правда, катаклизмов революционного характера можно не опасаться.
Андрей Никитин, начальник отдела цифрового моделирования IBS, считает, что переход к широкому использованию ИИ-систем в организации, действительно, потребует значительных изменений в подходах к управлению данными: «Необходимо иметь возможность контролировать качество данных, отслеживать их жизненный цикл, управлять метаданными, обеспечивать сквозное управление информацией и информационную безопасность. Чтобы этого добиться, необходим комплексный подход. Кроме того, нужна трансформация культуры работы с данными в организации, причем не единовременный комплекс мероприятий, а последовательная эволюция подходов к управлению данными, происходящая по мере внедрения ИИ-технологий в компании».
Александр Борисов: «Масштаб изменений будет зависеть от оценки зрелости управления данными и бизнес-задач, реализуемых с помощью ИИ-сервиса» |
Александр Борисов, руководитель направления Data Science в RAMAX Group, считает, что масштабы изменений в подходах напрямую зависят от уровня зрелости управления данными (DMMA) в конкретной организации. «Минимально необходимый уровень управления данными для масштабного внедрения ИИ-сервисов обычно соответствует уровню 3, когда внедрены стандарты Data Governance. Но может потребоваться и переход на уровни 4, где обеспечена возможность измерения характеристик процессов и осуществляется их контроль, или 5, при котором реализована возможность измерения степени достижения целей процессов, — продолжает Борисов. — Таким образом, в каждой конкретной ситуации ответ будет зависеть от оценки зрелости управления данными и бизнес-задач, реализуемых с помощью ИИ-сервиса».
Андрей Беляев: «Для получения максимальной пользы от ИИ необходимо серьезно подойти к обеспечению качества данных и их доступности» |
Андрей Беляев, руководитель направления консалтинга в области данных и аналитики в RNT Group (входит в группу «Рексофт»), отмечает, что для получения максимальной пользы от ИИ необходимо серьезно подойти к обеспечению качества данных и их доступности, в том числе в режиме реального времени. Кроме того, в дополнение к DataOps необходимо выстроить процессы MLOps и LLMOps — они нужны для управления жизненным циклом моделей, хранения и сравнения различных версий, а также онлайн-мониторинга работы всех моделей. «Основными вызовами при внедрении новой инфраструктуры будут сложность интеграции новых компонентов в существующую среду, нехватка квалифицированных кадров, безопасность данных и проблемы масштабирования, — добавляет Беляев. — Также нетривиальным будет решение вопросов этики и регулирования в области ИИ».
Антон Головко: «Изменения наверняка потребуются, если необходима высокая частота сбора данных» |
Антон Головко, специалист по машинному обучению «Инфосистемы Джет», полагает, что изменения в подходах могут потребоваться, если отсутствует сбор или оцифровка каких-то производственных данных, которые нужны для обучения ИИ-моделей. Кроме того, изменения потребуются, если необходима более высокая частота сбора данных.
Вместе с тем, Илья Кулаков, директор департамента перспективных проектов направления Т1 ИИ в холдинге Т1, придерживается мнения о том, что жестких предпосылок для изменений нет: «Если в компании широко развиты практики работы с данными и аналитикой, например, с применением BI-инструментов Self-Service, то необходимости в изменении подходов нет. С точки зрения управления данными, аналитика с помощью ИИ — это всего лишь еще один, причем уже хорошо известный вид аналитики».
Какие дополнительные инструменты управления данными помогут повысить эффективность их использования в ИИ-проектах
Андрей Никитин: «Для эффективного использования инструментов часто требуется не только их внедрение, но и изменение процессов, обучение персонала и, возможно, реорганизация команд» |
Отвечая на этот вопрос, Никитин выделяет несколько ключевых категорий инструментов. В их числе — средства для автоматизированной подготовки данных (например, DataRobot Data Prep или Trifacta), управления качеством данных (такие как Great Expectations или Anomalo), управления версионностью данных (Data Version Control или Pachyderm), каталогизации и поиска (с помощью Amundsen или DataHub), управления потоками данных (Apache NiFi или Prefect), федеративного обучения (TensorFlow Federated или PySyft), мониторинга и отслеживания моделей (MLflow или Weights & Biases), управления данными для больших языковых моделей (LangChain или DeepLake) и для обработки потоковых данных (Apache Kafka или Apache Flink). «Внедрение этих инструментов может значительно улучшить процессы работы с данными при использовании ИИ-систем. Однако важно помнить, что выбор конкретных инструментов должен основываться на специфических потребностях организации, особенностях существующей инфраструктуры и уровне зрелости в области работы с данными и ИИ, — добавляет Никитин. — Для эффективного использования этих инструментов часто требуется не только их внедрение, но и изменение процессов, обучение персонала и, возможно, реорганизация команд с целью обеспечения более тесного сотрудничества специалистов по данным, разработчиков ИИ и бизнес-пользователей».
Илья Кулаков: «Для увеличения эффективности также применяются средства демократизации доступа к данным» |
Кулаков также рекомендует использовать средства управления метаданными — они понадобятся для поиска информационных объектов, создания хранилищ признаков (Feature Store) и регистрации датасетов: «Это открывает возможности повторного и многократного использования разработанных ранее моделей и алгоритмов, объединения моделей в функциональные цепочки. Кроме того, эти инструменты сокращают время на подготовку данных и в итоге увеличивает эффективность разработки моделей машинного обучения и использования в них данных. Для увеличения эффективности также применяются средства демократизации доступа к данным — как интеграционные платформы, так и средства их виртуализации с использованием семантического слоя».
Кроме того, Кулаков призывает обратить внимание на защищенные анклавы данных: «Подобные инструменты представляют собой программно-аппаратные комплексы, позволяющие разместить в них данные и проводить обучение моделей внутри такого ПАК без прямого доступа разработчиков к чувствительному контенту».
Головко поддерживает рекомендацию использовать хранилища признаков в качестве единого интерфейса данных: «Оно позволяет существенно упростить работу специалистов по машинному обучению, поскольку интеграция с существующими потоками данных выполняется всего раз в ходе настройки хранилища признаков, облегчая разработку всех последующих ML-моделей на производстве».
Илья Фомичев: «Сейчас актуальны инструменты не только для предварительной обработки данных, но и для обеспечения их конфиденциальности и шифрования» |
Илья Фомичев, руководитель направления искусственного интеллекта ИТ-компании SimbirSoft, напоминает о важности безопасности данных: «Сейчас актуальны инструменты не только для предварительной обработки данных, но и для обеспечения их конфиденциальности и шифрования». Также он советует взять на вооружение средства управления версионностью данных, такие, например, как Data Version Control (DVC), представляющее собой надстройку над Git.
Таким образом, по мере перехода к широкому использованию ИИ-решений может понадобиться целый спектр новых инструментов для управления данными. Какие-то из них помогут повысить качество данных, другие — ускорить их подготовку, третьи — облегчат использование определенных классов ИИ-систем, и так далее.