Компания Hitachi Vantara представила новые решения для управления процессами машинного обучения, которые позволят получать нужные результаты быстрее и с меньшими рисками благодаря упрощению процесса обновления моделей. Новые разработки представляют собой плагины, доступные в Pentaho Marketplace. В дальнейшем планируется интегрировать их в решение Pentaho Data Integration.
В компании отмечают, что после того, как модель машинного обучения запущена в продуктивную эксплуатацию, необходимо постоянно осуществлять ее мониторинг, тестирование и переобучение в соответствии с меняющимися условиями среды, а после этого развертывать и запускать модель повторно. По данным исследования Ventana Research, две трети предприятий не автоматизировали этот процесс, в результате менее четверти моделей машинного обучения обновляется ежедневно, около одной трети обновляется еженедельно, и более половины – ежемесячно. Вместе с тем, использование устаревших моделей может привести к дополнительным рискам, поскольку после перезапуска модели точность прогнозирования заметно снижается, а их качество ухудшается.
Разработанные в Hitachi Vantara новые возможности для управления моделями интеллектуальной обработки данных позволяют усовершенствовать процессы машинного обучения, помогая правильно оценить модели и повысить их точность до запуска модели в продуктивную эксплуатацию, при этом подготовка данных с учетом специфики конкретных алгоритмов выполняется автоматически. Для дальнейшей настройки моделей предусмотрены возможности для их тестирования с использованием различных методик перекрестной проверки и вневыборочной оценки. Кроме того, новые функции позволяют повысить точность прогнозов, используя для этого комплекс оценочных средств, выявляющий модели, которые дают неточные показания. Анализировать качество работы и выявлять ошибки помогут разнообразные средства визуализации и создания отчетов. Также предусмотрены возможности для проведения A/B-тестирования путем сопоставления моделей друг с другом. В число новых функций включены и средства для совместной работы и оперативного управления, способствующие более эффективному взаимодействию сотрудников и позволяющие контролировать происхождение данных и обеспечить прозрачность их источников, а также стандартизировать алгоритмы и обеспечить возможность их повторного применения.