Альфа-Банк реализовал AutoML – алгоритмы, позволяющие частично автоматизировать разработку и поддержку моделей машинного обучения. Это радикально сокращает трудозатраты и ускоряет процессы разработки, вывода моделей в среду исполнения, мониторинга и переобучения. О роли проекта рассказывает Александр Блинов, начальник управления повышения эффективности продвинутой аналитики и управления данными Альфа-Банка и номинант на премию Data Award.

- Как Альфа-Банк пришел к реализации проекта AutoML?

В какой-то момент мы поняли, что это самое верное решение из всех возможных. Бизнес осознал, что такое модели машинного обучения и как они могут повлиять на результаты бизнеса, соответственно возросла и потребность в моделях. Действующие модели, которых на тот момент накопилось уже несколько сотен, нужно было обновлять, перерабатывать, переобучать. Это время дата-сайентисты могли бы потратить на новые модели, но были вынуждены переобучать действующие. Кроме того, у нас появилась по-настоящему зрелая инфраструктура: среда разработки, среда исполнения моделей, маркетплейс признаков моделей (Feature Store). Появились и зрелые прототипы решения, которые команды использовали для ускорения и автоматизации своей работы.

Все эти факторы сложились воедино и помогли нам ответить на вопрос, как успеть покрыть потребности бизнеса без кратного увеличения штата сотрудников.

- Насколько это важно для банка?

Количество ML-моделей, задействованных в бизнес-процессах банка, постоянно растет, причем растет многократно. Они помогают в решении огромного количества задач: оптимизации процессов привлечения клиентов, управления рисками, моделирования жизненного цикла клиентов, различных внутренних процессов и пр. Чем точнее работают модели, тем лучше сервис, выше безопасность, надежнее работа банка. При этом многие задачи до сих пор ждут появления своих моделей.

Как только мы переводим решаемую задачу в термины машинного обучения, начинается бесконечная и однообразная рутина: собираем целевую переменную, берем признаки («фичи»), хорошо показавшие себя в соседних задачах, выбираем одну из немногочисленных реализаций бустинга и в автоматическом режиме подбираем гиперпараметры. И чтобы масштабировать ML-модели на основную часть бизнес-задач, нужно провести бесконечное множество таких итераций. При этом нельзя забывать об исследованиях новых источников, обновлениях моделей, работающих в промышленной эксплуатации, во избежание их деградации и экспериментах с новыми подходами.

Для того чтобы масштабировать модельный подход без привлечения огромных человеческих ресурсов и успевать при этом развивать передовые технологии, были разработаны алгоритмы и сервисы, которые автоматизируют большую часть рутины внутри банковского data science.

- Где именно используется AutoML?

У нас есть три ключевых бизнес-сценария применения технологий AutoML.

Первый из них – это создание базовых моделей ML, задающих ориентиры по возможным достижимым метрикам качества и производительности ML-системы. Второй сценарий – авто-переобучение. Он заключается в процессе автоматического обновления моделей в промышленных средах исполнения без вовлечения ресурсов дата-сайентиста и MLOps-инженера. Наконец, автоматизация процесса поиска и тестирования новых фичей в уже имеющихся моделях.

Кроме того, AutoML включает возможность автоматического развертывания моделей, что распространяет использование технологии на более широкий круг дата-сайентистов.

- Откуда берутся данные?

Данные высокого качества доставляются из Feature Store – нашей платформы для централизованного хранения, обработки данных, создания и расчета фичей. Также данные берутся из внутренних и внешних источников.

- Каких эффектов удалось достичь?

Получено около 1 млрд руб. эффекта на всем жизненном цикле проектов.

250 моделей автоматически переобучаются, в том числе каскады моделей. Отмечается увеличение стабильности метрик после переобучения на 20%. 80% наших дата-сайентистов пользуются AutoML.

- Почему AutoML используют не все дата-сайентисты?

На данный момент технология масштабирована только на типовые батч модели, в 2025 году нашей целью будет покрыть более сложные случаи: онлайн- и Uplift-модели, а также модели с более сложными архитектурами. Однако, все еще останутся дата-сайентисты, для чьих задач AutoML не будет подходить в полной мере.

- В целом проект оправдал ожидания?

Да, в этом году мы смогли добиться существенного улучшения DS-процессов в банке, уменьшив рутину для разработчиков и позволив им создавать больше моделей, а также фокусироваться на более сложных моделях. К тому же все цели и метрики, которые мы поставили себе в начале проекта, удалось выполнить, пусть с некоторыми и не было все так гладко.

- В чем «фишка» проекта?

Уникальными особенностями нашего решения являются технологии переобучения моделей в промышленной среде – мы были первыми на рынке, кто разработал такое решение. А также автоматическое развертывание моделей, интеграция в среду дата-сайентистов и общее удобство для пользователя.

- Чего удалось добиться со стратегической точки зрения?

Растет среднее качество моделей за счет большей частоты переобучения (в среднем на 20%), быстрого тестирования и добавления в них новых источников данных, протестировали более 1,5 тыс. фичей. AutoML делает процесс переобучения стабильным и своевременным, что предотвращает деградацию моделей, которая негативно сказывается на бизнес-метриках.

Повышается эффективность ресурса дата-сайентистов: происходит сокращение трудозатрат и ускорение процессов разработки и вывода моделей в среду исполнения, мониторинга, переобучения и тестирования новых источников данных. На данный оптимизирована работа 80% специалистов, и эта цифра продолжает расти.

Применение и распространение AutoML важно, так как ведет к появлению новых задач в планах, и, как следствие, внедрению моделей во все большее число процессов и подразделений банка.

- Каковы направления развития проекта?

Основных направления два. Во-первых, это масштабирование на новые типы моделей, в частности на онлайн-модели, которые являются наиболее сложными, но и наиболее «денежными». Во-вторых, планируем создание инструмента для пользователей не из круга data science – для обычных аналитиков и владельцев продуктов, кто хочет проверять свои гипотезы на основе данных. Конечно, инструмент должен отличаться, так как целевая аудитория совершенно другая: мы не можем требовать от аналитиков и продактов такого же уровня знаний в data science, как и от самих разработчиков.