В условиях динамичного развития инфраструктуры крайне важно контролировать этот процесс, обеспечивая заинтересованных специалистов необходимыми данными. В Сбере с этой целью разработали и запустили «Единую аналитическую систему данных об инфраструктуре», обеспечивающую сквозную аналитику по ключевым процессам жизненного цикла ИТ-инфраструктуры. О реализации этого проекта рассказывает Анастасия Евланова, главный эксперт Управления внедрения технологий защиты инфраструктуры Департамента инфраструктурных решений «Сбера» (SberInfra) и номинант на премию Data Award.
— Что стало причиной создания системы? Какие проблемы требовалось решить?
За последние годы «Сбер» качественно и количественно вырос как в своих прежних банковских продуктах, так и в новых инициативах для клиентов. На каждый продукт, систему, инновацию требуется ИТ-инфраструктура.
Оптимальный жизненный цикл инфраструктуры состоит из четырех основных процессов: планирование, бюджетирование, выдача и эффективная эксплуатация. Именно совместное функционирование этих процессов позволяет эффективно управлять инфраструктурой и обеспечивать внутренние команды ресурсами тогда, когда это необходимо.
До внедрения нашего решения эти процессы были плохо связаны, из-за чего возникали ошибки, так как бизнес-заказчик или другой участник процесса не мог получить сводной информации об инфраструктуре в рамках ландшафта конкретной автоматизированной системы или группы систем.
Идея заключалась в создании системы, обеспечивающей сквозную аналитику по ключевым процессам жизненного цикла ИТ-инфраструктуры.
— Какой выбрали подход, какие требования предъявлялись к создаваемому решению?
Мы руководствуемся мировыми тенденциями внедрения data-driven подхода для принятия решений. В компании уже реализовано не одно решение по сбору и обработке информации, выработаны технические стандарты, но каждый из проектов имеет отдельную бизнес-ценность.
Для нашей системы ключевыми были требования по автоматизации сбора данных из множества внутренних систем, связи этих данных между собой, расчетам метрик и объединении детализированных данных ИТ-инфраструктуры в одном месте – единая система.
Дополнительно, мы сразу закладываем возможность по переходу на self-service аналитику: разовые или неприоритетные аналитические исследования данных важны для конкретных задач, но с ними пользователи могут справиться и самостоятельно после предоставления доступа и обучения.
— В чем суть созданного решения?
«Единая аналитическая система данных об инфраструктуре» решает проблему отсутствия прозрачных и достоверных данных об основных процессах инфраструктуры. В результате получается сквозная аналитика, владелец инфраструктуры может проверить и отследить свое оборудование по всем шагам: заявки при планировании, ее параметры и статус, выделенный бюджет, статус по настройке конкретного оборудования и сроки его выдачи, а также эффективность использования полученной инфраструктуры.
Важно, что данные поставляются оперативно и с гибкими настройками для каждого пользователя – от верхнеуровневых показателей для менеджмента до детальных данных по каждому серверу, ИТ-продукту, приложению и автоматизированной системе.
— Какие данные охватывает система?
Мы получаем данные из внутренних систем, которые собирают информацию о текущем состоянии ИТ-инфраструктуры. К ним относятся данные о загрузке ИТ-инфраструктуры из систем инфраструктурного мониторинга и сбора метрик, данные о характеристиках конфигурационных элементов и их связях с системами банка, информация по управлению этими элементами из системы управления и автоматизации ITIL- и ITSM-процессов банка.
Кроме того, работаем с данными по всему жизненному циклу инфраструктуры. Нами охвачены системы планирования и бюджетирования, система заказа инфраструктуры, система управления внутренним облаком, система управления ресурсными пулами инфраструктуры, система автоматизированного управления ИТ-инфраструктурой.
В хранилище данных построены преобразования данных, расчеты и агрегация в виде витрин в различных временных срезах для отслеживания динамики эффективности использования ИТ-инфраструктуры.
— На какой платформе реализовано решение?
Центром системы стало хранилище для сырых и преобразованных данных на платформе Hadoop, стандартных обвязок с базой метаданных PostgreSQL, сервисами журналирования и мониторинга. Аналитика и визуализация данных реализована на BI-платформе Qlik в виде информационных панелей и дашбордов, логически связанных между собой. Так как конечный пользователь взаимодействует именно с BI-платформой, то ролевая модель с разграничением видимости данных реализована тоже в Qlik.
— Что является «фишкой» решения? Чем можно гордиться?
У нас 16 различных источников данных по ИТ-инфраструктуре, которые мы изучили, связали между собой, рассчитали, автоматизировали сбор, агрегировали, визуализировали и на все это еще и написали документацию. При этом в каждой системе есть свои нюансы, нужно «вычищать» сырые данные от ошибок сканирования или некорректных записей, отлавливать систематические отклонения от процессов и проводить корректировки, понимать и применять методологию расчета, которую нам рассказывают аналитики систем.
Мы смогли разработать витрины, которые показывают данные обо всех аспектах инфраструктуры – утилизация, аллокация на конкретные продукты, финансовые аспекты и прочее – и сделали это не только для облачной инфраструктуры, но и для традиционной legacy. Все это позволяет управлять не только инфраструктурой, но и различными проектами по повышению ее эффективности или отказу от устаревших и высокозатратных решений.
Вызывает гордость и то, сколько людей поучаствовало в реализации этого решения. Мы взаимодействовали практически с каждой командой Департамента инфраструктурных решений: кто-то выступал в роли поставщика требований, другие в роли источника данных, а у кого-то мы были внутренним клиентом.
— Приведите пример того, как изменились работа пользователей благодаря системе.
Во многом у наших пользователей появилась возможность увидеть нужные им данные или витрины. Например, на этапе формулировки требований к отображению инфраструктурного слоя системы контейнеризации приложений на общей ресурсно-сервисной модели и исследования данных владелец продукта нашел проблему в процессе учета и установки конфигураций. После вывода данных на интерфейс он смог контролировать процесс решения этой проблемы в динамике.
— Какие результаты достигнуты и ожидаются?
Мы автоматизировали получение прозрачных и детальных данных обо всех этапах жизненного цикла элементов ИТ-инфраструктуры, начиная от подготовки оборудования до вывода его из эксплуатации, благодаря чему было найдено legacy – неиспользуемое устаревшее оборудование в ЦОДах, а также оптимизировано и перераспределено недостаточно утилизированное используемое оборудование.
Так как данные и соответствующие показатели стали доступнее и прозрачнее для всех участников процесса подготовки новой ИТ-инфраструктуры, то количество выданного оборудования в требуемый срок увеличилось с 58% до 97%.
Благодаря запуску этой системы, банк сэкономил тысячи человеко-часов на трудоемкие ручные выгрузки и расчеты, а менеджмент получил удобную консоль управления процессами.
— Пытались ли оценить эти эффекты в деньгах? И вообще о каких масштабах оптимизации может идти речь?
Мы можем прозрачно оценить влияние оптимизации по внутренней модели тарификации, которую ведут в нашем департаменте. По этой задаче все уже рассчитано: аналитическая система помогла отследить неиспользуемое, низкоутилизированное и неэффективное оборудование, оптимизация которого позволила сократить затраты на новую инфраструктуру на несколько процентов, что в объеме бюджета на ИТ-инфраструктуру – значительные средства.
Объем самой компании «Сбер» колоссальный, для ее функционирования требуется много серверов, систем хранения данных, баз данных. Точные цифры я не могу называть из-за условий неразглашения, но у «Сбера» самый большой ЦОД в России, и при этом он не единственный. И теперь данные об этом оборудовании сведены в одной системе.
— Каковы перспективы развития проекта?
Мы планируем не только дальше увеличивать охват данных и процессов, но и делиться этими данными с другими автоматизированными системами банка по интеграционным взаимодействиям, обеспечивая преемственность методик анализа эффективности бизнес-процессов.
Сейчас смотрим в сторону машинного обучения с целью создания рекомендательной системы по клиентским путям. Внутренние клиенты проходят схожие действия от заявки на сервер до вывода его из эксплуатации. Часть этого пути уже автоматизировано, но вручную найти детали и проблемы остальной части пользовательского пути бывает трудоемко. Поэтому мы решили использовать имеющиеся данные, чтобы сократить трудозатраты и объем ручной работы.
И, конечно, мы планируем перенести BI-платформу на продукт российского вендора или внутренний продукт.