Почему «Аэрофлот» предпочел создать собственный резервный ЦОД? «С одной стороны, аренда ресурсов ЦОД в Московском регионе обошлась бы слишком дорого — расценки, скажем, в Далласе (штат Техас) на порядок ниже, правда, задержка сигнала, если арендовать вычислительные мощности в Штатах, слишком велика, — поясняет Кирилл Богданов, заместитель генерального директора по ИТ компании «Аэрофлот». — С другой — коммерческие ЦОД, с которыми велись переговоры, не пожелали подписывать с нами SLA — вероятно, опасались, что не смогут соответствовать нашим требованиям в части непрерывности и доступности ИТ-сервисов, а также защиты персональных данных наших клиентов».
Требования в отношении непрерывности и доступности ИТ-сервисов и в самом деле высокие. По мере увеличения интенсивности авиаперевозок «Аэрофлот» стал зависеть от ИТ все сильнее и сильнее. Если в 2009 году «Аэрофлот» выполнял в среднем 150–160 рейсов в сутки на вылет и столько же на прилет, то сейчас — примерно по 250 рейсов в сутки на прилет и на вылет. Интервалы между взлетами и посадками отдельных самолетов сократились до нескольких минут. В этих условиях практически любой сбой способен вызвать «эффект домино» — существенно нарушить график движения самолетов и, как следствие, породить весьма серьезную волну нареканий со стороны недовольных пассажиров, широкий резонанс в обществе и в конечном итоге привести к заметным финансовым и репутационным потерям.
«Мы убедились в том, что модульность — это очень удобно, а потому будем развивать оба наших ЦОД на модульной основе», Кирилл Богданов, заместитель генерального директора по ИТ компании «Аэрофлот» |
Непрерывность бизнеса — это непрерывность ИТ
Действия компании «Аэрофлот» в чрезвычайных ситуациях курирует производственный блок. «Возглавляет эту работу департамент планирования и координации операционной деятельности — самое важное подразделение с точки зрения непрерывности производственного цикла. Оно отвечает за своевременное отправление, прибытие всех рейсов и выстраивание всего комплекса наземного обслуживания пассажиров, их багажа, обработки грузов и пр.», — рассказывает Богданов. Если какой-то из ИТ-сервисов перестает быть доступным, то, как правило, именно это подразделение первым бьет тревогу. Подразделение это работает круглосуточно, поэтому и его ИТ-поддержка обеспечивается круглосуточно. Сбой в графике на один час рассматривается как форс-мажорная ситуация, и если она возникает, авиакомпания принимает все возможные меры по ее разрешению.
Второй по важности департамент с точки зрения непрерывности его ИТ-поддержки — департамент производства полетов, он обеспечивает подготовку экипажей летчиков и бортпроводников перед полетами, в том числе разрабатывает задания на полет, готовит навигационные карты маршрутов, инструкции по взлету и посадке, проводит инструктаж экипажей и пр. «Сейчас практически вся документация на полет самолетов A-320 передается экипажам в электронном виде, — отмечает Богданов. — Для сравнения: в бумажном виде она весит около 30 кг на относительно небольшой рейс и около 50 кг — на дальний рейс. Электронная документация записывается на ноутбуки, на борту их должно находиться два — таким образом документация дублируется». В 2014 году компания планирует существенно расширить перечень самолетов, для которых документация на полет будет готовиться в электронном виде.
Третий по важности — департамент наземного обеспечения перевозок, его ключевая функция — регистрация пассажиров. Непрерывность ИТ-услуг для бэк-офисных служб, а также подразделений продаж обеспечивается с меньшим приоритетом.
Таким образом, наиболее критичная к сбоям система обеспечивает управление отправкой и прибытием рейсов. Вторые по критичности — система регистрации пассажиров, багажа и грузов вместе с приложениями, с которыми она интенсивно работает, а также системы, обеспечивающие подготовку экипажей к полетам (включая летные задания, метеопрогнозы). Бэк-офисные системы — третьи по уровню критичности.
«Практически весь бизнес нашей авиакомпании построен на базе ИТ, и за все вопросы, касающиеся непрерывности ИТ-сервисов, отвечаю я. В моем распоряжении есть специальная бригада из полусотни сотрудников, которые в случае необходимости немедленно приступают к активации резервных сервисов и каналов связи — соответствующую команду даю им лично я. Обычно эти бригады обеспечивают полную готовность резервных систем к работе за 3–4 минуты. Если сбой оказался настолько серьезным, что его не удалось устранить в течение часа, то эти специалисты оповещают меня».
Разработкой регламентов восстановления ИТ-сервисов после сбоя занималось ИТ-подразделение, согласовывая практически каждый шаг этого плана с производственными структурами. В частности, согласовывались допустимые сроки переключения сервисов на резервные мощности.
В 2012 году в одном из помещений основного ЦОД
«Аэрофлота» (он построен в 2010 году в местечке Мелькисарово под Москвой) был создан ситуационный центр, в нем собраны терминалы всех производственных систем, а также коммуникационное оборудование и средства связи с экипажами самолетов, выполняющих рейсы, и с подразделениями, обеспечивающими наземное обслуживание. При возникновении масштабных форс-мажорных обстоятельств ситуационный центр дает возможность перейти на «ручное управление» авиакомпанией. Для этого руководство авиакомпании дает команду на активацию одного из разработанных заранее планов действий в условиях чрезвычайных ситуаций, в этих планах детально определены роли и границы ответственности должностных лиц, а также последовательность действий, которые необходимо предпринять. Раз в год в компании проводятся масштабные учения — отрабатывается слаженность всех, кто задействован в планах на случай ЧП.
Контейнеры для облаков
По мере усиления требований к непрерывности ИТ-сервисов росли и требования к резервированию мощностей для их предоставления. В 2012 году руководство компании приняло решение о строительстве собственного резервного ЦОД в 10 км от основного.
Для резервного ЦОД были выбраны модульные технологии. На специально подготовленной железобетонной площадке установили модули, выполненные на базе решения «ИТ Экипаж» компании «Техносерв». Десять из них содержали компьютерное оборудование компании HP и инженерное оборудование, в одном были рабочие места для персонала, в двух модулях — системы бесперебойного электропитания, способные снабжать резервный ЦОД электричеством в течение часа, еще в одном — дизель-генератор, который должен запуститься максимум за 30 мин. после возникновения сбоя. Модули расположены в два яруса: на нижнем — инженерное оборудование, на верхнем — серверное. Емкость ЦОД сейчас составляет 56 серверных стоек. Как утверждают разработчики модулей, надежность работы серверного оборудрования обеспечивается на уровне не ниже Tier III по классификации Uptime Institute.
На строительство резервного ЦОД ушло полгода. Проект был выполнен по лизинговой схеме, организованной подразделением финансовых услуг НР в России.
«Модульный подход помог обеспечить нам масштабируемость, теперь мы сможем, если потребуется, легко нарастить серверные мощности и инженерную инфраструктуру — это и в самом деле несложно, поскольку мы не ограничены рамками отдельного помещения, — поясняет Богданов. — Мы убедились, что модульность — это очень удобно, а потому будем продолжать развивать оба наших ЦОД на модульной основе».
Ресурсы резервного ЦОД отданы в распоряжение двух облаков. В одном размещены резервные системы, они активируются, если выходит из строя основной ЦОД. Второе облако охватывает часть физических серверов в основном ЦОД и часть — в резервном, оно предназначено для тестирования новых функций и обновлений к имеющимся, а также для обучения сотрудников.
На базе основного ЦОД работает облако, в котором размещаются системы, находящиеся в промышленной эксплуатации. В настоящее время в компании используются три основные платформы. Первая — система бронирования билетов Sabre, на ее основе также реализована система управления доходами от услуг авиаперевозки, тарифами, с ее помощью рассчитывается доходность рейсов в зависимости от выбранного маршрута полетов и пр. Бронирование авиабилетов обеспечивают серверы, расположенные в Далласе, функции, связанные с расчетами для нужд самого «Аэрофлота», — собственные серверы авиакомпании. Вторая прикладная платформа — SAP, на ней работает весь бэк-офис компании. Третья платформа — Sirax AirFinance, разработка компании Lufthansa Systems (входит в состав Lufthansa Group), на ее базе реализована ИТ-поддержка наземного обслуживания рейсов, в частности — управления потоками транзитных пассажиров и учета фактических доходов.
Развитие на основе ИТ
Дальнейшая судьба компании будет неразрывно связана с ИТ не только потому, что зависимость от ИТ с каждым годом только растет, но и потому, уверен Богданов, что успехи блока ИТ благоприятно сказываются на ключевых показателях компании: «С нашей помощью «Аэрофлот» внедрил технологии, которые позволили обслуживать больше пассажиров меньшим числом сотрудников. Так, если в 2009 году на одного сотрудника авиакомпании приходилось 250 перевезенных за год пассажиров, то, как ожидается, в 2013 году этот показатель вырастет почти в пять раз в основном благодаря увеличению парка самолетов и повышению загрузки кресел, при этом штат авиакомпании растет незначительно. ИТ помогают компании оптимизировать затраты на перевозки, не жертвуя качеством обслуживания».
Ближайшие планы авиакомпании связаны в первую очередь с внедрением новых электронных услуг для пассажиров. Дальнейшее развитие получит и ИТ-поддержка программы лояльности «Аэрофлот-Бонус». Третье направление — поддержка работы бортпроводников, реализованная средствами мобильных решений. Планируется также в скором времени заменить прежнюю систему управления ремонтами самолетов на более современную — AMOS, разработку швейцарской компании Swiss AviationSoftware, это решение является стандартом де-факто в своем сегменте.