Три года назад перед ИТ-службой компании «ВымпелКом» встала проблема: единственный вычислительный центр компании стал «тонким местом» при решении задачи обеспечения непрерывности ИТ-услуг, например, в случае масштабного аварийного отключения питания. Поэтому, по словам директора по информационным технологиям «ВымпелКома» Владимира Филиппова, требовалось составить программу его восстановления после аварий и обеспечения непрерывности работы. К проекту были привлечены команда из компании «Инфосистемы Джет» и специалисты Symantec Consulting Service.
Было проведено исследование информационных систем «ВымпелКома» с точки зрения их фактического влияния на бизнес. Были разработаны общая стратегия восстановления ИТ-услуг и высокоуровневый план реализации проекта. Ключевым моментом стратегии стало создание резервного дата-центра в Твери. С помощью распределенных кластеров была обеспечена бесперебойность работы наиболее критичных бизнес-приложений, организована синхронная репликация наиболее важных данных, внедрена система резервного копирования емкостью около 1 Пбайт. Специалисты Symantec разработали методики и планы обеспечения непрерывности предоставления ИТ-услуг в соответствии со спецификацией международного стандарта PAS56.
Всего в основном вычислительном центре работает около 300 RISC-серверов Sun; они соединены с дисковыми массивами общей емкостью более 300 Тбайт. Также была создана новая сеть хранения данных для основного дата-центра с полным дублированием сетевого оборудования и магистралей (более 2 тыс. портов). Еще одна сеть хранения «распределена» между основным и резервным дата-центрами. Кроме того, создана распределенная система резервного копирования и высокоскоростная, построенная по технологии DWDM сеть между дата-центрами для обеспечения синхронной репликации данных.
Специалистами Symantec были разработаны практические процедуры, тренинги и документация для персонала «ВымпелКома», касающиеся действий в кризисных ситуациях.
Надежность построенной системы была проверена как независимым аудитом, так и реальными перебоями в электроснабжении. Аудиторы выставили степени зрелости программы обеспечения непрерывности бизнеса и восстановления ИТ-услуг после сбоев оценку на уровне 4 («регулируемый») по шкале от нуля до пяти, а по ряду аспектов обеспечения доступности и восстанавливаемости ИТ-услуг после сбоев система получила высшую оценку. В феврале же этого года московский дата-центр аварийно обесточился. Но уже через час все звонки в московский контакт-центр перенаправлялись на тверской, а через шесть часов работали все критически важные приложения.