Зрелый бизнес готов понять, насколько важна непрерывность бизнеса. Однако не следует полагать, будто достаточно объявить руководству, что этим надо заниматься, иначе «будет плохо». Важно убедительно оценить, насколько «будет плохо».
Дмитрий Устюжанин
Возраст: 48 лет
Образование:
Высшая школа КГБ, инженер-математик
Послужной список последних лет:
2000 — настоящее время
компания «Вымпелком», руководитель департамента информационной безопасности
1994 — 2000
«Мост Банк», группа «МедиаМост», заместитель руководителя департамента информационной безопасности
«После кризиса 1998 года перед нашей компанией, как и перед большинством российских предприятий, стояла задача выживания. В то время было совсем не до изысков, — вспоминает Дмитрий Устюжанин, руководитель департамента информационной безопасности компании “Вымпелком”. — Но уже в 2000 году началось реформирование компании по западному образцу. Бизнес-руководство поставило задачу развивать услуги компании на всей территории России. В своем стремлении осваивать 11 часовых поясов мы пришли к выводу, что будет лучше пойти по пути централизованного развития, сосредоточив основные корпоративные решения, в первую очередь биллинговые и CRM-системы, на одной площадке».
Централизованное решение полностью оправдало свою эффективность, но получилось, что от ядра, заложенного в центр ИТ-инфраструктуры, стал зависеть бизнес не только в Москве, но и по всей стране. На фоне бурного экстенсивного строительства бизнеса обеспечение его непрерывности какое-то время оставалась без внимания. «После реорганизации компании изменился наш менталитет и культура бизнеса. Тогда нам удалось вынести на рассмотрение вопрос о единой точке отказа, которая действительно могла очень серьезно повлиять на бизнес компании. С другой стороны, и мы как специалисты тоже выросли за это время и смогли правильно этот вопрос преподнести бизнесу, чтобы бизнес услышал нас, — считает Устюжанин. — Оценить вероятность угроз и масштаб последствий в случае наступления чрезвычайной ситуации мы не могли, так как на тот момент не имели достаточно опыта, поэтому решили обратиться к опыту зарубежных компаний».
Соотношение потерь и затрат
С самого начала всем было понятно, что для компании такого масштаба, как у «Вымпелкома», решение в области обеспечения непрерывности не может быть простым и дешевым, а значит, предстоит серьезная подготовка. Были приглашены консультанты из Veritas Consulting (впоследствии эта компания вошла в состав Symantec Consulting) и специалисты компании «Инфосистемы Джет». На тот момент, по оценке Устюжанина, это была команда консультантов, не «привязанная» к каким-то конкретным технологиям. Все предложенные ими методики начинались с очень простого упражнения — анализа влияния чрезвычайных ситуаций на бизнес.
«Важно было обойти все основные бизнес-подразделения и изучить мнения их сотрудников. Что будет, если, например, перестанет работать биллинговая система? А если ее не будет неделю? Это оказалось легко: по определенной методике разложить подобные ситуации на составляющие, чтобы всем стало понятно, как можно оценить не только материальные потери, но и имиджевые», — рассказывает Устюжанин.
«В компании “Вымпелком” эксплуатируется более сотни приложений, и бизнес может не знать их названий, но зато он четко представляет, какие услуги ему предоставляет ИТ-служба, — подключился к разговору Виталий Задорожный, руководитель службы непрерывности бизнеса компании “Вымпелком”. — Например, существует услуга расчета межоператорских платежей и бизнес может легко посчитать, сколько денег он потеряет в случае простоя этой системы. Можно оценить потерю в деньгах за четыре часа, за сутки и за неделю простоя. Мы, со своей стороны, должны понимать, на каких системах зиждется эта услуга расчета межоператорских платежей (на пяти информационных системах — двух корневых и трех вспомогательных для ведения архивов и отчетности). В результате, обсуждая услуги, которые предоставляем бизнесу, мы научились переводить малопонятные для ИТ-специалистов понятия и категории бизнеса на язык ИТ-терминов, которые способны воспринять и проанализировать наши администраторы ИТ-систем, например, как быстро нужно поднять систему в случае чрезвычайной ситуации, как часто делать резервное копирование, какую технологию репликации выбрать для защиты данных биллинга и т.д.».
На этом этапе специалисты компании смогли накопить не только опыт
общения бизнеса и ИТ, разложить угрозы на составляющие из
информационных систем, но и получить базовую оценку последствия
вероятных угроз. Затем началась трудоемкая аналитическая работа, так
как предстояло еще понять, как следует классифицировать системы. В
частности, их условно распределили по «корзинам». В первую попали
системы, которые, согласно требованиям бизнеса, необходимо восстановить
после сбоя в течение четырех часов.
Параллельно следовало решить вопрос, какие технологии сохранения данных
в этом случае необходимо использовать и какие технологии кластеризации
надо реализовать, чтобы успеть «поднять» данные и систему не более чем
за четыре часа, и как при этом переключить все потоки данных на
резервную площадку. Вторая «корзина» содержала системы, восстановление
которых не должно превышать 24 часа, третья — системы, требующие
восстановления не позднее чем через пять суток. Для каждой из «корзин»
был определен свой набор технологических средств, которые позволят
поднять системы за требуемое время.
«Для реализации этих планов нужна была резервная площадка, сеть с достаточной пропускной способностью, которая позволит реализовывать кластерные решения, дисковые массивы, репликации и т.д. Главное в том, что эта группировка даже на простейшем уровне из нескольких корзин вывела нас на понятные бюджетные оценки предстоящего проекта», — считает Задорожный.
Дальше в соответствии с теорией измерения рисков был определен понятный уровень инвестиций и приемлемый уровень снижения рисков, за пределами которого снижение риска будет стоить очень дорого. «В ходе анализа нам удалось вскрыть всю сложность предстоящих задач, изложив их в достаточно простых терминах, увидеть картину в целом и объяснить ее бизнесу. Другими словами, нам удалось выйти на тот уровень, когда бизнес уже обладает всей необходимой информацией для принятия решения: он осознает риски, видит пути их снижения, может оценить стоимость затрат. На все это нам потребовалось три месяца совместной работы с консультантами», — вспоминает Устюжанин.
От теории консалтинга к практике внедрения
«С моей точки зрения, проект был очень похож на бой Геракла с гидрой, когда у той на месте одной срубленной головы вырастало две новых. Мы начинали бороться за живучесть десятка систем, резервировали их и внедряли для этого все необходимые технологии, но за это время две из систем изменились, к тому же появилось еще с десяток новых», — отмечает Устюжанин.
Тот объем работ, который планировался в начале проекта, был реализован за два года. Но за это время набралось еще множество систем. В результате текущее состояние проекта довольно сложно оценить, потому что это уже не проект восстановления ИТ после сбоев, а программа управления непрерывностью бизнеса, в которой восстановление информационных систем после сбоев — всего лишь один из процессов (правда, с элементами проектной деятельности).
По признанию специалистов «Вымпелкома», прошло не менее двух с половиной лет, прежде чем удалось отпраздновать первый успех. «За это время мы нашли помещение, которое удовлетворяло требованиям, предъявляемым к резервной площадке, оснастили его инженерными системами (системой кондиционирования, пожаротушения, контроля доступа и пр.). Только после этого начался монтаж серверов, систем хранения, резервного копирования, — вспоминает Задорожный. — Другими словами, два с половиной года потребовалось, чтобы сказать: сделано не все, но и масштаб задач за это время заметно вырос».
К росту систем и решений в компании были готовы, но предположить, что он будет таким стремительным, никто не мог. Например, через два года пришлось пристраивать к резервному вычислительному центру зону расширения, которая была уже в два раза больше самого резервного центра, и это при том, что в следующем году она уже не сможет вместить в себя всего необходимого оборудования. По первоначальным прогнозам, исходного помещения должно было хватить примерно на пять лет.
Причина таких прогнозов и планирования заключается вовсе не в отсутствии опыта. В России вообще не было примера использования даже половины технологий, которые реализовывались при строительстве систем обеспечения непрерывности бизнеса компании «Вымпелком».
«Все решения приходилось тщательно проектировать и опробовать. Это было обусловлено прежде всего объемами и масштабами решаемых задач, а также ответственностью, которая на нас лежала. А масштабы у нас такие, что половина технологий не выдерживала их, — признается Устюжанин. — Это действительно было непросто: из одного центра данных начать жить на двух территориально удаленных площадках и не навредить уже эксплуатируемым приложениям, которые продолжают постоянно изменяться. Никто не собирался останавливать бизнес на время нашего проекта».
В ходе реализации проекта пришлось решить немало «экзотических» проблем. «Например, при монтаже серверов нам нужны были уникальные подъемные механизмы. Дело в том, что некоторые серверы нельзя наклонять больше чем на 15—20 градусов. В процессе их монтажа представитель производителя наблюдал за этим процессом. Если бы угол наклона превысил допустимое значение, этот представитель был вправе отказать нам в гарантийной поддержке производителя», — комментирует Устюжанин.
Кроме того, новые технические решения должны были быть узнаваемыми, а не революционно новыми, так как администраторам «Вымпелкома» предстояло научиться работать с ними и поддерживать. Консультанты компании «Инфосистемы Джет» помогли построить единое инфраструктурное пространство, достаточно эффективное с точки зрения операционной поддержки.
Проверка на прочность
Любая самая совершенная система обеспечения непрерывности бизнеса останется теоретической находкой до тех пор, пока не подтвердит свою стойкость к обстоятельствам, только в этом случае можно оценить и выявить просчеты, чтобы своевременно выполнить работу над ошибками. Именно так было в компании «Вымпелком», когда из-за аварии на городской подстанции половина города оказалась без электричества. За то время пока все серверные помещения работали от источников бесперебойного питания, специалисты успели переключиться на питание от дизель-генераторов.
«Несмотря на все наши усилия температура в некоторых серверных помещениях продолжала повышаться, — вспоминает Устюжанин. — Оказалось, что несколько кондиционеров подключены к электричеству в обход источников бесперебойного питания. Если бы температура повышалась еще пару часов, то серверы начали бы отключаться. У нас было крайне мало времени, чтобы переключить часть сервисов на резервную площадку».
После того как питание было возобновлено, специалисты «Вымпелкома» провели тщательный анализ случившегося. В результате были выявлены и другие узкие места, которые прежде оставались без внимания. Например, оказалось, что рабочие места операторов службы Help Desk не подключены к дизель-генераторам.
И все же было бы несправедливо полагать, что эти промахи — следствие халатного отношения специалистов к проекту. Многие ИТ-решения, внедренные в компании «Вымпелком», уникальны, на их адаптацию и создание приемлемого решения нередко уходит более полугода, а работы ведутся в тесном взаимодействии с производителем. Приходится вникать в технологию очень глубоко (вплоть до уровня кодов). Как следствие, выбор решения определяет не только само решение или продукт, а последовательность шагов по его построению.
«В какой-то момент мы должны были уделить внимание еще одному классу ключевых систем, на которые опираются все основные бизнес-системы; к ним относятся, в частности, сетевые решения, — отмечает Задорожный. — Этот класс решений требовал особой тщательности, чтобы любая чрезвычайная ситуация по возможности не влияла на эту область. Когда стоит задача восстановить работоспособность бизнес-системы за четыре часа, обо всем постороннем нужно вообще забыть».
Мировое сообщество накопило богатый опыт обеспечения стойкости бизнеса к катаклизмам, и он после очередного бедствия только пополняется новыми рекомендациями. К примеру, раньше активно использовались методики действия персонала в той или иной ситуации, скажем, в случае возгорания шкафа, затопления этажа и пр. Если какая-то чрезвычайная ситуация реально возникает, то под рукой часто не оказывается полезной инструкции, которая описывала бы действия персонала в этом случае. Увы, реальная жизнь богата на сюрпризы.
«Мы подготовили концепцию кризисного управления, в которой выделены «золотой» уровень действий (руководство компании), «серебряный» и «бронзовый» (команды восстановления). Те планы действий, которые мы строим, основаны на методологи принятия решения в кризисных ситуациях, когда нужно как можно быстрее собрать нужную информацию, оповестить руководство, назначить ответственных и т.д. Это ряд, казалось бы, общечеловеческих решений, тем не менее, этот план организует мышление и управление в кризисных ситуациях на всех уровнях», — подчеркивает Устюжанин».