Исследования компании Dynamic Markets свидетельствуют: подход к деятельности в стиле «Пока гром не грянет - мужик не перекрестится» свойствен и многим зарубежным компаниям.
Исследования компании Dynamic Markets свидетельствуют: подход к деятельности в стиле «Пока гром не грянет – мужик не перекрестится» свойствен и многим зарубежным компаниям. Не является чем-то особенным и неподготовленность ИТ-отделов компаний к катастрофам различной природы.
Согласно данным очередного исследования Dynamic Markets, проведенного по заказу компании Veritas Software, 43% организаций во всем мире остаются в основном неподготовленными к крупным катастрофам. В ходе исследования были опрошены 1259 ИТ-профессионалов во всем мире. Как оказалось, 92% респондентов признают, что крупная авария их ИТ-инфраструктуры привела бы к серьезным последствиям, тем не менее всего 38% опрошенных заявили, что в их компаниях имеются всеобюемлющие, общие планы послеаварийного восстановления и обеспечения непрерывности бизнеса.
По сравнению с результатами исследования 2003 года доля тех, кому пришлось воспользоваться планом послеаварийного восстановления, значительно увеличилась: этот план пригодился 51% респондентов, тогда как в прошлом году таких было 33%. При этом 18% компаний (каждая шестая) впервые реализовали план послеаварийного восстановления в течение последних 12 месяцев. В качестве причин, вынудивших воспользоваться планом, чаще всего называют аварии вычислительных систем, связанные с отказами аппаратуры или программного обеспечения (37%). Однако были и другие факторы:
- внешние компьютерные угрозы, включая атаки вирусов и хакеров (26%);
- природные катастрофы, в том числе пожары и наводнения (14%);
- внутренние компьютерные угрозы, включая ошибки или злонамеренные действия сотрудников (13%);
- рукотворные катастрофы, такие как военные действия и терроризм (10%).
Когда респондентам предлагали сценарий, в котором естественная катастрофа (например, пожар или ураган) полностью выводит из строя главный вычислительный центр компании, свыше 40% не знали, сколько времени потребуется для восстановления нормального или хотя бы элементарного функционирования бизнеса. Всего 3% уверены, что они смогут немедленно восстановить полноценное функционирование предприятия, и всего 28% рассчитывают, что им удастся восстановить элементарные операции меньше чем за 12 часов. Согласно результатам исследования, среднее время, которое требуется компаниям для восстановления элементарной работы после крупного пожара, превышает 72 часа. Потенциальное влияние катастрофы на бизнес заключается в снижении производительности труда (62%), сокращении доходов (40%) и причинении ущерба отношениям с заказчиками (38%).
Исследование выявило также, что всего 44% опрошенных компаний используют программные решения для восстановления данных или резервного копирования в целях возобновления работоспособности систем после катастроф. Учитывая, что резервное копирование является очень важным компонентом плана послеаварийного восстановления, это тревожная статистика. Исследование показало также, что всего 9% организаций используют программное обеспечение репликации данных и еще меньше респондентов, всего 5%, пользуются ПО кластеринга для повышения надежности. Обе эти технологии жизненно важны для восстановления работы критических бизнес-приложений в случае катастрофы.
Героика ИТ
Результаты исследования Dynamic Markets показывают, что, хотя примерно 60% мировых компаний почти ежемесячно обновляют свое программное обеспечение, всего 14% с той же периодичностью проводят ревизию собственных планов послеаварийного восстановления (Disaster Recovery, DR). Свыше трети (34%) опрошенных компаний региона ЕМЕА проверяют свои планы только раз в год, а 31% делают это еще реже, если вообще делают. Многие организации непреднамеренно подвергают свои бизнес-системы опасности, так как их планы DR не успевают за динамикой изменения ИТ.
Исследование Dynamic Markets указывает на то, что контроль за изменениями составляет все большую проблему: в 2004 году 35% компаний заявили, что технологические изменения вынудили их пересмотреть свою стратегию DR.(В 2003 году таких компаний было всего 15%.) Однако, хотя 64% компаний общемировой выборки ощущают угрозу из-за проблемы контроля за изменениями (такими, как обновление ПО), они не рассчитали стоимости возможных последствий такой угрозы для предприятия. Между тем всего 5% сказали, что они решили пересмотреть свой план DR в ответ на увеличение числа обновлений ПО.
Исследование поднимает также вопрос о частоте проверок с целью определения эффективности обновлений: ровно половина опрошенных компаний из региона ЕМЕА не проверяют эффективность каждого устанавливаемого обновления, а 21% этого числа вообще не проводят никаких проверок.
К сожалению, лишь менее половины респондентов выполняют необходимые проверки, в то время как 17% даже не знают, проводятся они или нет! Если компании не в состоянии выделить ресурсы на проведение необходимых систематических проверок, то они непременно должны более регулярно проводить испытания своих планов послеаварийного восстановления.
Проблема контроля за изменениями особенно интересна в свете существенного увеличения количества обновлений, которое наблюдается в последнее время, и роста опасений, связанных с вирусами и случаями неосторожного или злонамеренного поведения работников. Хотя исправления ПО редко приводят к необходимости внесения изменений в стратегию DR, ИТ-подразделения, безусловно, должны пересматривать свои планы DR чаще чем раз в год.
Беспокоит также тот факт, что почти четверть организаций не проверяют эффективность установки исправлений. Если такие проверки не выполнять, то отказы систем становятся неизбежными. Если организация не имеет систем защиты данных, резервного копирования и восстановления, то в экстремальных случаях она потеряет ценные данные, возможно, и вовсе утратит работоспособность. Подобные исследования могут послужить своевременным предупреждением.
Бизнес... на линии огня
Согласно результатам исследования Dynamic Markets, 97% организаций в регионе EMEA не смогут продолжать нормально вести бизнес в случае пожара в центре обработки данных, несмотря на наличие планов послеаварийного восстановления. Эти выводы служат организациям строгим предупреждением: для того, чтобы гарантировать адекватную защиту бизнеса, недостаточно просто иметь план послеаварийного восстановления.
Свыше двух пятых не в состоянии предсказать, как много времени займут операции по частичному или полному восстановлению.
Всего 3% ответили, что после такого пожара они смогут продолжать работу, как обычно. Около 38% не знают, как много времени потребуется на то, чтобы восстановить хотя бы элементарную работу. Всего 31% могли бы восстановить минимальное обслуживание в течение 12 часов, среднее время (в общемировом масштабе) составляет 3,23 суток. Около 38% не знает, сколько времени уйдет на полное восстановление работы. И 53% компаний из региона EMEA оказались бы в серьезном затруднении, поскольку их единственная копия плана послеаварийного восстановления осталась бы в разрушенном главном центре обработки данных.
Пожар представляет собой реальный риск для предприятий. Согласно статистике, собранной офисом заместителя премьер-министра Великобритании, в этой стране за год (по сентябрь 2003 года) в помещениях организаций коммерческого и общественного секторов произошло 41 100 пожаров, требующих вмешательства пожарной и спасательной служб. На актуальность угрозы природных катастроф указывают и уже упомянутые данные исследования Dynamic Markets.
Почти две пятых (37%) респондентов этого исследования сообщили, что к созданию плана послеаварийного восстановления их подтолкнула случившаяся природная катастрофа или ее угроза, а 71% признали, что их организация встретила бы такую катастрофу без плана послеаварийного восстановления.
Несмотря на это кажущееся знание о грозящей опасности, а также на то, что планы послеаварийного восстановления готовит все больше организаций, неадекватные процедуры все равно помешают компаниям эффективно справиться с последствиями реальной катастрофы.
Решение на уровне советов директоров
Усиление опасений, связанных с войнами, терроризмом и угрозами ИТ-безопасности, вывело решение проблемы на более высокий уровень, в результате чего планы послеаварийного восстановления стали заботой советов директоров компаний. Результаты исследования Dynamic Markets показали, что степень участия советов директоров в разработке планов послеаварийного восстановления за последние 12 месяцев почти удвоилась: директора по ИТ в организациях EMEA вносят больший вклад в стратегии DR, чем когда-либо прежде. Эти изменения в сфере ответственности за DR отражают растущие опасения по поводу потенциального влияния аварий, вызванных людьми, а также внешних и внутренних угроз. Примечательно, что компании при этом стали гораздо меньше бояться незапланированных простоев из-за проблем ИТ.
Исследование Dynamic Markets выявило культурные изменения, происходящие в организациях под влиянием недавних террористических атак и киберпреступлений. Ощущение риска резко возросло, и директора взяли на себя ответственность за стратегии, которые защитят благополучие их сотрудников, гарантируют доступность подразделений и обеспечат целостность корпоративных данных. Согласно исследованию, хотя решения по DR все еще в основном принимает руководитель отдела ИТ (55%), в 21% организаций ЕМЕА ответственность за DR передана на уровень совета директоров, тогда как в 2003 году таких организаций было только 11%. В 31% организаций этим теперь занимаются лично директора по ИТ против всего 22% в 2003 году.
Наличие плана дает ощущение защиты
Примерно 93% ИТ-менеджеров в регионе ЕМЕА заявили, что без плана DR они чувствовали бы себя беззащитными перед угрозой катастрофы:
- 81% компаний боялись бы пострадать от отказа компьютеров;
- 74 и 71% опасались бы внешних угроз, таких как вирусы/атаки хакеров и природные катастрофы соответственно;
- 59% боялись бы рукотворных катастроф, таких как военные действия и терроризм;
- 55% ощущали бы внутренние компьютерные угрозы, такие как ошибки и злонамеренные действия сотрудников.
Напротив, уровень опасений по поводу простоев из-за ИТ-проблем резко снизился: за последние 12 месяцев всего в 29% организаций ЕМЕА происходили незапланированные перебои в работе против 69% в 2003 году. 29% опрошенных компаний ЕМЕА сообщили, что теперь они, прежде чем начать сотрудничество, просят поставщика продемонстрировать его планы обеспечения непрерывности бизнеса (Business Continuity, BC) и DR.
Осное отставание
Несмотря на эти меняющиеся тенденции, 16% опрошенных компаний все еще не имеют стратегии послеаварийного восстановления, причем 74% респондентов из этой группы не планируют разработать ее в обозримом будущем. Из этих компаний 31% просто говорят, что у них еще не дошли до этого руки; 24% компаний находятся в процессе создания плана DR; еще 24% считают, что он им не нужен и что, по их мнению, достаточно процесса резервного копирования; 19% полагают, что их компания слишком мала, чтобы инвестировать средства в такой план. Около 6% опрошенных заявляют о том, что совет директоров или высшее руководство не готовы предоставить финансовую поддержку разработке плана DR.
Сергей Грищенко – ведущий консультант компании Veritas по продажам в России и странах СНГ, sergey.grischenko@veritas.com
Первая линия обороны
ИТ-менеджеры предприятий малого и среднего размера смогут облегченно вздохнуть лишь тогда, когда будут уверены, что их данные надежно резервируются, защищены и могут быть восстановлены. В этом случае им не грозит невосполнимая утрата важных информационных ресурсов. Но чтобы ограничить затраты, связанные с послеаварийным восстановлением, недостаточно хорошо спланированной общекорпоративной процедуры резервного копирования.
Представьте себе ситуацию, когда сервер выходит из строя: доходы, производительность труда, моральное состояние коллектива и лояльность заказчиков – все катится под откос с каждым ударом часов. Времени в обрез, но для полного восстановления сервера его нужно много. В этот момент прежде всего необходимо найти хороших специалистов по восстановлению систем, отремонтировать или заменить оборудование, установить операционные системы, сконфигурировать аппаратуру, восстановить и сконфигурировать приложения, восстановить данные.
Все это сложные и трудоемкие задачи. Если они решаются в пожарном порядке, то очень часто возникают ошибки, которые нарушают целостность процесса восстановления и вынуждают людей начинать все заново. По мере расширения инфраструктуры и увеличения числа серверов эта проблема только усугубляется.
Людям свойственно недооценивать потери, которые они понесут вследствие длительного восстановления системы. На то, чтобы вернуть все в исходное состояние, часто уходят дни. И страшно подумать, во что это обойдется компании...
Чтобы сократить время на возобновление работы серверов, содержащих критически важные файлы и приложения, максимально упростив этот процесс (что необходимо, поскольку в нужный момент рядом с сервером может не оказаться специалистов достаточного уровня квалификации), следует обюединить резервное копирование, репликацию и восстановление, не забывая при этом о постоянном наблюдении за рабочей средой. Это поможет предотвратить снижение производительности труда и доходов предприятия в случае непредвиденного отказа системы.
Четыре рецепта эффективности
Эти четыре метода позволят сделать решения резервного копирования и восстановления более мощными и экономически эффективными.
Минимизация интервала дублирования
Процедура резервного копирования и восстановления должна проводиться с минимальным влиянием на работу организации. Полномасштабное резервное копирование, которое когда-то требовало массу времени, теперь в большинстве случаев можно заменить более простым и коротким процессом создания частичных копий, которые без «швов» обюединяются в одну общую. Этот подход дает еще одно важное преимущество: он сокращает количество используемой магнитной ленты и гарантирует лучшую индексацию, что в свою очередь сокращает время восстановления.
Применение системы резервного копирования и восстановления с функцией последовательного копирования с диска на диск уменьшает стоимость архивирования удаленных (экстерриториальных) данных, позволяя указывать один главный и до трех дополнительных целевых обюектов. Кроме того, переход с диска на диск сужает интервал дублирования. В сочетании с высокой производительностью это делает дисковые системы хранения данных гораздо более предпочтительным решением по сравнению с ленточными накопителями.
Полное экстерриториальное управление
Управление дублированием резервных копий и хранящимися в безопасном месте носителями может включать сложные и трудоемкие процедуры. Технологии, способные автоматизировать весь этот процесс, позволяют устанавливать наборы правил, управляющих дублированием резервных копий, – с условиями запуска этой процедуры и описанием перемещений данных, включая перевозку лент в удаленное хранилище. Пока система резервного копирования и восстановления будет исполнять эти правила, персонал освободится для работы с другими отделами по восстановлению бизнес-процессов.
Автоматическое восстановление сервера
Современное программное обеспечение позволяет за считанные минуты восстанавливать рабочую среду сервера посредством простого двухшагового процесса, почти не требующего вмешательства персонала. На первом шаге одной командой консоли инициируется процесс восстановления и определяется конфигурация восстановления. На втором шаге производится загрузка системы (она может осуществляться с локального носителя или по сети), воссоздание операционной среды, развертывание операционной системы и конфигурирование аппаратуры. Такое решение может восстанавливать и данные пользователя.
Для подготовки системы к восстановлению производится автоматическая запись всех конфигураций системы, включая параметры настройки TCP/IP и конфигурацию диска, в ходе каждого планового сеанса полного или частичного обслуживания. В случае аварии с выходом из строя нескольких серверов возможно их параллельное восстановление. В вычислительной среде, где используются разные операционные системы, желательно уметь восстанавливать все системы с применением одной и той же процедуры.
Обюединение резервного копирования и восстановления с репликацией
Комплексное решение резервного копирования и восстановления должно включать средства дистанционной репликации в режиме реального времени или зеркального дублирования данных по сети хранения данных или любой IPБ??сети. Наличие текущих данных, немедленно доступных на другой территории, может существенно ускорить процесс восстановления. Технология должна быть универсальной и гибкой, способной реплицировать данные из удаленных офисов и с ПК дистанционно работающих сотрудников. Она должна гарантировать целостность данных и доступность приложений.
Пока гром не грянул
Учитывая динамизм современной инфраструктуры отдела ИТ и организации, регулярные учения и ревизии должны стать критически важным компонентом каждой стратегии послеаварийного восстановления.
Собственное исследование Veritas в регионе ЕМЕА показало, что многие организации не проводят своевременной подготовки к возможным неприятным неожиданностям:
Во многих организациях для восстановления нормальной работы предприятия после катастрофы применяются самые разнообразные технологии и процессы. В 86% организаций имеются простейшие системы резервного копирования. Программное обеспечение восстановления применяют 45% обследованных предприятий региона ЕМЕА, а на 42% есть вынесенные средства резервирования. Две пятых всех фирм содержат полную команду, на которую возложено восстановление после аварий. Несмотря на эти технологические и практические системы и приготовления, отсутствие элементарного здравого смысла мешает многим принять скоординированные меры для быстрого восстановления работы в случае пожара. Исследование показало, что всего у 56% респондентов есть защищенные от огня средства резервирования. Около 64% держат свои планы послеаварийного восстановления в главном центре обработки данных и 53% – только там!