Быстрое восстановление после разрушительных аварий

Серьезные аварии возможны в любой момент: даже тлеющего пожара достаточно, чтобы парализовать инфраструктуру ЦОД. Не менее трагичны последствия наводнений, когда затапливаются серверные помещения. Тот, кто считает подобные события маловероятными, пусть вспомнит наводнение в Альпах в 2005 г. Тогда в Швейцарии из соображений безопасности пришлось останавливать электростанции и отключать линии электропередач. Целому ряду предприятий, где не были предприняты специальные меры безопасности, был нанесен серьезный ущерб. Аналогичный печальный опыт приобрели и жители Дрездена во время наводнения на Эльбе в 2002 г.

Средние предприятия хуже всего подготовлены к таким ситуациям. Причем в особом внимании нуждаются два аспекта — «аварийное восстановление» (Disaster Recovery) и «непрерывность бизнеса» (Business Continuity). Главная задача аварийного восстановления заключается в восстановлении и замене поврежденной инфраструктуры ИТ, а также важных корпоративных данных. Что же касается непрерывности бизнеса, то это понятие затрагивает не только технические вопросы реконструкции ИТ: речь идет о том, чтобы в случае катастрофы деловые процессы не прерывались или останавливались лишь на короткий период, а предприятие могло продолжать свою деятельность.

Главная цель Business Continuity — как можно меньшие сроки простоя, причем как в случае катастроф, так и в момент запланированных остановок систем. Путем некоторой модификации и дополнений соответствующие методы и процессы переносятся и на задачи аварийного восстановления. Так, при запланированном простое виртуализованных инфраструктур администраторы могут использовать систематическое отключение отдельных серверов и систем хранения, к примеру, для обновления операционных систем, приложений или аппаратного обеспечения.

На серверных фермах, оснащенных оборудованием компании Dell, часто применяются VMware, VMotion и инструмент для планирования распределенных ресурсов (Distributed Resource Scheduler, DRS). DRS контролирует степень загруженности пулов ресурсов и распределяет свободные ресурсы между виртуальными машинами. Если одна из виртуальных машин перегружена, то система предоставляет дополнительные мощности, поскольку VMotion позволяет осуществлять миграцию виртуальных машин на другой физический сервер без прерывания их работы. Таким образом, VMotion реализует хитроумное управление загруженностью и позволяет в любой момент осуществить динамические изменения.

Самым важным фактором оказывается бесперебойность. VMware обеспечивает перемещение работающих виртуальных машин, тогда как в случае реализации других решений обойтись без прерываний удается редко. К числу технологий, используемых при незапланированных сбоях, относятся кластеризация (Clustering), тиражирование по сети хранения (SAN Replication), а также зеркалированные серверы и системы хранения в пространственно разделенных ЦОД — все они потребуются для аварийного восстановления.

АВАРИЙНОЕ ПЛАНИРОВАНИЕ

Владельцам среднего бизнеса приходится находить ответы на два главных вопроса: как приступить к решению проблемы аварийного восстановления и какая технология лучше всего пригодна для этого? По сравнению с крупными компаниями инфраструктура ИТ небольших предприятий весьма компактна, но в любом случае вначале необходимо разработать аварийный план и затем периодически проводить его тестирование. Типичный план аварийного восстановления включает в себя сотни отдельных шагов, начиная от изменений кабельных соединений и заканчивая детальным описанием очередности восстановления серверов.

Однако одного лишь плана недостаточно — его эффективность должна подтверждаться в ходе регулярного тестирования. Как правило, индивидуально разработанные меры и рекомендации требуют множества сложных, реализуемых вручную шагов для предоставления ресурсов, восстановления операционных систем и данных, а также проверки готовности к эксплуатации серверов, сетевых компонентов и систем хранения. Вместо самодельных решений имеет смысл применять виртуальную инфраструктуру в сочетании со специализированным программным обеспечением для резервного копирования (Back-up) и восстановления (Recovery).

Совместно используемая система хранения представляет собой один из центральных компонентов виртуальной инфраструктуры. Основная задача — разместить здесь надежно защищенные избыточные локальные данные и создать доступные дублирующие емкости хранения, располагающиеся в другом месте. Широкий спектр функций позволяет осуществлять эффективное удаленное тиражирование данных, выполнять процессы аварийного восстановления и управлять вторичными системами хранения.

Рисунок 1. Виртуализованная среда аварийного восстановления на базе VMware Infrastructure 3.