Определяем цели восстановления

Для современной организации, обязанной соответствовать нуждам и ожиданиям своих клиентов, простои недопустимы. Возможны различные типы происшествий, от которых зависит доходность и даже само существование предприятия. Это может быть атака вымогателей, отключение электроэнергии, наводнение или просто ошибка оператора. Такие события непредсказуемы, и лучшее, что мы можем сделать, — это заранее подготовиться к ним.

Готовность подразумевает наличие добротного плана обеспечения непрерывности бизнес-процессов и аварийного восстановления (BCDR). Такой план должен быть протестирован и при необходимости без промедлений введен в действие.

Два важных параметра, определяющих план BCDR, — целевая точка восстановления (RPO) и целевое время восстановления (RTO), как показано на рисунке 1. Приведу краткое пояснение этих терминов:

RPO показывает, насколько далеко нужно вернуться во времени, и определяет максимально допустимое количество потерянных данных, измеряемое временем между моментом возникновения неисправности и создания последней исправной резервной копии.
RTO характеризует время простоя и показывает, сколько времени проходит между сбоем и восстановлением нормального функционирования системы для пользователей.

Рисунок 1. Этапы процесса восстановления

На первый взгляд характеристики RPO и RTO похожи, но они служат разным целям; в идеальном случае их значения стремятся к нулю. Однако в реальности стоимость достижения нулевых показателей RPO и RTO чрезвычайно высока, и затраты на это вряд ли окупятся.

Познакомимся поближе с целями восстановления. RPO определяет, какое количество данных можно потерять, прежде чем эта потеря затронет вашу профессиональную деятельность. Например, в банковских системах простой в течение часа может иметь катастрофические последствия при выполнении текущих транзакций. Для себя вы можете определить RPO как момент последнего сохранения документа, над которым вы работаете. В случае сбоя системы и потери данных сколько результатов работы вы готовы потерять без заметного ущерба?

С другой стороны, RTO — временные рамки, в которых приложения и система могут быть восстановлены после сбоя.

Целесообразно измерять RTO начиная с момента сбоя, а не с момента, когда специалисты ИТ-подразделения начинают устранять неполадки. Это более реалистичный подход, точно представляющий точку, когда неисправность затронула пользователей.

Как определить значения RTO и RPO для ваших приложений

На самом деле универсального решения для плана обеспечения непрерывности бизнес-процессов и его метрик не существует. Компании, принадлежащие к разным отраслям, различаются, имеют разные нужды и поэтому предъявляют различные требования к целям восстановления. Однако широко практикуется разделение приложений и служб по разным уровням и назначение времени восстановления и целевой точки восстановления в соответствии с соглашениями об уровне обслуживания, действующими в компании.

Классификация защиты данных важна для определения методов эффективного сохранения, доступа, защиты, восстановления и обновления информации на основе специфических критериев. Необходимо проанализировать ваши приложения и определить, какие из них формируют прибыль, а без каких функционирование компании невозможно. Этот процесс, без которого не удастся построить хороший план обеспечения непрерывности бизнес-процессов, называется анализом последствий для деятельности (BIA), и он же задает протоколы и действия на случай аварии.

Например, вы можете использовать трехуровневую модель для плана обеспечения непрерывности бизнес-процессов:

Уровень 1. Критически важные для компании приложения, для которых требуется RTO менее 15 минут.

Уровень 2. Критически важные для ведения бизнеса приложения, для которых требуется значение RTO 2 часа и RPO 4 часа.

Уровень 3. Некритические приложения, для которых требуется значение RTO 4 часа и RPO 24 часа.

Следует помнить, что критически важные для существования компании и ведения бизнеса и некритические приложения могут быть разными в различных отраслях, и каждая компания определяет эти уровни на основании собственных критериев.

После того как вы определили приоритет своих приложений и служб и выяснили, какими будут последствия конкретных происшествий, следует найти решение, способное защитить бизнес-данные и деятельность компании. Veeam Availability Platform (https://www.veeam.com/availability-platform.html) — исчерпывающий набор инструментов, спроектированный с учетом соответствия строгим требованиям восстановления виртуальных, физических и «облачных» рабочих нагрузок.

Практическое применение RTO и RPO

Быстрое восстановление элементов приложения

Агент по продажам удалил сообщение электронной почты, которое должно быть как можно быстрее отправлено клиенту. Microsoft Exchange — пример приложения уровня 2. ИТ-администратор составляет график заданий резервного копирования в течение суток, и компания может определенно достигнуть RPO со значением 1 час. С помощью программы Veeam Explorer for Microsoft Exchange (https://www.veeam.com/microsoft-exchange-recovery.html), которая входит в состав всех версий Veeam Backup & Replication (https://www.veeam.com/vm-backup-recovery-replication-software.html), очень просто восстановить отдельное сообщение электронной почты за несколько минут или даже секунд, не затрачивая время и ресурсы на промежуточное сохранение или восстановление всей виртуальной машины сервера приложений (экран 1).

Экран 1. Быстрое восстановление всего виртуального сервера непосредственно из резервной копии

Представим себе банк, который располагает несколькими банкоматами. Система банкоматов (ATM) критически важна для функционирования банка (уровень 2), но ее выход из строя на несколько часов повлияет на транзакции банка, а не на целостность всего предприятия. С помощью Veeam Backup & Replication и компонента Instant VM Recovery (https://www.veeam.com/instant-vm-recovery.html) можно немедленно запустить виртуальный сервер ATM из дедуплицированного и сжатого файла резервной копии Veeam. Это обеспечит RTO со значением в несколько минут! Кроме того, благодаря функциям миграции гипервизора и программе Veeam Quick Migration (https://helpcenter.veeam.com/docs/backup/vsphere/quick_migration.html? ver=95) не составляет труда перенести активную виртуальную машину из хранилища данных резервных копий в рабочее хранилище данных, завершив процесс восстановления (рисунок 2).

Рисунок 2. Восстановление виртуальной машины из хранилища

Отработка отказа всего сайта

Предположим, ошибка оператора привела к сбою электропитания в одном из центров обработки данных, что может привести к отказу всего сайта и потере доступа ко всем приложениям уровня 1. Предположим, вы используете Veeam для репликации всех критически важных виртуальных машин в удаленное расположение дважды в день. Это позволяет добиться требуемого значения RPO в несколько минут. С точки зрения RTO продукт Veeam позволяет легко выполнить восстановление после серьезных аварий благодаря нескольким встроенным функциям: отработке отказа одним щелчком мыши, помощи в восстановлении размещения, правилам Re-IP для соответствия сети на сайте аварийного восстановления (https://helpcenter.veeam.com/docs/backup/hyperv/network_mapping.html? ver=95) и настоящему «облачному» аварийному восстановлению (рисунок 3).

Рисунок 3. Отработка отказа всего сайта

Защита конечных точек

При переходе от виртуальной инфраструктуры в реальный мир Veeam также предоставляет решения для резервного копирования и восстановления ноутбуков и настольных компьютеров. С помощью Veeam Agent for Microsoft Windows (https://www.veeam.com/windows-cloud-server-backup-agent.html) можно восстановить файлы с носителя восстановления на компьютере Windows и даже перенести резервный образ системы компьютера на виртуальную машину для снижения показателей RPO, как показано на экране 2.

Экран 2. Восстановление файла с носителя восстановления на компьютере Windows

Кроме того, с помощью Veeam Agent for Linux (https://www.veeam.com/linux-cloud-server-backup-agent.html) можно защитить рабочие нагрузки Linux, как локальные, так и размещенные в общедоступном «облаке» (экран 3).

Экран 3. Veeam Agent for Linux

Никто не может предвидеть катастрофу. Однако в случае аварии вы сможете действовать организованно, руководствуясь планом обеспечения непрерывности бизнес-процессов. Значения RPO и RTO могут быть различными в разных компаниях, но во все времена будет существовать компромисс между требованиями бизнеса к доступности и обязательными инвестициями в ИТ. Их оценка должна быть результатом согласования между сотрудниками, ответственными за бизнес компании, и ИТ-специалистами. Но не подлежит сомнению необходимость найти надежное решение для виртуальных, физических и «облачных» рабочих нагрузок, обеспечив постоянную доступность вашего бизнеса.