Для современной организации, обязанной соответствовать нуждам и ожиданиям своих клиентов, простои недопустимы. Возможны различные типы происшествий, от которых зависит доходность и даже само существование предприятия. Это может быть атака вымогателей, отключение электроэнергии, наводнение или просто ошибка оператора. Такие события непредсказуемы, и лучшее, что мы можем сделать, — это заранее подготовиться к ним.
Готовность подразумевает наличие добротного плана обеспечения непрерывности бизнес-процессов и аварийного восстановления (BCDR). Такой план должен быть протестирован и при необходимости без промедлений введен в действие.
Два важных параметра, определяющих план BCDR, — целевая точка восстановления (RPO) и целевое время восстановления (RTO), как показано на рисунке 1. Приведу краткое пояснение этих терминов:
- RPO показывает, насколько далеко нужно вернуться во времени, и определяет максимально допустимое количество потерянных данных, измеряемое временем между моментом возникновения неисправности и создания последней исправной резервной копии.
- RTO характеризует время простоя и показывает, сколько времени проходит между сбоем и восстановлением нормального функционирования системы для пользователей.
Рисунок 1. Этапы процесса восстановления |
На первый взгляд характеристики RPO и RTO похожи, но они служат разным целям; в идеальном случае их значения стремятся к нулю. Однако в реальности стоимость достижения нулевых показателей RPO и RTO чрезвычайно высока, и затраты на это вряд ли окупятся.
Познакомимся поближе с целями восстановления. RPO определяет, какое количество данных можно потерять, прежде чем эта потеря затронет вашу профессиональную деятельность. Например, в банковских системах простой в течение часа может иметь катастрофические последствия при выполнении текущих транзакций. Для себя вы можете определить RPO как момент последнего сохранения документа, над которым вы работаете. В случае сбоя системы и потери данных сколько результатов работы вы готовы потерять без заметного ущерба?
С другой стороны, RTO — временные рамки, в которых приложения и система могут быть восстановлены после сбоя.
Целесообразно измерять RTO начиная с момента сбоя, а не с момента, когда специалисты ИТ-подразделения начинают устранять неполадки. Это более реалистичный подход, точно представляющий точку, когда неисправность затронула пользователей.
Как определить значения RTO и RPO для ваших приложений
На самом деле универсального решения для плана обеспечения непрерывности бизнес-процессов и его метрик не существует. Компании, принадлежащие к разным отраслям, различаются, имеют разные нужды и поэтому предъявляют различные требования к целям восстановления. Однако широко практикуется разделение приложений и служб по разным уровням и назначение времени восстановления и целевой точки восстановления в соответствии с соглашениями об уровне обслуживания, действующими в компании.
Классификация защиты данных важна для определения методов эффективного сохранения, доступа, защиты, восстановления и обновления информации на основе специфических критериев. Необходимо проанализировать ваши приложения и определить, какие из них формируют прибыль, а без каких функционирование компании невозможно. Этот процесс, без которого не удастся построить хороший план обеспечения непрерывности бизнес-процессов, называется анализом последствий для деятельности (BIA), и он же задает протоколы и действия на случай аварии.
Например, вы можете использовать трехуровневую модель для плана обеспечения непрерывности бизнес-процессов:
Уровень 1. Критически важные для компании приложения, для которых требуется RTO менее 15 минут.
Уровень 2. Критически важные для ведения бизнеса приложения, для которых требуется значение RTO 2 часа и RPO 4 часа.
Уровень 3. Некритические приложения, для которых требуется значение RTO 4 часа и RPO 24 часа.
Следует помнить, что критически важные для существования компании и ведения бизнеса и некритические приложения могут быть разными в различных отраслях, и каждая компания определяет эти уровни на основании собственных критериев.
После того как вы определили приоритет своих приложений и служб и выяснили, какими будут последствия конкретных происшествий, следует найти решение, способное защитить бизнес-данные и деятельность компании. Veeam Availability Platform (https://www.veeam.com/availability-platform.html) — исчерпывающий набор инструментов, спроектированный с учетом соответствия строгим требованиям восстановления виртуальных, физических и «облачных» рабочих нагрузок.
Практическое применение RTO и RPO
Быстрое восстановление элементов приложения
Агент по продажам удалил сообщение электронной почты, которое должно быть как можно быстрее отправлено клиенту. Microsoft Exchange — пример приложения уровня 2. ИТ-администратор составляет график заданий резервного копирования в течение суток, и компания может определенно достигнуть RPO со значением 1 час. С помощью программы Veeam Explorer for Microsoft Exchange (https://www.veeam.com/microsoft-exchange-recovery.html), которая входит в состав всех версий Veeam Backup & Replication (https://www.veeam.com/vm-backup-recovery-replication-software.html), очень просто восстановить отдельное сообщение электронной почты за несколько минут или даже секунд, не затрачивая время и ресурсы на промежуточное сохранение или восстановление всей виртуальной машины сервера приложений (экран 1).
Экран 1. Быстрое восстановление всего виртуального сервера непосредственно из резервной копии |
Представим себе банк, который располагает несколькими банкоматами. Система банкоматов (ATM) критически важна для функционирования банка (уровень 2), но ее выход из строя на несколько часов повлияет на транзакции банка, а не на целостность всего предприятия. С помощью Veeam Backup & Replication и компонента Instant VM Recovery (https://www.veeam.com/instant-vm-recovery.html) можно немедленно запустить виртуальный сервер ATM из дедуплицированного и сжатого файла резервной копии Veeam. Это обеспечит RTO со значением в несколько минут! Кроме того, благодаря функциям миграции гипервизора и программе Veeam Quick Migration (https://helpcenter.veeam.com/docs/backup/vsphere/quick_migration.html? ver=95) не составляет труда перенести активную виртуальную машину из хранилища данных резервных копий в рабочее хранилище данных, завершив процесс восстановления (рисунок 2).
Рисунок 2. Восстановление виртуальной машины из хранилища |
Отработка отказа всего сайта
Предположим, ошибка оператора привела к сбою электропитания в одном из центров обработки данных, что может привести к отказу всего сайта и потере доступа ко всем приложениям уровня 1. Предположим, вы используете Veeam для репликации всех критически важных виртуальных машин в удаленное расположение дважды в день. Это позволяет добиться требуемого значения RPO в несколько минут. С точки зрения RTO продукт Veeam позволяет легко выполнить восстановление после серьезных аварий благодаря нескольким встроенным функциям: отработке отказа одним щелчком мыши, помощи в восстановлении размещения, правилам Re-IP для соответствия сети на сайте аварийного восстановления (https://helpcenter.veeam.com/docs/backup/hyperv/network_mapping.html? ver=95) и настоящему «облачному» аварийному восстановлению (рисунок 3).
Рисунок 3. Отработка отказа всего сайта |
Защита конечных точек
При переходе от виртуальной инфраструктуры в реальный мир Veeam также предоставляет решения для резервного копирования и восстановления ноутбуков и настольных компьютеров. С помощью Veeam Agent for Microsoft Windows (https://www.veeam.com/windows-cloud-server-backup-agent.html) можно восстановить файлы с носителя восстановления на компьютере Windows и даже перенести резервный образ системы компьютера на виртуальную машину для снижения показателей RPO, как показано на экране 2.
Экран 2. Восстановление файла с носителя восстановления на компьютере Windows |
Кроме того, с помощью Veeam Agent for Linux (https://www.veeam.com/linux-cloud-server-backup-agent.html) можно защитить рабочие нагрузки Linux, как локальные, так и размещенные в общедоступном «облаке» (экран 3).
Экран 3. Veeam Agent for Linux |
Никто не может предвидеть катастрофу. Однако в случае аварии вы сможете действовать организованно, руководствуясь планом обеспечения непрерывности бизнес-процессов. Значения RPO и RTO могут быть различными в разных компаниях, но во все времена будет существовать компромисс между требованиями бизнеса к доступности и обязательными инвестициями в ИТ. Их оценка должна быть результатом согласования между сотрудниками, ответственными за бизнес компании, и ИТ-специалистами. Но не подлежит сомнению необходимость найти надежное решение для виртуальных, физических и «облачных» рабочих нагрузок, обеспечив постоянную доступность вашего бизнеса.