Для каждой категории необходимо оценить вероятность возникновения чрезвычайной ситуации и тяжесть последствий от потери информации. Результаты такой оценки и возможные меры защиты позволяют выделить различные «уровни паранойи».
При очень низком «уровне паранойи» данные могут храниться, к примеру, на незеркалированном жестком диске. По ночам система резервного копирования осуществляет инкрементальное резервное копирование на ленту, а по выходным — полное копирование. Предоставление данных не влечет за собой значительных расходов, однако в случае отказа жесткого диска будут утеряны все изменения, произошедшие с момента последнего резервного копирования. При высоком «уровне паранойи» предприятию следует предпочесть высокодоступную систему хранения. Локальное зеркалирование гарантирует, что отказ одного из жестких дисков не приведет к утрате данных. Кроме того, на случай возможного уничтожения системы хранения данные следует зеркалировать на выделенное оборудование, установленное в другом месте. Использование системы непрерывной защиты данных (Continuous Data Protection, CDP) позволит протоколировать все изменения в реальном времени и при возникновении логической ошибки обеспечит возврат к наиболее актуальной работоспособной версии. Помимо этого, рекомендуется иметь в наличии еще и резервную копию на ленточном носителе, которая будет храниться в сейфе.
Бесперебойный доступ к данным позволяют реализовать, к примеру, локальные кластеры серверов — при отказе одного сервера его функции автоматически начинает выполнять другой. Дополнительная защита таких кластеров реализуется с помощью удаленных кластерных систем.
Важнейшая характеристика любой категории данных — так называемое целевое время восстановления (Recovery Time Objective, RTO). Оно определяет промежуток времени, требуемый для восстановления утерянной информации. Целевая точка восстановления (Recovery Point Objective, RPO) задает временной интервал между двумя резервными копированиями данных. Для выполнения индивидуальных требований к безопасности отделу ИТ необходимо заранее и точно определить необходимую частоту резервного копирования и технологию, которая будет для этого использоваться. Одновременно следует запланировать выделение тех или иных ресурсов, которые потребуются для возможного аварийного восстановления. Кроме того, заранее придется решить, можно ли будет прервать важные процессы резервного копирования, если возникнет такая необходимость при аварийном восстановлении системы.
В отношении доступности систем резервного копирования главным является, прежде всего, сохранение файлов с журналами важных баз данных. Если файловая система для хранения журналов переполнится, то работа базы данных будет приостановлена. В некоторых случаях сервер резервного копирования необходимо реализовать в виде кластерной системы, чтобы резервное копирование этих файлов осуществлялось с максимально высоким уровнем доступности.
ОПРЕДЕЛЕНИЕ SLA
После изучения факторов влияния (см. Рисунок 1) можно заключить соглашение об уровне сервисного обслуживания (Service Level Agreement, SLA). В таком случае группа специалистов, работающих над проектом, присваивает отдельным характеристикам конкретные обязательные значения. Для этих целей можно, к примеру, задать уровень (Tier) для различных приложений, а затем для каждого уровня указать параметры, определяющие, в какой степени защиты нуждаются данные, относящиеся к какой-либо категории. При определении соглашений SLA следует принять во внимание вероятность «лавинообразных сбоев» (Rolling Disaster), а также выявить потенциальные точки общесистемного отказа (Single Point of Failure, SPoF). Лавинообразный сбой — особый случай «уровня паранойи», когда катастрофа наступает не в определенный момент времени, а одно событие влечет за собой другое.
Лишь конец цепочки событий определяет собственно катастрофу — это может быть ошибка записи в одном из компонентов RAID, последствия которой сказываются на всем массиве, или отказ одного процессора в многопроцессорной системе, что ведет к повышенной нагрузке на остальные, которые затем выходят из строя один за другим. Устранение точек общесистемного отказа не может предотвратить возникновение лавинообразных сбоев, однако анализ таких уязвимостей — важный элемент разработки решений для аварийного восстановления. Ведь если важные компоненты системы представляют собой точки общесистемного отказа, то в любом случае требуется их избыточное исполнение.
Данные и их доступность подвержены угрозам криминального и естественного характера. Самая простая опасность — отключение электричества. В зависимости от «уровня паранойи» способы защиты могут быть разными. Так, бесперебойную работу систем можно обеспечить за счет использования двух раздельных систем энергоснабжения в центре обработки данных (ЦОД) или агрегата аварийного питания. Источник бесперебойного питания (ИБП) позволит корректно завершить работу серверов.
Возможный сбой серверов на предприятии можно предотвратить с помощью кластера серверов. При этом при выходе из строя одного из серверов его обязанности автоматически берет на себя другой сервер из кластера. В целях экономии можно ограничиться установкой резервных серверов (Standby), но предприятию придется быть готовым к кратковременным простоям.
При анализе точек общесистемного отказа специалистам следует очень внимательно проверить все соединения, ведь сбои на линиях глобальной сети или отказ сетевых компонентов могут препятствовать доступу к важным данным. Этот компонент стратегии по предотвращению катастроф нередко оказывается наиболее сложным и затратным при организации защиты критически важных для деятельности предприятия файлов. Ошибки пользователей — такие как ошибочное удаление раздела на сервере, случайное активирование аварийного выключателя в ЦОД или неправильное переключение на коммутационной панели — могут привести к сбоям систем. Предотвратить все возможные сценарии нельзя, но для уже утраченных данных должны существовать различные способы восстановления.
КОНЦЕПЦИИ РЕЗЕРВНОГО КОПИРОВАНИЯ
Классическое резервное копирование на ленточные носители — хороший вариант, если структура защищаемых данных соответствует этому подходу. При большом количестве однотипных данных, легко поддающихся параллелизации, производительность современных ленточных носителей наиболее высока. Если, например, 25 накопителей LTO-4 загружены оптимально, скорость обработки данных может достигать 3 Гбит/с. Это означает, что за час можно сохранить до 10 Тбайт информации. Использование ленточных носителей позволяет хранить особо важные данные в защищенном месте. Альтернативные решения, которые осуществляют резервное копирование на дисковые системы хранения, экономят время, так как при восстановлении данных не приходится устанавливать ленты и отсутствует необходимость их позиционирования.
Частный случай дисковых технологий резервного копирования — сохранение данных с помощью снимков (Snapshots), применение которых позволяет существенно сократить затраты времени на восстановление. Однако эта технология загружает рабочие системы хранения, ведь снимок состоит из оригинала и соответствующих изменений, а для этого системе требуются оригинальные данные. При восстановлении считываются как оригиналы, так и информация из снимка. Если в оригинале возникает ошибка, то данные из снимка восстановить невозможно. Технология непрерывной защиты данных (Continious Data Protection, CDP) представляет собой дальнейшую эволюцию подхода с использованием кадров — изменения, происходящие в рабочих системах хранения, непрерывно записываются во вторичную систему. Это позволяет произвести восстановление системы на любой момент времени (см. Рисунок 2).
Помимо этого, дедупликация данных позволяет экономно использовать емкость систем хранения и разгрузить другие компоненты процесса резервного копирования. На рынке получили признание две основные концепции. Первая — дедупликация в приемнике (Target-based Deduplication), когда задействуется только резервный носитель и обеспечивается лишь уменьшение объема сохраняемых данных. Система распознает избыточные блоки и заменяет их ссылками на уже существующие данные. Вторая — дедупликация на источнике (Source-based Deduplication), когда обработка данных осуществляется на исходном носителе; в результате разгружается сеть и сокращается нагрузка на процессоры сервера.
Если резервное копирование данных ориентировано на восстановление файлов, имеющих критическую важность для предприятия, то при аварийном восстановлении после сбоев делается акцент на возобновление работы нижележащих систем. В этой связи часто упоминается технология восстановления с нуля (Bare Metal Recovery, BMR). Большинство решений рассчитано на восстановление системы, когда используемое аппаратное обеспечение идентично исходному, однако отказ системы часто вызывается компонентом, который уже недоступен в изначальном виде. Поскольку во многих решениях BMR системные разделы сохраняются в виде образов, то адаптация старых образов для новой среды оказывается трудоемкой. В качестве альтернативы можно прибегнуть к сохранению профилей, когда важные параметры системы записываются в базе данных, чтобы при восстановлении их можно было индивидуально применить к новой системе. Подобные решения предусматривают хранение образа операционной системы в аппаратно-независимом виде и наличие профиля со всеми важными параметрами, определяющими восстанавливаемую систему.
ЗАКЛЮЧЕНИЕ
При определении «уровня паранойи» для подготовки к возможным сбоям следует выяснить, какова вероятность наступления катастрофы по данному сценарию, насколько дорогостоящими будут последствия в случае ее наступления и больших ли затрат потребует защита от этой угрозы. Дальнейшие шаги определяются ответами на эти вопросы и «уровнем паранойи».
Михаэль Шмитт — консультант по бизнес-технологиям в сфере защиты данных, EMC Centre of Expertise.
Рисунок 2. Система непрерывной защиты данных (CDP) протоколирует все изменения в реальном времени и в случае возникновения логической ошибки может активировать последнюю работоспособную версию.