Реальное спасение данных в виртуальном пространстве

Виртуализация имеет не только преимущества. К примеру, виртуальные ленточные библиотеки (Virtual Tape Libraries) хоть и спасают от смятых или порванных лент, но порождают другую опасность — повреждения жестких дисков. К тому же возможные последствия ошибочной логической организации данных из-за неправильной или отсутствующей структуры каталогов никуда не исчезают. Эти причины вероятной потери данных дополняются еще и рисками физических отказов и неправильным сохранением данных на жестких дисках, что приводит к новым проблемам. Даже виртуальное хранение информации не гарантирует ее полной сохранности. Однако спасение возможно. Для этого требуется знание сложных структур данных и специальные инструменты, призванные сделать весь процесс менее трудоемким (см. врезку «Сложность на практике: как предупредить потерю виртуализованных данных и что делать, если не удалось избежать неприятности?»).

Ключ к пониманию технологии спасения данных в виртуальных средах проще всего найти, рассмотрев модель системы организации данных. Схематическое изображение организации пяти серверных блоков, объединенных в один виртуальный массив RAID 6, имеет четыре логических уровня управления данными (см. Рисунок 1). Каждому уровню свойственны свои факторы риска, которые могут привести к тому, что данные станут недоступны.

Наглядный пример: на предприятии необходимо создать несколько разных типов виртуальных серверов (почтовый сервер, серверы для производственных данных, финансов, отдела по работе с персоналом и приложений электронной коммерции). Из-за высоких требований к сохранности данных принимается решение о создании массива RAID 6 с шестью логическими разделами. Каждому из них требуется 16 Тбайт памяти, что в сумме составляет 96 Тбайт. Такая емкость обес-печивается с помощью 96 жестких дисков объемом 1 Тбайт каждый.

Существует четыре уровня, где возможна потеря данных:

«виртуальная машина», отвечающая за общее администрирование места для хранения;
уровень RAID, на котором контроллер распределяет данные по разделам отдельных виртуальных серверов и рассчитывает контрольные суммы;
уровень отдельных виртуальных серверов;
уровень носителей данных: 96 жестких дисков или другие типы носителей.

КОГДА ГРАНИ МЕЖДУ СИСТЕМАМИ ХРАНЕНИЯ СТИРАЮТСЯ

Где могут возникать потери данных? Ответ прост: везде. Ведь жесткие диски в количестве 96 штук являются огромным источником потенциальных ошибок, к примеру, в результате физического отказа одного из носителей данных или повреждения секторов жесткого диска. Избыточные данные в массиве RAID должны обеспечивать некоторую надежность, поэтому при наличии кода с контролем четности (Parity Code) даже неисправность жесткого диска и отказ контроллера не приводят к катастрофе, поскольку RAID 6 справляется с потерей двух логических единиц. Должно случиться что-то действительно очень серьезное, чтобы данные оказались потеряны. Но, с другой стороны, чем больше элементов, потенциально подверженных сбоям, задействовано в системе, тем выше среднеарифметическая вероятность поломок.

РИСКИ ИЗ-ЗА ОРГАНИЗАЦИОННЫХ ПРОБЛЕМ

Организационные ошибки или изменения на более высоких уровнях гораздо опаснее, чем вызванные сбоями жестких дисков цепные реакции «снизу». Важно, чтобы даже многоуровневые вложенные виртуальные структуры управления системами хранения базировались на правильных записях адресов в центральных каталогах.

Адреса хранения обеспечивают определение отдельных секторов на физических информационных носителях с точностью до одного бита. А каталоги ссылаются на адреса. Если в структуре каталогов возникают ошибки, то контроллер массива RAID будет либо запрашивать адреса хранения, не содержащие нужных данных, либо не проверит все места хранения, либо примется проверять их в неверном порядке. Независимо от развития событий в каждом конкретном случае, данные станут восприниматься как поврежденные, и доступ к ним окажется невозможен.

Исходя из логики, наибольший риск возникает на уровне виртуальной машины или центрального устройства, которое автоматически управляет всеми 96 Тбайт и одновременно формирует карту ландшафта систем хранения. До тех пор, пока администрирование будет осуществляться автоматически, ничего страшного не произойдет. Проблемы могут начаться, когда ресурсы хранения придется распределять заново. Например, виртуальная машина выделит объемным финансовым данным 32 Тбайт. Как предполагается после осуществления дедупликации данных, объема в 24 Тбайт окажется вполне достаточно. Однако если реальное количество данных составляет 28 Тбайт, то устройство будет запрашивать на 4 Тбайта меньше, чем нужно. Как следствие, данные повреждаются, поскольку массивы данных не полны.

Иначе говоря, каталог мест хранения в виртуальной машине выполняет роль сценария для запросов к системе хранения. Максимально опасная возможная авария для данных — утрата этих каталогов. Чтобы заново нарисовать карту всех 96 Тбайт данных, необходимо восстановить потерянный сценарий.

КУРС ПОХУДАНИЯ С ТЯЖЕЛЫМИ ПОСЛЕДСТВИЯМИ

Помимо проблем, связанных с организацией данных, информация может оказаться утерянной при оптимизации ресурсов хранения, нередко сопутствующей виртуализации. Последняя часто выполняет функцию «выведения шлаков» из томов данных. Сжатие и дедупликация тоже способны нанести ущерб: при обратной распаковке данных иногда возникают ошибки в процессе чтения. Однако специалисты, занимающиеся восстановлением, знают, где сохраняются изменения файлов, и в аварийной ситуации способны успешно их восстановить.

При дедупликации данных отфильтровываются файлы, сохраненные по нескольку раз. Во всех каталогах размещаются указатели со ссылкой на новое место хранения. Эту связь можно нарушить двумя способами: либо удаляется ссылка, и файл не удается найти, либо отсутствуют сами файлы.

В обоих случаях данные еще можно спасти. Часто приходится прибегать к старым резервным копиям, но иногда в самой операционной системе имеются методы или другие механизмы, позволяющие отменять изменения и восстанавливать более раннее состояние данных.

Эдмунд Хилт — управляющий директор Kroll Ontrack.

© AWi Verlag

Рисунок 1. Виртуальная ленточная библиотека: риск потерь на четырех уровнях.

Сложность на практике: как предупредить потерю виртуализованных данных и что делать, если не удалось избежать неприятности?

С появлением очередной технологии виртуализации управление системами хранения оказывается все сложнее. Новые источники риска приводят к тому, что вероятность потери данных в виртуализованных средах, к сожалению, не уменьшается. В общем и целом, не становится проще и спасение данных, но справиться с этим вполне реально. Если доступ к файлу невозможен, для его восстановления требуются специальные профессиональные навыки. Механизмы RAID, защищающие данные на аппаратном уровне, необходимо дополнить технологиями отслеживания (Tracking) и протоколирования (Journaling), чтобы обеспечить высокий уровень сохранности данных, в том числе и в виртуальной среде. Сложные операции по спасению информации в виртуальных средах почти всегда требуют перемещения пострадавшего информационного носителя или даже всей системы в лабораторию специалистов по восстановлению данных. Они обладают знаниями об организации виртуальных систем хранения и могут использовать центральные структуры указателей для поиска отдельных физических секторов, на которых находятся данные.

Возможная или предполагаемая потеря данных ставит перед администратором серьезную задачу. В аварийной ситуации хорошая организация данных и подобающее ведение документации значительно облегчат поиски. Объем работ по восстановлению файлов зависит от настроек виртуальной системы. Решающую роль играет вопрос о том, в какой степени отдельные уровни виртуального массива RAID распределены по информационным носителям. Если администратор и технический директор придают большое значение производительности, доступности и защите от сбоев, то отдельные области хранения разных виртуальных единиц массива RAID свободно распределяются по всем физическим жестким дискам. В результате этого преднамеренного и в целом положительного приема чередования данных специалисты по восстановлению вынуждены в особенно неудачных случаях обследовать всю систему.

Таким образом, ответственным лицам приходится выбирать между двумя крайностями: свободное, возможно, динамичное распределение данных для повышения производительности и защиты от сбоев или отказ от этих преимуществ и более строгая организация данных, которая в аварийной ситуации несколько снизит затраты на их восстановление. В примере, который рассматривается в данной статье, специалистам нужно было отправить лишь 16 информационных носителей сервера для финансовых данных. Если речь идет о виртуальной резервной копии, то никаких проблем не возникнет. Однако в случае работающей системы такой расчет может оказаться слишком опрометчивым, ведь работа персональных программ и приложений электронной коммерции невозможна без данных финансового сервера. В такой ситуации следует предпочесть повышенную отказоустойчивость и в аварийной ситуации предусмотреть более высокие затраты на восстановление. Но в любом случае трудоемкое восстановление данных окупится, ведь на карту поставлена важная информация.

Администратору следует помнить: надо сознательно осуществлять резервное копирование и всегда держать под рукой документацию об организации данных на случай чрезвычайных обстоятельств. Чем лучше специалисты ориентируются в системе, тем быстрее им удастся обнаружить необходимые данные.