Обычно причиной, побуждающей компании или государственные структуры заменять оборудование, является либо расширение бизнеса, либо появление новой задачи, требующей качественно новой функциональности. Но если развитие идет без резких подвижек, а на рынке появилось новое решение, то для стимулирования спроса производители предлагают программу Trade in — демонтаж старого оборудования и его замену на новое с неменьшей функциональностью. Для продаж таких потребительских товаров, как ноутбуки и настольные ПК, у ряда производителей имеются свои программы, но для такой относительно консервативной области, как системы хранения данных, требуются весомые аргументы в пользу замены работающего оборудования. Программа Trade in, предложенная компаниями «Крок» и EMC, направленная на замену любых ленточных и дисковых систем хранения на EMC Data Domain (EMC DD), — уникальная для России инициатива такого рода.

Система хранения резервных копий — страховка для критически важных данных любой крупной организации, и любое нарушение в ее работоспособности может иметь весьма серьезные последствия для бизнеса. Решаясь на замену или модернизацию такой системы, заказчик ожидает, что новая инфраструктура как минимум позволит снизить риски, будет надежней и производительней предыдущей, а стоимость ее сопровождения уменьшится. Подобный переход на новую инфраструктуру должен быть безболезненным, а сам процесс — не нарушать текущих бизнес-процессов.

Несмотря на надежность современных ленточных систем хранения, полной гарантии того, что созданная в процессе резервного копирования конфигурация всегда будет восстановлена с ленты, — нет. Это может быть связано с рядом причин, среди которых всегда будут физический износ и деформация лент, своевременно отследить которые и оперативно заменить картридж может оказаться непросто, а иногда вообще невозможно.

Между тем в EMC Data Domain осуществляется постоянная проверка целостности записываемых данных, что позволяет обнаружить факт несоответствия «на лету» и обеспечить автоматическое исправление ошибок. Это избавляет от необходимости повторения заданий и гарантирует их своевременное выполнение. Кроме того, в Data Domain имеется функция непрерывного обнаружения ошибок и самовосстановления данных в течение всего жизненного цикла их хранения. Эта функция проверяет все операции записи на совпадение контрольных сумм исходных и записанных данных. Иначе говоря, система после записи проверяет возможность считывания только что записанных данных и в случае нарушения осуществляет перезапись. Фактически это означает, что Data Domain дает гарантию восстанавливаемости хранимых в дедуплицированном виде данных.

Для Data Domain характерно гарантированное быстродействие, которое достигается за счет использования дисковых носителей и дедупликации «на лету», осуществляемой сегментами переменной длины, что не только ускоряет выполнение операций чтения-записи, но и в ряде случаев вообще их исключает. Если система обнаружит, что содержимое вновь создаваемой копии не отличается от содержимого ранее сохраненной, то она не будет обращаться к диску. Таким образом, снижается нагрузка на сеть, что уменьшает вероятность сбоев при передаче данных, а значит — и риски получения некорректной резервной копии. В нашей практике за последние три года было всего два случая сбоя при восстановлении с резервных копий, и оба произошли не по причине оборудования.

Просто о сложностях дедупликации

Избавление от избыточности при хранении и передаче данных невозможно без использования серьезного математического аппарата, однако основные идеи лежат буквально на поверхности.

Леонид Черняк

Доступ к данным на диске осуществляется быстрее, чем к тем же самым данным на ленте, что важно для систем восстановления и резервного копирования. Кроме того, очевидно, что чем меньше механических компонентов, тем надежнее система. Однако, несмотря на активное использование дисков, а также триумфальное шествие флэш-памяти, ленты по-прежнему остаются достаточно распространенным средством резервного копирования. Но выход компонентов ленточных библиотек из строя — это большие риски: например, обрыв ленты в кассете означает либо потерю всех данных, либо инициацию продолжительной процедуры восстановления с резервной кассеты. В то время как выход из строя даже нескольких дисков в RAID не приводит к потере данных, а лишь увеличивает нагрузку на дисковую подсистему. А учитывая, что при инкрементальном копировании-архивировании основная нагрузка приходится на процессор, дисковая подсистема перестает быть узким местом в производительности системы резервного копирования.

Еще одной способностью Data Domain является технология «моментальных снимков», позволяющая мгновенно делать вторичные копии данных и хранить их требуемое время. Такие снимки можно использовать для проверки резервных копий, создания вторичных копий, выполнения тестовых восстановлений данных и т. д. Однако для ленточных устройств время создания вторичной копии фактически равно времени первичного копирования.

В инфраструктуре системы хранения на лентах размер созданной резервной копии равен размеру исходного массива, что означает необходимость увеличения хранилища вдвое и сказывается на стоимости хранения. Дисковые библиотеки с технологией дедупликации позволяют уменьшить затраты на единицу хранимой информации. Например, средний уровень дедупликации для системы Data Domain составляет 17,4 : 1 — иначе говоря, объем хранимой резервной копии будет равен 1 Тбайт, из которых при восстановлении будет развернуто 17,4 Тбайт исходных данных.

Новое оборудование достаточно простое в управлении — ИТ-администраторы получают доступ к операционной системе Data Domain при помощи командной строки по протоколу SSH или через приложение EMC Data Domain Enterprise Manager, имеющее графический интерфейс на основе браузера. Данные средства позволяют выполнить начальную настройку и обновить конфигурацию сразу нескольких систем, одновременно осуществляя при этом мониторинг состояния системы и отслеживая статус выполняемых операций. Возможность использования скриптов вместе с мониторингом по протоколу SNMP обеспечивает дополнительную гибкость управления. Все системы Data Domain оснащены функцией автоматической обратной связи, осуществляющей поддержку отправки администратору уведомлений, содержащих подробное описание текущего состояния системы. Дополнительно имеется автоматическая система оповещения и сбора данных для упреждающей поддержки, которая без привлечения администратора сообщает в сервисную службу производителя о необходимости замены того или иного компонента.

Система Data Domain поддерживает сетевые протоколы CIFS (производное от Windows API по работе с файлами), NFS, VTL (эмуляция ленточных библиотек), а также интерфейсы со всеми популярными системами резервного копирования и архивирования: Symantec Net Backup, HP Data Protector, IBM Storage Management, EMC NetWorker и CA ArcServ. Это обеспечивает бесшовность замены ленточных и дисковых библиотек на Data Domain. Для заказчиков, предпочитающих интерфейс командной строки, в системе имеется 30 команд, решающих все задачи копирования и восстановления.

В Data Domain поддерживается протокол EMC Data Domain Boost, позволяющий переносить выполнение задач дедупликации на сервер резервного копирования, что снижает нагрузку на сеть и увеличивает скорость создания резервной копии. Данный протокол работает с ПО резервного копирования от Symantec, EMC и Oracle RMAN.

Схема процесса миграции
Схема процесса миграции

 

На рисунке представлена схема процесса перехода с ленточной системы хранения на Data Domain. В текущей конфигурации системы хранения создается виртуальная дисковая библиотека, которая назначается в качестве дополнительного носителя резервной копии, и постепенно, по мере создания таких копий, на нее переносятся все данные резервирования, после чего старая библиотека на магнитных лентах логически удаляется из конфигурации. Благодаря виртуализации прикладные системы, поддерживающие бизнес-процессы заказчика, просто не заметят подмены, логически продолжая писать данные на ту же самую «ленту». Для дисковой системы хранения схема миграции не меняется. В среднем, в зависимости от объема копируемых данных, процесс перехода на Data Domain может занять от одного дня до недели.

***

По программе Trade in Data Domain заказчик может заменить свой «бензиновый автомобиль» (систему хранения на ленточной билиотеке) на гибридный, способный эффективно работать на всех видах «топлива» — магнитных лентах, жестких дисках и флэш-накопителях. На данный момент услугой Trade in EMC Data Domain заинтересовались восемь компаний, а некоторые уже заменили свои старые ленточные библиотеки.

 

Архитектура Data Domain

Система хранения данных Data Domain (рис. 1) была создана одноименной компанией, в 2009 году вошедшей в состав EMC.

Рис. 1. Ресурсы хранения для Data Domain
Рис. 1. Ресурсы хранения для Data Domain

 

Системы Data Domain, предназначенные для резервного копирования и архивирования корпоративных информационных ресурсов, обладают одним из самых высоких в отрасли показателей пропускной способности — 31 Тбайт/ч и позволяют хранить архивы емкостью до 100 Пбайт. Однако прежде всего их отличает встроенная функция дедупликации, позволяющая создавать больше резервных копий за меньшее время, что снижает размер окон, выделяемых для резервного копирования. Для уменьшения необходимого для хранения данных дискового пространства, в системах Data Domain предусмотрена дедупликация «на лету», выполняемая непосредственно в процессе резервного копирования или архивирования, в результате чего на диск записываются уже дедуплицированные данные.

Высокие показатели производительности стали возможны благодаря масштабируемой архитектуре EMC Data Domain Stream-Informed Segment Layout, позволяющей использовать процессор, который в оперативной памяти системы выявляет повторяющиеся сегменты данных (дедуплицируя данные «на лету»), что дает возможность сократить количество обращений к дискам.

Каковы бы ни были показатели производительности и емкости систем резервного копирования и архивирования, главное их предназначение — обеспечение надежного восстановления данных, которое в Data Domain стало возможным благодаря архитектуре Data Invulnerability Architecture. Целостность данных проверяется на трех уровнях: метаданных файловой системы, пользовательских данных и на физическом уровне хранения (рис. 2).

Рис. 2. Комплексная проверка целостности
Рис. 2. Комплексная проверка целостности

 

Проверка производится сразу после записи данных путем сравнения с информацией, которая была отправлена на диск. При этом проверяется доступность данных на диске в файловой системе и отсутствие повреждений. В частности, когда операционная система Data Domain получает запрос на запись от ПО резервного копирования, то вычисляется контрольная сумма, а после анализа данных на наличие избыточности новые сегменты данных и все контрольные суммы сохраняются. Записав все данные на диск, операционная система проверяет возможность чтения уже всего файла с диска в файловой системе, а также совпадение контрольных сумм считанных и записанных данных. Подтверждение корректности данных и возможности их восстановления требуется на каждом уровне системы. Такая комплексная проверка записи и чтения защищает от сбоев, дает возможность автоматически исправить ошибки во время добавления и извлечения данных, не позволяя некорректной копии попасть на диск.

 

Владимир Колганов (vkolganov@croc.ru) — руководитель направления систем хранения данных департамента вычислительных систем, компания «Крок» (Москва).