Доступность и сохранность данных — залог непрерывности бизнес-процессов и эффективности работы. Сегодня данные — один из самых ценных активов, поэтому их резервное копирование и архивное хранение — наиболее типичные задачи, а система резервного копирования — важная часть любой корпоративной информационной системы. При правильной организации она способна надежно защитить критичные данные.
Внедрение систем резервного копирования дает возможность оперативно восстанавливать информацию в самых разных ситуациях, однако и они не лишены недостатков. Традиционные проблемы — неэффективное использование емкости хранения (объем резервных копий за неделю может вдвое превысить объем исходных данных), низкая скорость копирования, непредсказуемое время восстановления (как правило, намного больше планируемого), не очень высокая надежность (по данным Gartner, риск невозможности восстановления превышает 10%).
Решения для резервного копирования и восстановления должны эффективно функционировать в условиях экспоненциального роста данных, ужесточения требований регуляторов и сокращения окон резервного копирования. Крайне желательно также обеспечить снижение затрат, связанных с защитой данных. Преодолеть перечисленные проблемы призвана дедупликация данных. В том или ином виде ее предлагают в своих продуктах все ведущие вендоры систем резервного копирования корпоративного класса.
УСТРАНЕНИЕ ИЗБЫТОЧНОСТИ
Дедупликация, по определению IDC, — это технология создания из дубликатов единой копии данных с возможностью совместного доступа, повышающая эффективность использования емкости систем хранения. Согласно Microsoft, это процедура поиска и удаления дублирующихся данных без ущерба для их качества и целостности с целью уменьшения объема пространства, занимаемого данными (см. заставку).
Блоки, общие для нескольких файлов, хранятся в виде одной копии, поэтому требования к емкости хранения всех файлов снижаются. Удаляя повторяющиеся последовательности данных, дедупликация позволяет значительно сократить объем передаваемых и/или хранимых данных. Чтобы еще сильнее его уменьшить, дедупликацию нередко сочетают с компрессией (сжатием), называя все это уплотнением данных.
При запросе файл собирается из соответствующих блоков (для пользователя или приложения этот процесс прозрачен), поэтому, применяя дедупликацию к файлам, можно не беспокоиться о том, что работа приложений осложнится или доступ пользователей к файлам окажется невозможен. Дедупликация снижает издержки, сводя к минимуму накладные расходы на хранение и передачу данных.
ДЕДУПЛИКАЦИЯ В СИСТЕМАХ РЕЗЕРВНОГО КОПИРОВАНИЯ
При использовании в системах резервного копирования дедупликация помогает решить целый ряд проблем и дает весомые преимущества (см. табл. 1).
Таблица 1. Основные преимущества дедупликации в системах резервного копирования |
Основные причины использования дедупликации данных в системе резервного копирования — небольшой размер резервных копий (см. рис. 2), снижение потребности в емкости хранения, сокращение сетевого трафика, уменьшение окна резервного копирования. Ежедневно выполняемое полное резервное копирование позволяет гарантировать быстрое восстановление за один шаг.
Рис. 2. Дедупликация радикально сокращает объем передаваемых и хранимых данных, позволяя устранить узкие места в ИТ-инфраструктуре и уменьшить затраты на хранение |
В системах резервного копирования с функцией дедупликации возможны различные варианты хранения резервных копий: ленточные накопители и библиотеки, виртуальные ленточные библиотеки, дисковые массивы и системы хранения данных, в том числе со встроенной дедупликацией. Дедупликация выполняется «на лету» (в процессе резервного копирования или архивирования), поэтому на диске, а также в облачных хранилищах (cloud backup) сохраняются уже дедуплицированные данные.
Требования к емкости сокращаются в среднем 10–30 раз, значительно повышаются скорость и надежность восстановления и извлечения данных. Но ничто не дается даром: дедупликация требует затрат. Нужны вычислительные ресурсы, к тому же происходит снижение производительности систем или увеличивается их стоимость. Поэтому нужно выяснять, какие издержки неизбежны при использовании каждого метода.
ВИДЫ ДЕДУПЛИКАЦИИ
Существуют разные виды, или методы, дедупликации, у каждого свои преимущества и недостатки (см. табл. 2).
Таблица 2. Основные схемы дедупликации |
Дедупликация может выполняться на источнике данных или непосредственно в хранилище. В зависимости от этого распределяется вычислительная нагрузка. При первом методе данные обрабатываются на стороне клиента и по окончании дедупликации пересылаются на устройства хранения. В результате нагрузка на сеть снижается, но на клиентах приходится устанавливать специализированное ПО и оснащать их значительными вычислительными ресурсами. Второй метод предусматривает применение более мощных и дорогих СХД, но затраты на первоначальную передачу данных фактически не снижаются. В любом случае нужно учитывать, что требования дедупликации к ресурсам системы достаточно высоки.
ЭФФЕКТИВНОСТЬ ДЕДУПЛИКАЦИИ
По данным Dell EMC, дедупликация на источнике позволяет сократить емкость хранения до 50 раз, трафик — до 500 раз, время резервного копирования — до 10 раз. Однако ее эффективность очень сильно зависит от типа данных. Очевидно, что наибольший эффект достигается, когда данные обладают большой избыточностью, а также когда копируются и/или сохраняются после внесения незначительных изменений.
В общем случае для неструктурированных данных (файлы документов, журналов, образов и виртуальных машин, электронной почты и архивов) характерен высокий коэффициент дедупликации — их объем нередко уменьшается в 20–30 раз. Например, хорошо дедуплицируются файлы виртуальных машин (VHD): экономия может составлять до 90% (см. рис. 3). Дедупликация структурированной информации, например баз данных, не настолько эффективна (обычно до 5–8 раз).
Рис. 3. Эффективность дедупликации в Windows Server 2012 при ее применении к разным типам файлов: библиотекам VHD, файлам для развертывания ПО, общим и пользовательским файлам |
Дедупликация мультимедийных файлов тоже не обеспечивает большой экономии. Изображения, видео (JPEG, GIF, TIF, MPEG, и др.), результаты сжатия и шифрования, картографические и сейсмические данные, файлы САПР — все эти форматы проблемные для дедупликации.
Хорошо дедуплицируются редко изменяемые данные, поскольку постоянный доступ к данным и их изменение могут свести к минимуму эффект дедупликации. Microsoft не рекомендует применять дедупликацию к серверам Hyper-V, SQL и Exchange, файлам запущенных виртуальных машин, большим файлам (более терабайта). Она может функционировать на файловом, блочном или битовом уровне (см. табл. 3).
Таблица 3. Уровни дедупликации |
В некоторых схемах, основанных на хешировании, для повышения коэффициента дедупликации применяется предварительная обработка данных. Если данные обрабатываются на стороне клиента, дедупликация блоков переменной длины позволяет значительно уменьшить время резервного копирования, так как сохраняются только уникальные сегменты. Этот метод более эффективен, чем традиционная дедупликация сегментов фиксированной длины, когда даже небольшие изменения в наборе данных приводят к резервному копированию всего файла.
Таблица 4. Некоторые продукты резервного копирования с функцией дедупликации |
В системах резервного копирования могут использоваться и иные методы дедупликации (см. табл. 4 и рис. 4). К тому же разработчики систем хранения применяют разные алгоритмы дедупликации, в том числе достаточно сложные, для которых нужно больше процессорных ресурсов. Поэтому величина коэффициента дедупликации зависит от реализации этой технологии.
Рис. 4. IBM Spectrum Protect (Tivoli Storage Manager, TSM): дедупликация на сервере и на клиенте |
Рассмотрим некоторые системы резервного копирования более детально.
IBM SPECTRUM PROTECT И PROTECTIER
Система IBM Spectrum Protect позволяет уменьшить риск потери данных за счет постоянного инкрементного резервного копирования и дедупликации. Она поддерживает множество разных видов хранилищ, в том числе гибридные облака, и помогает автоматизировать управление информацией.
IBM удерживает позицию одного из ведущих производителей систем резервного копирования, в том числе благодаря запуску технологии облачного многоуровневого хранения для IBM Spectrum Protect. Это решение позволяет осуществлять безопасное и простое в управлении автоматическое резервное копирование данных в облаке.
IBM TS7650G ProtecTIER Deduplication Gateway обладает одними из лучших в отрасли показателями скорости дедупликации в реальном времени. Емкость хранилища резервных копий может превышать 25 Пбайт. В сочетании с системами хранения данных (от IBM или других вендоров) TS7650G ProtecTIER повышает производительность хранилища и обеспечивает долговременное хранение и доступность данных, находящихся в резервных копиях и архивах.
Производительность резервного копирования при дедупликации виртуальной ленточной библиотеки (VTL), осуществляемой в реальном времени, при передаче данных достигает 9 Тбайт в час. По информации IBM, в системе в компактном корпусе 2U применяется алгоритм поддержания целостности данных без хеширования, поэтому риск потери данных из-за коллизий хеш-функций сводится к нулю (см. рис. 5).
Благодаря патентованному алгоритму дедупликации HyperFactor, не использующему хеш-функции, требуемая емкость системы хранения данных уменьшается в 25 раз и более. По мнению разработчиков, с его помощью можно существенно снизить затраты и обеспечить корпоративный уровень целостности данных. Индекс хранится в оперативной памяти и не затрудняет обработку больших массивов данных (до 10 Тбайт), что не исключено в случае хеширования.
Приложение резервного копирования записывает данные на ProtecTIER как в обычную ленточную библиотеку. При этом сохраняется только уникальная информация, на уже существующую создаются ссылки. Когда данные устаревают, ссылки удаляются и место освобождается.
AVAMAR ОТ DELL EMC
Дедупликация сегментов переменной длины, которая осуществляется на устройстве клиента, реализована в системе резервного копирования Avamar от Dell EMC. Avamar — комплексное программно-аппаратное решение для резервного копирования и восстановления данных, интегрируемое с СХД Data Domain. Оно поддерживает виртуальные и физические среды, корпоративные приложения, сетевые системы хранения данных (NAS) и ПК, защиту данных удаленных офисов.
Глобальная дедупликация на стороне клиента уменьшает объем резервного копирования. Специфика глобальной дедупликации заключается в том, что при любом типе или количестве внешних устройств и сеансов данные копируются и сохраняются в пуле дедупликации один раз. Как отмечают в Dell EMC, сокращение времени на ежедневное резервное копирование достигает 90%, нагрузка на сеть (в терминах необходимой пропускной способности) уменьшается на 99%, а суммарная емкость дисковых систем хранения данных — на 95%.
Система разделяет данные, подлежащие резервному копированию, на сегменты, сжимает их и применяет для каждого уникальный хеш-идентификатор. Затем она определяет, производилось ли ранее резервное копирование сегмента, и копирует только уникальную информацию. Резервное копирование одних и тех же данных никогда не выполняется.
Быстрое одноэтапное восстановление данных исключает необходимость восстанавливать последние целостные полные и инкрементные резервные копии. Надежность сервера Avamar и возможность восстановления данных резервного копирования проверяются ежедневно. Решение позволяет оперативно восстановить данные конкретного приложения.
Avamar можно развертывать и в виде только программного решения. EMC Avamar Virtual Edition (AVE) представляет собой виртуальное устройство с функцией дедупликации для резервного копирования и восстановления. AVE позволяет развернуть полнофункциональный сервер Avamar в среде виртуализации VMware или Microsoft Hyper-V. Когда в качестве системы хранения используется Data Domain Virtual Edition, AVE можно масштабировать до 16 Тбайт.
Среди технологических особенностей решения можно выделить несколько наиболее полезных: наличие специального кеша уникальных файлов и блоков, что позволяет осуществлять обход файловой системы значительно быстрее, чем в случае традиционного резервного копирования; поддержку большинства известных корпоративных приложений, таких как SAP, Oracle, MS SQL и других; поддержку технологии VMware Changed Block Tracking (CBT) для отслеживания измененных блоков (позволяет ускорить процесс резервного копирования и восстановления), а также наличие специального плагина для vCenter для управления прямо из этой консоли.
Среди новых возможностей продукта — поддержка облаков и многоуровневое хранение. Кроме того, Avamar также может предложить вариант организации долговременного хранения в частном облаке — как с использованием системы Data Domain, так и без нее. Data Domain Cloud Tier поддерживает облака Azure, Amazon, Virtustream и любые устройства, использующие протокол S3. Облачное резервное копирование — одна из тенденций в резервировании данных (см. рис. 6).
Рис. 6. По прогнозу IDC, мировой рынок облачного хранения (Cloud Storage) будет расти в среднем на 25% в год |
РЕЗЕРВНОЕ КОПИРОВАНИЕ В ОБЛАКО
Современные решения дают возможность создавать резервные копии данных в облаке, что позволяет надежно сохранить и восстановить их, высвободив время и ресурсы. Например, система Commvault поддерживает резервное копирование в облако Amazon S3 и другие S3-совместимые хранилища (см. рис. 7).
Рис. 7. Использование объектных облачных хранилищ системой Commvault |
Исходные данные могут находиться на любой площадке: на стороне клиента, в другом коммерческом ЦОДе или в облаке (см. рис. 8). Таким образом, можно быстро реализовать преимущества резервного копирования данных в облако, используя его как расширение корпоративной ИТ-инфраструктуры. В числе преимуществ такого решения:
- быстрое и надежное резервное копирование, оперативное восстановление данных;
- отсутствие необходимости в дорогостоящих шлюзах и сложных промежуточных решениях;
- возможность заменить ленточное хранилище облачным;
- использование облака для аварийного восстановления.
Рис. 8. Возможные сценарии резервного копирования в облако |
Компании все чаще применяют комбинированный подход: дисковые массивы в сочетании с копированием в облако. Такая стратегия хранения резервных копий позволяет ускорить резервное копирование наиболее актуальных данных и снизить стоимость владения соответствующей инфраструктурой резервного копирования. Использование дедупликации дает возможность не только оптимизировать занимаемую резервными копиями емкость хранилищ, но и уменьшить сетевой трафик при резервировании в облако, что делает эту технологию еще более актуальной.
Постоянное развитие и интеграция решений дедупликации данных разработчиками систем резервного копирования и производителями систем хранения будет способствовать большей экономичности предлагаемых решений, снижению стоимости внедрения, более быстрому перемещению резервных копий между территориально удаленными площадками.
Сергей Орлов, независимый эксперт (sorlov1958@yandex.ru)