Не требует доказательств тот факт, что без обеспечения надежной сохранности корпоративных данных современный бизнес существовать не может, но не менее очевидно и то, что делать это становится все труднее вследствие роста объемов данных и ускорения деловой активности. С массовым переходом на работу в режиме 24×7 традиционная идея выделения окна для резервного копирования (backup window) стала бессмысленной, а нынешние и тем более ожидаемые объемы данных делают невозможным даже еженедельное полное копирование и периодическое инкрементальное обновление. Если в этих условиях ничего радикально не менять, то качество резервирования неизбежно будет ухудшаться со всеми вытекающими негативными последствиями: потеря продуктивности, финансовый ущерб и пр. Выход видится, прежде всего, в изменении сложившегося отношения к проблемам сохранности данных. До сих пор большая часть средств ИТ направлялась на технологии непосредственной поддержки бизнес-процессов в ущерб развитию сервисной инфраструктуры. Это привело к усложнению решений, распылению инвестиций, причем на фоне появления новых технологий, позволяющих пересмотреть взаимоотношения ИТ и бизнеса: виртуализации, сервисных архитектур и облаков.
Виртуализация серверов, систем хранения, приложений и данных позволяет преодолеть архитектурный разрыв между «боевыми» и сервисными компонентами информационных систем, а в условиях, когда оборудование становится более универсальным, ограничивает объем специализированных средств, поддерживающих резервирование. Действительно, периодически возникающие нагрузки по резервному копированию можно теперь перераспределять — они могут мигрировать как внутри ЦОД, так и между ними, а в любой момент между разными видами нагрузок может быть выбрано требуемое соотношение. Еще больше оптимальному распределению физических ресурсов способствуют разнообразные облачные сервисные решения. В приложении к сохранности данных можно говорить о частных сервисах резервного копирования BaaS (Backup as a Service) и глобальных сервисах DPaaS (Data Protection as a Service). Переход на сервисную модель позволяет радикально изменить отношение к обеспечению сохранности данных, отказаться от видения в этих технологиях дорогостоящих инструментов, которые, как спасательные круги и шлюпки на пароходах, висят без использования до момента ЧП. Кроме того, сохранность становится естественной частью автоматизированного технологического процесса, выполняемого без вмешательства человека. Резервирование и прочие процедуры, необходимые для обеспечения сохранности, превращаются в то, что называют by-product (попутный продукт).
Третья опора компьютинга
Если действительно начинается новая промышленная революция, то, скорее всего, на нее распространяются те же закономерности, что и на Великую промышленную революцию XVIII века, а ключевым моментом является внедрение новых индустриальных технологий. Леонид Черняк |
Для обеспечения сохранности данных существует спектр возможных решений, образующих ее полный жизненный цикл (Data Protection Lifecycle), который условно можно разделить на четыре фазы, измеряемые секундами, минутами, часами и днями. В секундном диапазоне (фактически в реальном времени) на «боевом» оборудовании создаются различного рода мгновенные снимки (snapshot) и используется технология непрерывной защиты данных (Continuous Data Protection, CDP). При переходе в минутный диапазон защитные мероприятия осуществляются в пределах ЦОД, и в этот период времени происходит разделение используемых физических ресурсов. В часовом диапазоне данные перемещаются на резервные площадки и осуществляется разделение на уровни хранения по быстродействию устройств и удельной стоимости хранения. И наконец, очевидный четвертый этап — создание архивов.
Данные как сырье
На протяжении всех 65 лет истории ИТ, а точнее технологий, предназначенных для обработки данных, наблюдался очевидный дисбаланс. Все это время исследования и разработки распространялись на программные и аппаратные решения по работе с данными, тогда как сами данные воспринимались как нечто простое, очевидное, наперед заданное. Однако под влиянием количественного роста объема данных и возрастающих требований со стороны бизнеса к качеству и скорости работы с данными ситуация заметно меняется — теперь собственно данным уделяется больше внимания и средства работы с ними становятся в полной мере технологиями. У этого тренда есть несколько проявлений, в том числе объединение отдельных фрагментов ИТ в единые технологические цепочки. Характерный пример: разрозненные решения для резервного копирования и восстановления данных, BURR (BackUp, Recovery, Restore), консолидируются в одно общее направление — обеспечение сохранности данных (Data Protection).
Времена, когда бизнес еще не был так зависим от ИТ, как сейчас, и сохранение данных на периферийных устройствах было лишь дополнением к основному процессу, когда можно было говорить об отдельных операциях, обеспечивающих сохранность данных, ушли в прошлое. Важнейшей составляющей корпоративной инфраструктуры стали ЦОД, и сегодня без предоставляемой ими возможности доступа к полезной информации бизнес невозможен, а операции BURR стали необходимой органической частью работы с данными. Они могут осуществляться на месте (On-site BURR) или в облаках (Cloud BURR), традиционными способами или с использованием сервисов BaaS или DPaaS.
В работах по сохранности данных используют два близких термина: Data Protection и Data Persistence, переводимых одинаково — «обеспечение сохранности данных», но первый означает сохранение целостности контента, а второй — неизменность формы представления. Действие Data Protection (DP) распространяется на защиту персональных данных, но можно рассматривать его буквально — как средства и технологии, служащие для поддержки жизненного цикла тех или иных записей.
Специфика данных в том, что они нематериальны и не существуют сами по себе, поэтому в любом случае для их сохранности требуется предпринимать специальные усилия, чтобы они не исчезли вместе с носителем. Однако любые носители не вечны, и нужны специальные архивные или библиотечные решения. Как ни странно, но все, что придумано для обеспечения сохранности данных, записанных на машинные носители, зиждется на интуитивных представлениях о данных, на некоторой негласной конвенции. Обычно упрощенно считают, что данные — это всего лишь «мешок» битов, что определяет специфику нынешних ИТ, которые по гамбургскому счету вовсе и не информационные, а лишь технологии работы с данными. Сравним с тем, что происходит в других областях человеческой деятельности. Любую созданную людьми «машинерию» можно рассматривать с двух разных точек зрения — машин и процессов. Ее можно представить как совокупность машин и оборудования, образующую технологическую цепочку, а можно интерпретировать как последовательность этапов переработки исходного сырья в конечный продукт. Соответственно, есть специалисты по машинам и оборудованию, а есть технологи, в том числе химики, металлурги, энергетики и т. п., ответственные за преобразование.
Подобного разделения в ИТ нет, и когда мы говорим «ИТ-шник», то предполагаем, что речь идет о специалистах по оборудованию и программному обеспечению, а не о тех, кто понимает толк в данных. Совсем недавно появилась категория таких специалистов — data scientist, с еще не очень понятными функциональными обязанностями, представляющих новейшие виды деятельности, связанные с данными, осуществляющих владение данными (data ownership) и ответственное руководство ими (data stewardship). Но пока за данные отвечают только администраторы, отсюда и упрошенный подход к сохранности данных только за счет создания резервных копий.
Упрощенное отношение к данным привело к раздельному существованию двух подходов к обеспечению сохранности данных: резервирование (backup) и архивация (archiving). Разделение сложилось в то время, когда для резервирования в основном применяли дисковые накопители, а архивы создавали на лентах. В прессе активно сравниваются оба подхода, и обычно утверждается, что резервирование — это создание копий, обеспечивающее наименьшие издержки при сохранении и наименьшее время восстановления в случае потери основной версии, а архивация — создание надежных копий данных, которые можно будет использовать в последующем, срок хранения может измеряться десятилетиями. Для надежности может создаваться несколько резервных копий, а архив сохраняется в одной копии с использованием дедупликации и контентно-адресуемых систем хранения (CAS). Однако при ближайшем рассмотрении оказывается, что резервирование и архивация — это всего лишь разные компоненты одного технологического процесса, их вообще нельзя противопоставлять, тем более что выпускаемое сегодня оборудование постоянно сокращает разрыв между ними. Следует говорить о том, что существуют различные требования по оперативности доступа к данным, по скорости обмена с резервными хранилищами, и нужно соответствующим образом организовывать обеспечение сохранности данных, в том числе и резервируя и архивируя их.
Резервирование с нуля
Резервированием на «голое железо» (Bare Metal Recovery, BMR) называют процесс восстановления компьютера целиком, начиная с установки на нем ОС, приложений и данных. Этот подход имеет смысл для предприятий среднего и малого бизнеса, которые оперируют относительно небольшими объемами данных и не располагают квалифицированным ИТ-персоналом. Суть процедуры BMR (рис. А.) в том, что по ходу работы на блочном уровне диски копируются на некоторый промежуточный носитель. Параллельно в режиме постоянной готовности поддерживается диск первоначальной загрузки, сформированный, например, средствами CA ARCserve D2D. В случае катастрофы накопленные данные сбрасываются на резервный компьютер, который с использованием этого диска вводится в эксплуатацию. Компания Symantec выпускает специализированные устройства резервного копирования NetBackup 5220 и Backup Exec 3600 для работы в режиме BMR.
Рис. А. Резервирование на «голое железо» |
BURR и Большие Данные
В разговорах про Большие Данные часто упускают из виду ряд серьезных конкретных проблем, и одна из них — невиданные прежде сложности с резервным копированием. Проблема настолько остра, что была даже предложена занятная интерпретация закона Мура — следствием удвоения объема хранения данных каждые 18 месяцев является удвоение головной боли у администратора, отвечающего за резервное копирование. Процедуры резервирования усложняются под влиянием массы факторов: повышение мощности процессоров, увеличение емкости дисков, появление накопителей SSD, виртуализация серверов и систем хранения, необходимость поддержки приложений, работающих в режиме 24×7. С системной точки зрения здесь нет ничего нового — по мере развития систем их размер и сложность делают невозможными контроль и поддержку работоспособности с использованием старых средств. Например, как проинспектировать на безопасность все узлы современного пассажирского авиалайнера, тысячи километров железных дорог или газопроводов, не имея совершенных средств диагностики, специально разработанных приборов и инструментов? Служебные операции, так или иначе связанные с Большими Данными, из того же ряда явлений, но на них, в том числе и на резервирование, оказывают влияние три группы специфических факторов.
- Объем. С какого-то момента единовременное копирование всех данных (полный бэкап), очевидное преимущество которого в простом и быстром восстановлении любого отдельного поврежденного или потерянного файла, становится невозможным из-за уменьшения окна копирования. Поэтому приходится использовать инкрементальный и/или дифференциальный бэкап. В первом случае сначала осуществляется полный бэкап данных, а в дальнейшем копируются только измененные данные. Дифференциальное резервное копирование, или дифференциальный бэкап, — это процесс сохранения резервных копий только тех файлов, которые были изменены или созданы с момента последнего полного резервного копирования. В любом случае усовершенствование сводится к сокращению объемов хранения за счет избавления от повторяющихся данных, теперь это называют дедупликацией. Раньше от избыточности избавлялись различными способами компрессии, но их слабость в том, что сжимать можно отдельные файлы. Ее лишены методы, исключающие повторяемость хранимых данных (single-instance storage), — в частности, инкрементальный бэкап, использующий переменный размер блока без привязки к конкретным файлам. Дедупликация не только сокращает объем хранения, но и позволяет использовать Сеть за счет сокращения трафика для создания резервных копий. Но при любом резервировании по сети возникает одно существенное ограничение — сети можно использовать при восстановлении только ограниченных объемов данных, а если же восстанавливать приходится большие объемы, то проще оказывается физическая транспортировка носителей. Например, компания Google при создании новых ЦОД перевозит данные в контейнерах, набитых дисками. Такой способ доступа к данным с использованием грузовика называют TAM (Truck Access Method).
- Разнообразие. Разнообразие приложений растет, и, соответственно, увеличивается разнообразие используемых ими данных, поэтому администраторам, выполняющим резервное копирование, уже сложно использовать для всех данных одни и те же унифицированные методы бэкапирования. В этих условиях часть ответственности за резервирование должны брать на себя владельцы данных (data owners), способные дифференцировать качество резервирования в зависимости от ценности данных, а отделы ИТ в таком случае могут выступать в роли провайдеров сервисов.
- Частота и скорость обращения к данным. Большие Данные нередко используются в аналитических системах, работающих в реальном времени, что до минимума сокращает возможное окно копирования или вовсе его исключает.
Обеспечение сохранности
Чем бы ни занималось современное предприятие, оно не может существовать без информации, а отсюда возникает потребность в совокупности технологий обеспечения сохранности данных», гарантирующих, что хранимые данные не будут искажаться, а доступ к ним будет ограничен кругом авторизованных пользователей и в строго регламентированных целях для обеспечения целостности, согласованности с приложениями, регулярного обновления версий. Все это включает в себя не только создание копий, но и работу с сетями, а также серверы высокой готовности (High Availability, HA). В целом DP представляет собой систему, обдающую целым рядом качеств:
- практичность (Usability) — способность создавать резервные копии и осуществлять восстановление; резервирование предполагает не только создание простых копий, инкрементальное и дифференциальное резервирование, но и непрерывную сохранность (Continuous Data Protection, CDP), исключающую какую-либо потерю данных; как показано в таблице, для этого имеется ряд технологий, отличающихся по времени восстановления (Recovery Time Objective, RTO) и допустимым потерям восстановления (Recovery Point Objective, RPO);
- доступность и готовность (Accessibility, Availabiliy) — исключение единственных точек отказа за счет обеспечения доступа из разных платформ и перевода данных на удаленные площадки;
- производительность (Performance), повышение которой возможно за счет создания альтернативных путей доступа к данным (Multipathing), техники кэширования и аппаратного ускорения;
- безопасность (Authentication, Authorization, Accounting), управление правами (Information Rights Management), предотвращение утечек (Data Leakage Prevention), шифрование в процессе передачи (on the wire) и по месту хранения (at rest);
- соответствие нормативным требованиям (Compliance) путем сохранения не только содержания, но и формы документов;
- устойчивость к внешним воздействиям (Resilience), складываемая из защиты носителей (избыточность в дисковых массивах, коды с возможностью исправления ошибок), применения систем высокой готовности (High Availability), отказоустойчивости (Fault Tolerance) и поддержки целостности данных (Data Integrity);
- эффективность (Efficiency), достигаемая за счет продуманной автоматизации, управления и администрирования.
Таблица. Технологии поддержки непрерывной сохранности |
Таксономия DP
Однако всего перечисленного еще недостаточно для получения полноценного представления о связях этих качеств между собой и их месте в общей системе DP. Чтобы получить такое целостное видение, нужны систематизация и классификация — таксономия. Наиболее интересную работу по таксономии DP выполнил Майк Датч, главный специалист по технологиям компании EMC.
Рис. 1. Таксономия обеспечения сохранности данных |
Строка «Кто» таксономии DP (рис. 1) тривиальна — к DP имеют отношение все те, кто пользуются данными, и те, кто предоставляют услуги и создают технологии.
Строка «Где» указывает, где хранятся сохраненные данные. Вариантов может быть несколько: фиксированный, мобильный, независимый и распределенный. Фиксированные данные могут находиться непосредственно в корпоративном ЦОД или в резервном хранилище, а сегодня растет значение данных, размещаемых в мобильных устройствах. Независимым хранением обычно называют хранение в облаках, а при распределенном хранении данные могут размещаться во всех перечисленных местах. Если для обеспечения сохранности приходится дополнительно перемещать данные, то следует учитывать возникающие риски — например, при перемещении больших объемов данных по каналам связи возникает угроза сбоев и в ряде случаев оказывается разумнее применять TAM, что также сопряжено с риском.
Строка «Что» делится на подкатегории по типам устройств, типам данных, контента и операционной среды. Устройства могут быть любыми, от мобильных до мощных серверов и систем хранения. Данные различаются по динамике — в системах ERP, CRP, OLTP и т. п. данные более динамичны, а в аналитических системах более статичны, причем в зависимости от используемых приложений данные могут быть структурированными или неструктурированными. Контент влияет на отношение к сохранности данных, которые могут быть возобновляемыми, например путем повторения эксперимента, или невозобновляемыми в случае, если они являются носителями важной финансовой или юридической информации. Среда, в которой существуют данные, также предъявляет свои требования к сохранности данных.
Строка «Зачем» вводит классификацию по типам восстановления: операционное восстановление служит для компенсации ошибок персонала и незначительных сбоев оборудования; необходимость восстановления после катастроф не требует комментариев, так же как и наличие архивов в серьезных административных и бизнес-структурах; GRC (Governance, Risk Management, Compliance) — зонтичный термин, объединяющий корпоративное управление (corporate governance), корпоративное управление рисками (enterprise risk management) и проверку на соответствие нормативным требованиям.
Строка «Как» вводит четыре основные группы технологий защиты. В первую входят резервирование и восстановление (Backup and Recovery) на уровне файлов, физических блоков и на уровне голого железа. Отслеживание версий (Versioning) — это прежде всего создание «мгновенных снимков» (Snapshot) и управление записями в контрольные точки (Checkpoint management). Репликация (Replication) может быть синхронной или асинхронной.
Вторая включает технологии сохранности данных, характеризуемые способностью к быстрому восстановлению (Resiliency) и оптимизацией использования дискового пространства (Capacity Optimization). Обе характеристики взаимосвязаны, и в ряде случаев одна достигается за счет другой. Способность к быстрому восстановлению поддерживается различного рода технологиями дисковых массивов RAID и кодами обнаружения и исправления ошибок: циклический избыточный код (Cyclic Redundancy Check, CRC), код с исправлением ошибок (Error-Correcting Code, ECC) и с прямой коррекцией ошибок (Forward Error Correction, FEC). Процесс ухода за данными на дисках имеет бытовые аналогии — здесь также используются процедуры чистки и дезинфекции (disk scrubbing/cleansing), в ходе которых рабочие данные периодически поблочно сравниваются с хранимыми на дисках и вычищаются. И естественно, что в целях повышения способности к быстрому восстановлению используются различные технологии высокой готовности, в том числе кластеризации и автоматического рестарта. Для оптимизация использования дискового пространства служат традиционные инженерные решения, среди них мгновенные снимки приращений, компрессии, дедупликации, упаковки мелких объектов в более крупные. Состав группы технологий для доступа к данным очевиден — это сервисы, обеспечивающие готовность (Service Availability), сетевое подключение (Network Connectivity) и оптимизацию (Performance Optimization).
Непрерывная защита данных
Такую защиту (Continuous data protection, CDP) еще называют защитой данных в реальном времени, и от обычных «мгновенных снимков» ее отличает то, что в журнал попадают абсолютно все изменения, а CDP позволяет полностью исключить потери данных. Рынок средств для CDP находится пока в зародыше, но у него прекрасные перспективы в связи с ростом объемов данных, их динамикой и повышением требований к сохранности. В SNIA называют CDP сохранением каждой записи (every write). С точки зрения сохранности, технологии RAID, репликации и зеркалирования уступают CDP в том, что они содержат только копию последней версии, а не всю историю жизни данных, а в CDP всегда есть возможность откатиться до неискаженных данных.
Сервис сохранности данных
В 2012 году появился термин [I]Data Protection as a Service (DpaaS), который первыми стали употреблять компании NetApp и Asigra. Канадская Asigra во много раз меньше NetApp, однако именно ей принадлежит первенство — продукт Asigra Cloud Backup остается пока единственным в мире решением, построенным без использования программных агентов, устанавливаемых на серверы и служащих для организации централизованного управления жизненным циклом сохранности данных. Asigra Cloud Backup открывает новый класс технологий резервирования (Agentless Backup), возникших в ответ на техническую сложность системы управления множеством агентов, размещенных на всех компьютерах, входящих в состав ЦОД, — если даже в границах одного ЦОД непросто наладить скоординированный процесс взаимодействия многочисленных агентов, то что говорить об облаках.
Справиться с этой сложностью позволяет двухкомпонентная архитектура Asigra. Первый компонент (DS-Client) устанавливается на одном из компьютеров локальной сети, подключаемой к облаку, а второй (DS-System) — в облаке. Детали решения не раскрываются, и известна лишь общая схема (рис. 2). DS-Client работает под управлением Windows, Linux, MacOS, и это может быть любая физическая или виртуальная машина, одна на всю локальную сеть. DS-Client умеет собирать сведения о копируемых данных и передавать их в DS-System, поддерживая в автоматическом режиме резервирование/восстановление серверов и всех устройств, работающих как со структурированными, так и с неструктурированными данными.
Рис. 2. Архитектура DPaaS в версии Asigra Cloud Backup |
Несмотря на то что такая система выглядит привлекательно, на пути к ее массовому внедрению есть серьезные проблемы, и главная — недоверие пользователей к идее передачи данных в облака. Как показывают опросы, более 80% руководителей бизнеса высоко оценивают преимущества облаков, но 90% выражают сомнение в защищенности своих данных от сторонних глаз. Совместно NetApp и Asigra решают техническую проблему размещения данных в облаке, но сам по себе подход не влияет на доверие, и ни о каком внедрении DPaaS пока речи не идет. В какой-то степени проблему может решить криптография — известны методы защиты содержимого дисков (Full-Disk Encryption, FDE), которые спасают данные в случае кражи устройств, однако для резервирования они непригодны.
Выходом может стать гомоморфное шифрование, которое позволяет проводить определенные действия с зашифрованным текстом. Концепция частичного гомоморфного шифрования известна уже несколько десятков лет и используется в криптосистемах RSA и Эль-Гамаля, а в 2009 году Крейгом Генри, исследователем из Стэнфордского университета, впервые была предложена полностью гомоморфная система FHE (Fully homomorphic encryption). Протокол гомоморфного шифрования позволяет безошибочно производить любые операции сложения и умножения над зашифрованными данными без их предварительной расшифровки. Предложенная Генри схема обеспечивает глубокую обработку данных с высокой степенью их защиты и избавляет от многих сложных организационных процедур. Она может использоваться для обеспечения конфиденциальности данных при любых видах обработки, например в условиях облаков. Это открытие имеет не только практическую, но и научную ценность как важный прорыв в области гомоморфного шифрования и математических методов защиты информации. С использованием FHE вся информационная система может быть разделена на Доверительную защищенную платформу и Облачное хранилище, которое не является доверительным, а безопасным его делает применение специальных контейнеров — безопасных капсул данных (рис. 3).
Рис. 3. Обеспечение безопасности в системе DpaaS |
***
В технологиях, обеспечивающих сохранность данных, как в зеркале, отражается путь, пройденный ИТ за последние десятилетия, — от простейшего резервного копирования на ленты до географически распределенных систем, предоставляющих сервисы с гарантией абсолютной сохранности. Появление относительно недорогих ленточных накопителей с потоковой записью, а затем и ленточных библиотек представлялось идеальным решением, потом появились виртуальные библиотеки на дисках. Далее оказалось, что архитектура, математическое и программное обеспечение играют не меньшую роль, чем оборудование. Итогом эволюционного процесса в индустрии стало формирование самостоятельного направления обеспечения сохранности данных, которое по мере роста объемов данных и требований к работе с ними преподнесет еще немало интересного.
Начало эпохи пост-RAID
Кодирование со стиранием вызывает ассоциацию с техникой, которую использовали переписчики Торы более 2 тыс. лет назад, — чтобы избежать ошибок, они разработали сложную методику сравнения переписанного текста с исходным, и если обнаруживалось несовпадение, то весь текст с пергамента стирался. Логика современных кодов со стиранием несколько иная (рис. Б), но за ее кажущейся простотой скрыты серьезные алгоритмы распределения информации (Information dispersal algorithm, IDA). В их основе лежит распределение нарезанных на «куски» данных по географически разнесенным хранилищам таким образом, что они выживут в случае катастроф, но собрать их воедино неавторизованный пользователь не сможет. Только тот, кто владеет указателями на размещение данных с теми же IDA, способен собрать общую картину из мозаики. Степень защищенности здесь существенно выше, чем при использовании любого известного массива RAID, но это еще не все — RAID требует многократного увеличения дискового пространства, а при кодировании со стиранием дополнительные затраты пространства не превышают 20–30%.
Рис. Б. Логика кодирования со стиранием на основе кодов Рида – Соломона |