отказалась от этого принципа, заменив его другим, APIT, что дает основание для игры слов. Говорят, Revivio spit to SPIT.
В последние годы заметно меняется место, которое занимают процедуры обеспечения сохранности корпоративных данных. Прежде связанная с ними деятельность входила в круг обязанностей лишь администраторов информационных систем. Она имела обязательный и в то же время рутинный, если не сказать второстепенный, характер, свойственный любому регламентному действию по обеспечению безопасности. К тому же все разнообразие технологий сводилось к нескольким сравнительно простым и очевидным методам поддержки работоспособности систем (технологиям Remote mirroring и Backup and restore).
Сейчас картина совсем иная, хотя ситуация еще сохраняет переходный характер, а будущее пребывает в процессе определения. Нынешнее место систем, служащих для защиты данных, пока нельзя, скажем, сравнить с тем, какое заняли системы обеспечения безопасности в современных автомобилях, в них методам активной и пассивной защиты уделяется не меньше внимания, чем другим характеристикам. Тем не менее наблюдается тенденция именно к такому позиционированию.
Для взрывного роста интереса к проблемам резервирования данных в информационных системах сложились необходимые и достаточные условия.
Необходимость в более серьезном отношении к надежности хранения диктуется бизнесом. Помимо решения классических задач защиты данных и обеспечения непрерывности бизнес-процессов современный бизнес нуждается в более эффективном использовании информационных ресурсов. Как следствие, возникают такие неизвестные прежде потребности (а соответственно, новые технологии), как распределение данных по конкретным местам для более удобного применения (технология Data repurposing), миграция данных на разные устройства для поддержки жизненного цикла информации (технологии Data migration и Data distribution and consolidation) и др.
Достаточное условие бурного развития систем безопасности данных состоит в изменении соотношения стоимости хранения данных на лентах и дисках в пользу последних. Еще несколько лет назад хранение данных на дисках стоило на порядок больше, чем хранение на лентах, а сейчас, с появлением дешевых дисков, удельная цена хранения стала почти одинаковой. В некоторых случаях диски обходятся даже дешевле, но следует учесть, что это относится к дисковым накопителям с упрощенным механизмом перемещения головок, которые в большей степени приспособлены к последовательному доступу и в таком смысле функционально ближе к лентам. Тем не менее. появление дешевых дисков открывает альтернативные возможности для решения старой проблемы копирования и репликации.
Среди новейших технологий копирования и репликации неплохие шансы у Continuous Data Protection (CDP), появившихся в 2004-2005 годах. Из названия этих технологий непосредственно следует их предназначение: CDP служат для непрерывной защиты данных. Именно в непрерывности заключается основное отличие CDP от технологий-предшественниц, в которых резервные копии создаются с заданным временным шагом. Средства, входящие в CDP, отслеживают все изменения в хранимых данных и сразу их фиксируют. Автоматическое накопление изменений освобождает администратора от специальных действий, связанных с процедурой создания резервных копий; при необходимости средства CDP восстанавливают данные по состоянию на нужный момент.
Существует несколько подходов к созданию систем CDP. Общим для них является запись изменений, внесенных в данные, совместно с меткой времени, которая указывает момент таких изменений. Наличие этой метки позволяет, задав нужное время, «откатиться» на любую «глубину». Многие эксперты признают появление систем CDP следующим шагом в эволюции технологий защиты данных.
О серьезности отношения к феномену CDP можно судить по реакции ассоциации Storage Networking Industry Association (SNIA). В 2005 году в структуре этой ассоциации была создана специальная «группа по интересам» (Special Interest Group, SIG), получившая название Data Protection Initiative. В качестве соучредителей в SIG вошли многие крупные производители систем хранения, включая EMC, Hitachi Data Systems, NetApp, Sun Microsystems, Veritas, а также целый ряд фирм меньшего масштаба. В документах ассоциации CDP определяется так: «Это методология, которая непрерывно захватывает, отслеживает и сохраняет изменения данных независимо от первичного источника данных. Она дает возможность восстанавливать данные начиная с любого момента в прошлом. Системы CDP могут строиться с опорой на блочное или файловое представление данных либо на использование свойств конкретных приложений. В любом случае они обеспечивают доступ к некоторому представлению данных, состоящему из гранулированных объектов, которое позволяет выполнять восстановление с любой произвольной точки».
Как обычно бывает на начальных этапах становления любой технологии, альтернативные методы создания систем CDP отличаются разнообразием. Их можно классифицировать по нескольким признакам.
- Архитектура. Решения различаются по месту обнаружения изменений (в сети или на сервере). Можно использовать для «отлавливания» изменений специальную сетевую приставку или интеллектуальный коммутатор сети хранения либо снабдить серверы специальными агентами, которые будут перехватывать изменения и направлять их непосредственно в систему хранения или на другой сервер.
- Уровень репликации. Здесь также возможно несколько альтернативных решений. Репликация на уровне физических блоков (block-based) применяется к блокам данных, записываемым на физические или логические тома; в таком случае система CDP перехватывает блоки с изменениями и сохраняет их в собственном хранилище. Можно строить CDP на уровне файлов, и тогда система CDP будет работать поверх файловой системы (file-based). Она перехватывает измененные файлы и соответствующие им метаданные, т.е. сведения о создании, изменении или удалении. Наконец, есть возможность строить CDP на уровне приложений (application-based). Такое решение работает внутри определенного приложения, используя специализированный интерфейс API.
- Гранулярность восстановления. Можно восстанавливать заданные файлы и блоки или всю совокупность данных на указанный момент.
Примерами готовых решений категории block-based являются Continuous Protection System (компании Revivio), RealTime (Mendocino Software) и IDR-Scout VX (InMage), решений категории file-based - VitalFile (IBM) и Enterprise Rewinder (XOsoft), а категории application-based - LiveServ for Microsoft Exchange (Storactive). В ближайшее время ожидается появление еще несколько продуктов небольших фирм, но решающее слово должны сказать такие крупные производители, как корпорации EMC, IBM и некоторые другие.
В 2005 году компания Revivio продемонстрировала наиболее фундаментальный подход к созданию систем CDP и теперь развивает его на основе концепции адресуемых по времени систем хранения (Time Addressable Storage, TAS). Revivio относится к новому поколению «стартапов», которые создаются отнюдь не юными гениями из поколения Internet, а умудренными знаниями технологическими гуру.
Созданию концепции TAS предшествовала довольно простая, но вполне логичная и, казалось бы, лежавшая на поверхности идея. Она настолько логична, что в одном из аналитических отчетов TAS характеризуется как «подход к защите данных со здравым смыслом» (a common-sense approach to data protection).
Напротив, как обнаруживается при более внимательном взгляде, привычное стереотипное использование пары терминов создание резервных копий (back-up) и восстановление (restore) лишь создает иллюзию, что эти процедуры хорошо связаны между собой. Такое представление не соответствует действительности: back-up — относительно простое действие, restore — намного более сложное. Не случайно появилось специализированное технологическое направление restore management, преследующее цель создания специализированных средств для облегчения процесса восстановления данных.
Сложность восстановления сохраненных данных вызвана тем, что практически все методы резервного копирования имеют общее качество, которое называют SPIT (Single Point-In-Time). В данном случае под единичностью точки на шкале времени подразумевается, что сохраненные данные соответствуют какому-то фиксированному моменту. Между моментами, в которые выполняется сохранение, всегда есть «окно во времени» (backup window). Это означает, что между состоянием данных на момент аварии и сохраненным всегда существует хотя бы минимальный временной зазор в пределах выбранного окна. Для того чтобы резервные данные максимально соответствовали действительности, приходится уменьшать размер окна, а это, в свою очередь, приводит к росту объема резервных данных и усложнению процедуры восстановления.
Единственный выход из положения — сделать процедуру резервирования непрерывной, с тем чтобы размер окна стремился к нулю; при этом хранению подлежат только вносимые изменения. Естественно, необходимо поставить в соответствие процедуре резервирования обратную процедуру, которая позволяет развернуть изменения, накопленные от момента аварии до момента восстановления исходного состояния. Система резервирования такого типа и получила название TAS. В ней нет признаков SPIT, поэтому процедуру восстановления можно начать с любого удобного момента, вплоть до наиболее близкого к «точке» возникновения аварийной ситуации. Этот класс технологий резервирования обеспечивает доступ к данным, расположенным в любой точке временной шкалы, а потому получил название Any Point-In-Time (APIT).
Наиболее близкой к CDP является группа технологий Snapshots (то есть «моментальный снимок»), которая делится на два подмножества: решения, создающие полные копии, и дифференциальные решения. Как и CDP, последние оперируют только теми изменениями, которые произошли после последнего моментального снимка данных. Есть несколько разновидностей дифференциальных Snapshots: копирование при записи (Copy on Write, CoW), перенаправление при записи (Redirect on Write, RoW) и запись везде (Write Anywhere, WA). Перечисленные методы различаются используемыми ресурсами, а общее для них — возможность существенно сократить backup window, что является несомненным достоинством. Ну а недостаток заключается в том, что сохраненные данные представляются в виде набора с фиксированными точками входа. В этом состоит принципиальное отличие от CDP, позволяющих начать восстановление с произвольного момента.
Между Snapshots и CDP есть еще одно существенное различие, которое связано с процедурой восстановления данных. Обе технологии дают возможность физического восстановления: при восстановлении данные переписываются так, как это обычно делается. Но такая процедура требует времени, поэтому в дополнение к ней (а она необходима в любом случае) CDP обеспечивает виртуальное восстановление, которое времени вообще не требует. В данном случае суть виртуализации заключается в том, что приложения получают доступ к резервным данным на период выполнения процедуры физического восстановления.
Первым коммерческим продуктом компании Revivio стала Continuous Protection System (CPS) — отказоустойчивая приставка, предназначенная для управления системами хранения. Она спроектирована так, чтобы мирно сосуществовать с применяемыми в сети хранения устройствами хранения, и внешне представляется серверам (хостам) как обычное блочное запоминающее устройство. Из двух возможных схем подключения в сети хранения (in-band и out-of-band) выбрана out-of-band, поскольку она не снижает пропускной способности каналов. В CPS имеются два набора портов: «передние» порты, направленные на хосты, предоставляют им данные в виде томов двух типов — TimeSafe и TimeImage; «задние» порты обеспечивают доступ к собственным томам системы, CurrentStore и TimeStore.
Система CPS не накладывает ограничений на подключаемые диски. Она допускает использование накопителей в диапазоне от мощных (EMC Symmetrix) до простейших (Fibre JBOD, то есть Just a Bunch of Disks, — произвольный набор дисков, подключенных по Fibre Channel). CPS может быть подключена к хосту или коммутатору Fibre Channel, а к ней подключаются диски, на которые ведется резервное копирование (тома TimeSafe). Они представляют собой обычные логические SCSI-устройства, только с небольшим дополнением: к ним, условно говоря, подключены часы. В штатных условиях эти часы работают в полном соответствии с астрономическим временем, а при необходимости их можно перевести назад на нужный интервал времени (на секунды, минуты или часы).
В продуктовую линейку Revivio входят две модели — старшая CPS 1200 и младшая 1200i. Они близки по функциональности, но различаются по степени отказоустойчивости (в CPS 1200 резервируются все ответственные компоненты). Соответственно, они различаются по цене: CPS 1200 стоит 250 долл., а 1200i — 70 тыс. долл. Модель 1200i менее универсальна, она предназначена для тех пользователей, которые намерены прикладывать возможности APIT к ограниченному кругу приложений.