Спаси и сохрани

Пренебрежение правилами хранения чревато тяжелыми последствиями.

Bладеющий информацией владеет миром. Эта расхожая фраза в полной мере применима к миру бизнеса, где информация давно уже стала неотъемлемой составляющей его успешного ведения. Стремясь обеспечить непрерывность процесса коммерческой деятельности, предусмотрительные руководители компаний все чаще стали задумываться о тяжести последствий потери или порчи данных, включающих сведения о поставщиках, заказчиках, продуктах, и заботиться об их надлежащей защите.

Но предусмотрительность — далеко не всеобщая добродетель. Трагические события почти годичной давности, когда в результате террористических атак под обломками Всемирного торгового центра в Нью-Йорке была погребена и инфраструктура ИT многих компаний, арендовавших в нем помещения для своих офисов, стали печальным подтверждением старинной русской пословицы: «Гром не грянет — мужик не перекрестится». Потеря данных для многих компаний означала в действительности потерю бизнеса. Впрочем, были и те, кто в той или иной степени принял упреждающие меры, эффективность которых повлияла на сроки восстановления нормальной работы — от нескольких дней до нескольких недель.

Спасением бизнеса своих клиентов самоотверженно и безвозмездно занимались немедленно прибывшие на место катастрофы команды специалистов многих производителей оборудования для хранения данных. Особенно ценной оказалась помощь компаний, разрабатывающих программное обеспечение для резервного копирования, кластеризации, управления хранением и восстановления информации. В их числе — Veritas, Computer Associates, Legato Systems и др. Так, руководство Legato Systems, выпускающей широкий спектр продуктов резервного копирования и восстановления данных (многомодульная система NetWorker), управления информационными ресурсами (AlphaStor), средств обеспечения высокой готовности (Legato Automated Availability Manager, LAAM) и ряд других, немедленно сформировало команду специалистов, одной из первых прибывшую в эпицентр событий.

Непосредственное участие в операции по спасению данных клиентов Legato Systems на месте трагических событий принимал системный инженер Константин Сальников, а его доклад на проведенном в конце июня в Москве совместном семинаре компаний Legato Systems и S&T вызвал неподдельный интерес. Сальников рассказал о восстановлении информационной структуры бизнеса трех компаний-клиентов Legato, каждая из которых по-разному защитила свои данные от непредвиденных обстоятельств. Конечно, вероятность катаклизмов, подобных случившемуся, ничтожно мала, и тем не менее уроки, вынесенные из печального опыта, могут оказаться поучительными при подготовке к неприятностям любого масштаба.

В первом случае команда специалистов Legato Systems занималась восстановлением данных трейдинговой компании, офис которой располагался на верхних этажах одной из башен Всемирного торгового центра. Ситуация была крайне тяжелая: из 1000 человек персонала 700 погибли, кроме того, фактически отсутствовала какая-либо документированная процедура восстановления данных после катастроф (Disaster Recovery, DR). К 11 сентября руководство только стало об этом задумываться, и единственное, что успело организовать, — это резервный вычислительный центр в районе Нью-Джерси, который отделен от Манхэттена рекой Гудзон шириной не более километра. Центр создавался по минимальному принципу: он состоял из нескольких объединенных в сеть серверов, а вся стратегия защиты информации заключалась в выполнении процедуры клонирования данных на ленты, за регулярным проведением которой по сути никто не следил (последнее клонирование информации было выполнено за месяц до трагических событий).

В экстремальной ситуации ярко проявилась своеобразная особенность американской культуры ИТ: обычно администраторы Windows и UNIX разделены на две группы, причем первая, отличаясь от второй прилежностью, приходит на работу вовремя. Эта-то команда и погибла практически вся, в то время как почти все сотрудники команды UNIX избежали трагедии. Из оставшихся в живых ИТ-специалистов мало кто имел опыт работы с пакетом Legato Networker, и никто не знал, что именно должно быть восстановлено, какие данные и приложения на каких серверах должны располагаться.

Тем не менее центр данных, включающий сеть, серверы, системы хранения, был создан практически за двое суток. В первую очередь было определено, какие серверы наиболее критичны, и на их восстановление были направлены основные усилия. Помимо восстановления данных была создана абсолютно новая инфраструктура резервного копирования уцелевших данных. В целом процесс восстановления данных занял около двух месяцев.

Офис второго клиента располагался в здании неподалеку от разрушенных башен в квартале, накрытом пылью и обломками, и также сильно пострадал. Руководство компании позаботилось о реализации стратегии DR, организовав резервный центр в Нью-Джерси. Однако, проводя резервное копирование, специалисты не выполняли клонирования лент и не идентифицировали их. Все ленты находились в главном офисе, и в случае их повреждения ни о каком возрождении бизнеса компании речи бы не шло.

Чтобы начать восстановление данных, нужно было перевезти эти 20 тыс. лент, для чего понадобилось официальное разрешение мэра Нью-Йорка, поскольку доступ в зону катастрофы был полностью закрыт. В результате ленты были вынесены из здания в сумках и рюкзаках, переправлены на пароме через реку и доставлены в резервный центр. Далее их требовалось рассортировать и отыскать нужные, что само по себе оказалось непростой задачей. Особую важность представляли метаданные, позволяющие восстановить сервер с помощью одной команды; их желательно хранить в нескольких местах. С этой задачей удалось справиться (поскольку копия метаданных находилась в Лондоне), после чего быстро восстановили сервер резервного копирования и приступили к восстановлению самих данных. Вместе с тем, значительная часть конфиденциальной информации была утеряна из-за бытового мародерства, поскольку вскоре после взрыва многих ноутбуков на месте не обнаружилось.

Особенно много времени заняло восстановление серверов, к тому же процедура восстановления не была документирована. Инфраструктура ИТ представляла собой разнородную среду Solaris, Windows NT/2000, Oracle, Windows XP/Exchange. Проблема усложнялась тем, что инфраструктура ИТ резервного центра не была рассчитана на катастрофу подобного масштаба: он состоял из единственного сервера, подключенного к большой ленточной библиотеке, а в главном офисе имелось три сервера резервного копирования и поддерживалась связь с 1200 клиентами. Критическим фактором для этой крупнейшей финансовой компании было время: ей требовалось встретить во всеоружии открытие биржи в ближайший понедельник, иначе это просто означало бы выход из бизнеса. Благодаря объединению всех человеческих и технических ресурсов, за пять дней удалось восстановить то, что создавалось в течение 50 лет.

Наиболее благоприятно ситуация с восстановлением данных сложилась с третьим клиентом, одним из ведущих банков Америки. Его руководство загодя проанализировало риски, связанные с неготовностью к подобным ситуациям, и приняло должные меры к их минимизации. Здание находилось буквально в двух кварталах от Всемирного торгового центра, и, хотя само оно не подверглось существенным повреждениям, вся инфраструктура нижнего Манхэттена была нарушена: отсутствовало электричество, телефонная связь, не работала сеть. Администраторы ИТ этого банка еще до 11 сентября провели несколько пробных испытаний по переводу операций в свой резервный центр данных в Нью-Джерси, арендованный ими у сторонней компании.

В банке функционировали две различные операционные среды: Windows NT и UNIX. Команда UNIX хорошо подготовилась к подобным событиям и использовала средства тиражирования компании SRDF EMC2 между главным и резервным вычислительными центрами, реплицировав таким образом все критичные серверы и метаданные главного сервера. После катастрофы оставалось лишь проверить, насколько успешно работают приложения в резервном центре.

А вот команде NT пришлось гораздо сложнее. Все ленты также находились в главном центре данных, где было организовано резервное копирование, но клонирования лент не проводилось, к тому же как раз в момент падения башен шел процесс резервного копирования, и самые последние данные были утрачены. Специалисты Legato оказывали сотрудникам команды UNIX этого банка консультативную помощь и поддержку по восстановлению второстепенных серверов, а в среде Windows приняли на себя координацию всех усилий по восстановлению данных.

На основании проведенных работ можно сформулировать общие для всех клиентов причины, которые помешали эффективному восстановлению данных после катастрофы. Как правило, руководство не назначало ответственного за проведение операции по восстановлению, кроме того, отсутствовали регулярный обмен информацией между сменами, документация и четкий план работ с определением приоритетов. Восстановительным работам мешала плохая систематизация лент, недостаточные мощности резервных центров, проблемы с сетью: например, не выполнялась синхронизация с сервером DNS (эффективная работа Legato Networker в значительной степени зависит от функциональности сервера DNS или хост-файлов), не было управления изменениями конфигурации сервера резервного копирования и не доставало квалифицированных специалистов в этой области. Около 30% данных было потеряно, потому что сама процедура резервного копирования оказалась не защищена или ленты не были вывезены вовремя из здания.

Обобщение сказанного позволяет сформулировать некоторые правила безопасности.

Необходимо по возможности избегать единой точки отказа, использовать резервирование сети и чаще проводить полное тестирование работоспособности вычислительных центров.
Не стоит пренебрегать документированием местонахождения носителей. Например, Legato AlphaStore позволяет автоматизировать данный процесс и полностью берет на себя управление им.
Приоритеты следует расставить еще до проведения процедуры резервного копирования и в первую очередь защищать критичные серверы.
Есть смысл определить, какой тип резервного вычислительного центра наилучшим образом подходит для защиты бизнеса конкретной компании.
Может оказаться эффективным привлечение профессиональных консультантов для разработки стратегии защиты.
Многоэтажные здания и районы плотной застройки — не лучший выбор для офисов компаний, в работе которых информация играет определяющую роль.

По прошествии времени с горечью приходится констатировать, что при более строгом подходе компаний к разработке и внедрению стратегии DR процесс восстановления потребовал бы гораздо меньших усилий. И еще. Если вообще уместно говорить о пользе опыта, извлеченного из этого урока, то учиться лучше все-таки на чужих ошибках.

Наталья Жилкина — научный редактор «Журнала сетевых решений/LAN». С ней можно связаться по адресу: nzil@lanmag.ru.