Совершенствуя планы восстановления

Существующий уже сто лет банк Hancock, штаб-квартира которого находится на побережье Миссисипи, где часто бушуют ураганы, заявляет, что в случае шторма закроется последним и откроется первым. Это заявление прошло серьезнейшую проверку во время урагана «Ка

ИТ-служба банка Hancock, обслуживающего 150 населенных пунктов в четырех штатах, конечно, пострадала больше всего, но все могло быть хуже. , Выяснилось, рассказывает Миллит, что относительно небольшое число серверов, виртуализированных банком (проект только начался, когда обрушился ураган), можно было восстановить за несколько часов, физические же серверы требовали на восстановление нескольких дней. Многие важные сервисы были налажены в течение суток.

Виртуализация в центре внимания, но это всего лишь один из инновационных инструментов, доступных ИТ-руководителям, которые переосмысливают стратегии непрерывности бизнеса и восстановления после аварии. Техники, включающие оптимизацию глобальной сети (WAN) и резервирование электронной почты с помощью устройств, сокращают сроки восстановления, снижают затраты и, что еще важнее, повышают уверенность в том, что бизнес не прервется даже в случае серьезной катастрофы. Что же касается старой доброй ленты, то она по-прежнему резервная опора.

ИТ-директора не только внедряют новые технологии восстановления после аварии, «они задаются вопросом, как восстановление после аварии может в целом усовершенствовать бизнес», − говорит Майкл Крой, директор по непрерывности бизнеса в Forsythe Solutions Group. Это может быть, например, использование ИТ-активов, приобретенных при слиянии, с применением избыточных мощностей или недостаточно используемых ресурсов как резерва или части арсенала средств при восстановлении после аварии.

«Поскольку существует изобилие доступных стратегий по восстановлению после аварии, у потребителей сейчас есть возможность заключать как никогда выгодные и гибкие сделки с поставщиками, управляющими внеплощадочными сервисами восстановления, такими как SunGard и IBM», − говорит Крой.

Виртуальное решение

Игрок, придя в казино, видит игральные автоматы, рулетку, бары и рестораны. Но для ИТ-директора это же самое казино − поток данных и программ, который должен непрерывно струиться 24 часа в сутки, безо всяких «но».

В Borgata Hotel Casino and Spa использовалось традиционное резервирование на магнитной ленте, но это было «медленно, несообразно, трудоемко и осуществлялось вручную», − говорит Джон Форелли, вице-президент по ИТ этой гостиницы.

Что еще важнее, ленточная система поглощала значительное количество сетевых ресурсов, а так как отель с двумя тысячами номеров работает двадцать четыре часа в сутки семь дней в неделю, было сложно найти время на резервирование сервера, не жертвуя общей эффективностью», − рассказывает Форелли.

В 2006 году, через три года после открытия комплекса, руководство приняло решение виртуализировать серверы Windows с помощью VMware, скоростного резервирования и операций восстановления при помощи программы репликации от Double-Take Software.

«Double-Take реплицирует данные программ 77 виртуальных машин на один физический объект для восстановления после аварии и перехода при сбое на этот целевой ресурс (автоматическое переключение на резервную систему) в случае выхода из строя. Когда резервная система активизирована, запускаются необходимые программы на соответствующей виртуальной машине на площадке восстановления после аварии и пользователи автоматически перенаправляются», − продолжает Форелли.

Так как программное обеспечение рассматривает данные на байтовом уровне и реплицирует их по нарастающей, нагрузка на пропускную способность сети ниже. «Автоматически, быстро и незаметно», − говорит он.

Такая простота − одна из причин того, почему виртуализация становится настолько популярна при восстановлении после аварии. «Программы Windows неудовлетворительны при восстановлении», − говорит Донна Скотт, аналитик из Gartner.

В Hancock урок, преподанный «Катриной», показал, что виртуализация обеспечивает быстрое восстановление после аварии, а также учитывает желание сократить затраты на оборудование и электроэнергию, он убедил компанию перевести большинство операций в виртуальную среду (за исключением банковской программы на базе мэйнфрейма). «Банк заменил 55 физических серверов пятью лезвийными серверами, работающими с инфраструктурой VMwar, сэкономив 150 тыс. долл. только на оборудовании сервера, − рассказывает Миллит. − Но все это имеет и оборотную сторону. Мы держим много яиц в одной корзине. Одна плохая системная плата − и из строя разом выйдут множество виртуальных машин», − продолжает он. Чтобы этого избежать, Hancock использует программное обеспечение, автоматически переключающее рабочую нагрузку виртуальных машин на физический сервер при выявлении неполадки.

Хитрости глобальной сети

Для компаний, которым необходимо передавать большой объем данных через сеть, оптимизация WAN способствует повышению повседневной производительности, улучшению скоростного резервирования и операций восстановления.

В Cubist Pharmaceuticals использовали традиционную модель восстановления после аварии:резервирование на магнитной ленте, день или более на поездку в помещение для восстановления деятельности, ожидание, пока будут доступны машины, а затем неповоротливое восстановление. «Утомительно, статично, негибко», − комментирует Майкл Гелдарт, старший менеджер по машинным операциям в центральном офисе компании.

Гелдарта заботила не только стратегия восстановления после аварии, он также имел дело с большим потоком данных, которыми компания обменивалась с офисами и оборудованием в Италии.

Кроме того, руководство желало использовать ту же сеть WAN для проведения видеоконференций и VoIP. Увеличение пропускной способности, по словам Гелдарта, «стало бы чрезвычайно дорогостоящим решением».

В Cubist уже ввели виртуализацию, «одним из преимуществ, которое мы хотели получить, была возможность сделать моментальный снимок этих виртуализированных машин и реплицировать их на другие участки», − говорит он.

Компания приняла решение двигаться вперед, используя оптимизацию WAN Riverbed Steelhead и ускоряющие приложения. «Основными программами, требующимися ей, чтобы ускорить связь с Италией, были Exchange 2003, Microsoft networking/CIFS, а для канала восстановления после аварии − FTP и NFS, − рассказывает Гелдарт. − Благодаря помощи собственного оборудования и наличию помещения для восстановления деятельности третьей стороны (в другом штате) время резервирования и восстановления значительно сократилось. Теперь данные реплицируются на дисковый массив и там находятся, а это исключает необходимость восстановления с ленты − наиболее затратную по времени часть восстановления после аварии», − говорит он.

Он добавляет, что лента все равно полезна: она дает возможность извлечь старые данные и может послужить для резервирования в случае неудачной репликации.

Интересно, что использование своего оборудования на внеплощадочной установке восстановления после аварии, которой управляет третья сторона, подразумевает некоторую борьбу с этим поставщиком. «Первой реакцией поставщика было изумление», − рассказывает Гелдарт. Но поставщик соглашается, и, как констатирует Гелдарт, «они полностью изменяют свою модель». (Из соображений безопасности, Cubist предпочитает не называть имени поставщика, предоставляющего помещение для восстановления деятельности).

Коури, консультант из Forsythe, соглашается. По его словам, поставщики в этой сфере, такие как SunGard, становятся более гибкими и конкурентоспособными. Тем не менее, он считает, что этим компаниям по-прежнему нужно снижать затраты, становиться еще гибче и расширять круг предложений, «чтобы лучше отвечать потребностям бизнеса».

Устройства электронной почты

«Резервирование электронной почты в случае аварии в течение ряда лет было дорогостоящей и затратной по времени задачей, − говорит Скотт из Gartner. − Но теперь устройства намного облегчают репликацию обменного сервера (Exchange server) и других крупных почтовых серверов», − говорит она.

Кен Адамс, ИТ-руководитель из адвокатской фирмы Miles & Stockbridge говорит, что его компания пыталась кластеризовать обменные серверы, но сочла эту стратегию слишком сложной в разработке, требующей персонала для управления, а также крупных затрат на оборудование и получение лицензий. «Мы − адвокатская фирма, а не технологическая компания», − говорит он.

Но около шестисот электронных адресов компании считаются важными для ее деятельности, поэтому решение было необходимо. Адамс в конечном итоге обратился к Teneros, поставщику устройств непрерывности, разработанных для репликации обменных серверов. «Устройства Teneros на основе IP легко устанавливаются на производственный участок и участок для восстановления деятельности после аварии», − поясняет Адамс.

Если даже один из обменных серверов, серверов BlackBerry или Goodlink выйдет из строя, подключатся устройства. А так как Teneros контролирует и обслуживает свои устройства, ИТ-группа Адамса несет мало накладных расходов.

Бюджетное планирование

Хотя планирование восстановления после аварии должно быть приоритной вашей задачей, это не означает, что вы должны превышать свой бюджет. На волне «Катрины» банк Hancock «открыл чековые книжки для восстановления после аварии, − говорит Миллет. − Но теперь мы хотим рационализировать свои затраты в соответствии с ценностями бизнеса».

По большому счету руководство Hancock осознало, что наличие только одного центра обработки вызовов в краю ураганов способствует кризису, поэтому открыло второй. Заработав этим плюс на восстановлении после аварии и лидируя в обслуживании клиентов: новый центр сокращает время ожидания для клиентов в ходе повседневной деятельности компании.