Семинар, посвященный обеспечению бесперебойной работы ИТ-систем
IBS провела 19 марта семинар, посвященный предлагаемым ею решениям по обеспечению постоянной доступности приложений. Сотрудники компании пытались показать, как найти оптимальное сочетание трех противоречивых характеристик: надежности, производительности и цены. Правда, ответ на этот вопрос зависит также от модели бизнеса владельца информационной системы, а точнее, от размера убытков, которые он может понести от ее простоя. По оценкам западных аналитиков, наиболее рискованным бизнесом в этом отношении является брокерский, где за час простоя ИС можно потерять до 6,5 млн. долл. Для большинства других видов бизнеса этот риск в несколько раз ниже.
Что же могут сделать создатели информационных систем для обеспечения их постоянной доступности? Поскольку процесс выхода оборудования из строя случаен, то повлиять на него практически невозможно. Но можно уменьшить или вообще свести к нулю время перерыва в работе после аварии.
Именно на уменьшение времени недоступности и направлены все современные технологии построения отказоустойчивых ИС. Тут следует выделить несколько ключевых тенденций. Так, для надежного и устойчивого к сбоям хранения пользовательских данных используются все более изощренные стратегии распределения информации по накопителям, которые позволяют избежать потерь данных при выходе из строя одного устройства. Кроме того, совершенствуются решения для обеспечения непрерывной работы приложений, которые основаны на аппаратной избыточности, постоянном мониторинге системы и динамическом перераспределении приложений.
Для обеспечения надежного функционирования ИС нужно позаботиться о целостности данных, поскольку если она будет нарушена, то не помогут ни резервные центры, ни безотказная аппаратура. Основные направления защиты целостности данных от различных типов сбоев — это их дублирование на удаленные внешние устройства, виртуализация и создание моментальных копий. Репликация необходима для вынесения данных в безопасное место. Виртуализация устройств хранения призвана скрыть от ИС физическое расположение данных, которые могут храниться на нескольких накопителях и в случае сбоев одних динамически перемещаться на другие. Локальные или моментальные копии дискового раздела предназначены для сокращения времени простоя на процедуру резервного копирования. Рабочие данные вначале копируются на тот же накопитель, что происходит достаточно быстро, а потом с одной копией приложение продолжает работу, а другая используется для медленной процедуры записи резервной копии или для анализа данных в аналитической системе.
Для полноценной работы ИС, кроме сохранности данных, нужны и работающие приложения. Правда, если требования к хранению информации достаточно жесткие, то приложения могут простаивать относительно долго. В частности, в большинстве российских банков допустимым является два часа простоя при аварии автоматизированной банковской системы, хотя потеря даже небольшой части важных данных несет за собой серьезные проблемы. Основными направлениями улучшения надежности аппаратуры являются резервирование аппаратных узлов в сочетании с их горячей заменой и перераспределением ресурсов, а также построение кластеров. Обе операции требуют поддержки со стороны операционной системы и частично приложений. Сейчас отказоустойчивые кластеры предлагают Sun, IBM, Hewlett-Packard и ряд других компаний.