Возможна ли отказоустойчивость для Windows?

Цена отказоустойчивости всегда была высокой, а сами решения из этой области до сих пор обходили стороной мир Windows. И вот компания Stratus, продукция которой давно известна на небольшом рынке отказоустойчивых систем (серия Stratus Continuum, включающая модели RISC-серверов начального, среднего и старшего уровня [1], зарекомендовала себя как надежное решение для приложений обработки транзакций, требующих непрерывной готовности) замахивается на маленькую революцию, выпуская отказоустойчивый сервер на базе архитектуры IА-32, предназначенный для работы с операционной системой Windows 2000.

Приложения оперативной обработки транзакций (в частности, банковских) всегда предъявляли предельно высокие требования к надежности серверов - простои из-за аппаратных или программных сбоев недопустимы. Поэтому здесь нашла применение особая каста решений - отказоустойчивых систем, обеспечивающих коэффициент готовности не менее 99,999% (т. е. не более 5 минут простоев в год). Отказоустойчивость всегда обходилась очень недешево и была далека от мира массовых решений под Windows. До сих пор отказоустойчивые решения базировались либо на операционных системах собственной разработки, либо на одном из клонов Unix. И вот компания Stratus представляет отказоустойчивый сервер для работы с Windows 2000, причем по цене лишь в пару раз выше стандартного ПК-сервера.

Необходимость нарушить спокойствие в мире отказоустойчивых систем возникла не случайно. Выход большинства компаний в Internet, активное ведение бизнеса в Сети порождает острую и массовую потребность в решениях с очень высоким уровнем надежности. До сих пор поставщики аппаратных платформ стремились удовлетворить эту потребность главным образом за счет кластеризации NT-серверов. И вот теперь у кластеров может появиться неожиданный конкурент - сравнимый с ними по цене, но более простой в управлении и надежный ftServer.

Непрерывная готовность и Сеть

Реклама большинства серверных систем, претендующих на применение в качестве платформы для мощных корпоративных решений, не обходится без слов о высокой надежности оборудования и высоком уровне готовности приложений. Безусловно, все эти системы обладают средствами снижения частоты аварийных ситуаций, определяющих уровень надежности сервера. Реализуются и методы уменьшения влияния аппаратных сбоев на работу приложений и целостность данных, которые обеспечивают как можно более быстрое восстановление после обнаружения неисправностей - надлежащий уровень готовности приложений. Но, как видно из диаграммы, составленной по результатам исследований Standish Group в июне 2000 года (рис. 1), лишь специализированные отказоустойчивые решения Stratus Continuum и Compaq Himalaya способны обеспечить близкое к нулю среднее время простоев, включая простои из-за сбоев аппаратуры и сети, программного обеспечения, ошибок оператора, а также плановые простои для профилактики или модернизации сервера.

Рис. 1. Сравнение надежности различных серверных решений

Действительно, высокая готовность (high availability — HA) системы и непрерывная готовность (continuous availability — CA) — это «две большие разницы» [1]. Поставщики универсальных систем с высоким уровнем готовности на базе обычных компьютерных технологий обеспечивают быстрое восстановление после сбоев благодаря избыточности ряда аппаратных и программных средств. Как правило, принцип избыточности применяется в отношении подсистемы хранения (дисковые массивы RAID) и элементов электропитания (ИБП). При этом время простоя может составить от нескольких минут до часов (например, в тех случаях, когда требуется восстановить целостность базы данных значительного размера).

В отказоустойчивом сервере Stratus, обеспечивающем непрерывную готовность приложений, каждый аппаратный компонент, включая процессоры, дублирован. Отказоустойчивость реализуется целиком на аппаратном уровне. Все основные элементы обработки информации реализованы на сдвоенных логических блоках - два процессора и два набора блоков памяти на плате центрального процессора и т.д. Каждая команда обрабатывается на каждом из дублированных элементов синхронно и параллельно. Более того, каждый процессор на самом деле состоит из дублированных процессорных кристаллов, и каждое действие контролируется специальным логическим блоком. В случае ошибки вывод данных с неисправного блока на системную шину автоматически будет изолирован, а плата перейдет в режим самотестирования. Второй процессорный блок продолжит работу без малейшего прерывания и, таким образом, сбой системы никак не повлияет на работу приложения. Это и означает непрерывную готовность - неисправность обнаруживается и локализуется мгновенно, в машинном такте ее появления, распространение ошибки в системе исключается, работающее приложение будет по-прежнему выдавать достоверные результаты, данные не будут потеряны или искажены. Выполнение приложения даже не приостанавливается, поскольку немедленно локализуется в исправном блоке и, таким образом, несмотря на сбой, время работы прикладной системы не увеличивается из-за потерь на восстановление. Не уменьшается производительность. Модификация и обслуживание системы проводятся в оперативном режиме, без прерывания текущей обработки данных, и не требуют специальных навыков от персонала.

Однако даже непрерывная доступность не означает абсолютного отсутствия сбоев. Но системы с непрерывной готовностью позволяют максимально приблизиться к обеспечению нормальной работы приложений в режиме 24х7х365. Как показывают недавние исследования International Data Corp. [2], готовность на уровне «пяти девяток» постепенно становится непременным требованием для любого сервера, поддерживающего приложения в Internet. С другой стороны, та же IDC отмечает устойчивую тенденцию ко все более широкому проникновению NT-серверов в среды критически важных приложений. Однако NT-сервер на базе стандартных компонентов обеспечивает уровень готовности не выше 99,9%. Поэтому появление сервера на платформе Wintel, обеспечивающего реальную отказоустойчивость, может быть с энтузиазмом принято Internet-провайдерами и провайдерами приложений. При условии, конечно, его разумной цены.

Архитектура ftServer

Предыдущие разработки Stratus использовали специально созданную компанией операционную систему для отказоустойчивых платформ VOS и диалекты Unix (FTX и HP/UX). Новый сервер ftServer впервые реализует непрерывную доступность для Windows 2000. Первые модели ftServer строятся на базе процессоров Xeon с тактовой частотой 700 МГц и используют стандартные адаптеры PCI. Непрерывная готовность обеспечивается с помощью аппаратных и программных средств, а также благодаря специальной программе сервисной поддержки.

Следуя основным принципам обеспечения отказоустойчивости, в сервере ftServer реализуется избыточность всех аппаратных компонентов - центрального процессора, оперативной памяти, дисковой подсистемы и адаптеров ввода/вывода, что почти полностью исключает возможность возникновения одиночной точки сбоя (single point of failure — SPOF). В отличие от прежних архитектур, в Stratus в системе ftServer предусмотрели избыточность не только путем дублирования аппаратных компонентов (Dual Modular Redundancy — DMR), но и путем их утроения (Triple Modular Redundancy — TMR). В режиме DMR сервер включает две процессорные платы, каждая из которых может содержать до 4 процессоров в SMP-конфигурации и память емкостью до 4 Гбайт, а также автономные источники питания. В режиме TMR в сервер добавляется еще одна такая же материнская плата (рис. 2). Этот режим обеспечивает еще более высокий уровень надежности, поскольку в случае выхода из строя одной платы сохраняется избыточность, и сервер продолжает работу в режиме DMR.

Рис. 2. Архитектура ftServer в сравнении с традиционной архитектурой

Две (или три) материнские платы работают в режиме пошаговой блокировки. Таким образом, синхронизируется работа избыточных плат и гарантируется выполнение одних и тех же команд и обработка одних и тех же данных в данный момент времени. Логика обнаружения и изоляции ошибок реализована в дублированных модулях, выполняющих роль интерфейса между материнскими платами и подсистемой ввода/вывода. Эти модули, реализованные как заказные ASIC-микросхемы, сравнивают вывод от всех материнских плат. Несовпадение выводимых данных сигнализирует об ошибке. На каждой процессорной плате присутствуют дополнительные логические элементы обнаружения сбоев, которые используются в режиме DMR для определения неисправной платы. В режиме TMR неисправная плата изолируется по принципу тройного голосования (3-way voting).

Система ввода/вывода идентична для обоих режимов. Принципиальным для отказоустойчивости является тот факт, что подсистема процессор-память и ввод/вывод на диски реализованы на отдельных платах. Базовая система ввода/вывода имеет две независимые шины PCI. Все основные адаптеры (SCSI, Ethernet, Fibre Channel, а также интерфейс, служащий для дистанционного управления) также продублированы. Таким образом, сбой в шине не повлияет на работу системы - прозрачное для пользователей управление вводом/выводом будет передано на избыточный, исправный компонент, а данные или сетевые соединения не будут потеряны. Дисковая подсистема организована как дисковый массив уровня RAID 1, причем каждый диск имеет два независимых интерфейса SCSI с возможностью автоматического восстановления при сбоях.

Таким образом, для всех аппаратных компонентов сервера ftServer реализован принцип избыточности, логический контроль за неисправностями и немедленное исправление сбоев. Отличие нового сервера - использование стандартных технологий и компонентов, а также подход «sparе and there» вместо «pair and spare». Действительно, в предыдущих серверных архитектурах

Stratus помимо дублирования материнских плат дублировались и процессоры на плате, т. е. каждый процессор в действительности представлял собой пару процессорных кристаллов («pair and spare»). Более простая архитектура «spare and there» использует меньше аппаратных компонентов. Подобный подход, равно как и ориентация на стандартные технологии способствуют снижению общей стоимости сервера. С точки зрения прикладных систем сервер Stratus имеет обычную архитектуру без какой-либо избыточности. Все аппаратные «навороты», направленные на обеспечение отказоустойчивости, остаются прозрачными для приложений и конечных пользователей.

Программные средства для непрерывной готовности

По данным опросов Standish Group среди компаний, входящих в Fоrtune 1000, высокая готовность системы является ведущим фактором при выборе аппаратной платформы [3]. Помимо построения отказоустойчивой архитектуры на аппаратном уровне, в серверах ftServer реализован ряд серьезных программных средств обеспечения непрерывной готовности приложений, выполняющихся в среде Windows 2000.

Недостаточная надежность всегда была слабым местом Windows, а поскольку Windows 2000 позиционируется как операционная система для критичных приложений, наличие такого слабого места становится просто недопустимым. В Windows 2000 повышенный уровень надежности и готовности достигается благодаря трем основным группам усовершенствований: фундаментальным изменениям самой ОС; средствам разработки, позволяющим писать более надежный код; административным средствам для увеличения времени работы приложений без сбоев. Первая группа включает архитектурные усовершенствования операционной системы, направленные на защиту ядра и разделяемой памяти. Механизм защиты записи в ядро (kernel-mode write protection) предотвращает влияние ошибочного кода на другие системные операции. Функция защиты файлов (file protection) должна гарантировать, что защищенные системные файлы не окажутся заменены в процессе установки нового программного обеспечения, за исключением модернизации операционной системы или установки пакетов обновлений.

Разработчики получили в Windows 2000 новый инструментарий для создания более надежных драйверов устройств. Известно, что неправильная работа драйверов с разделяемой памятью - это одна из наиболее частых ошибок, которые в конечном итоге могут привести к сбою и простоям системы. Windows 2000 предоставляет ряд специальных средств, которые позволяют проверять выделение памяти драйверам и идентифицировать проблемные ситуации. Кроме того, новая функция Driver Signing позволяет идентифицировать драйвер, прошедший тестирование в Windows Hardware Quality Labs. Таким образом, пользователи будут предупреждены, что устанавливается драйвер без соответствующей цифровой подписи.

На повышение готовности прикладной среды направлены также новые возможности по администрированию системы. Прежде всего, значительно сокращено число действий по сопровождению и переконфигурации системы, которые требуют перезагрузки ОС. Ускорено выполнение ключевых диагностических процедур, включая проверку жесткого диска и генерацию сообщений о том, какая память использовалась в момент сбоя системы. Уменьшено время восстановления и перезапуска системы. Предоставляется ряд новых средств по управлению хранением, которые направлены на предотвращение проблем при выходе за пределы свободного дискового пространства.

Тем не менее, несмотря на эти усилия Windows 2000 в чистом виде не может служить операционной платформой для сред, требующих непрерывной готовности сервера. С другой стороны, сама по себе отказоустойчивая архитектура Stratus не может гарантировать отсутствия сбоев в операционной системе. Поэтому в ftServer были реализованы важные программные средства обеспечения непрерывной готовности приложений, которые направлены на дальнейшее повышение надежности Windows 2000. Эти программные функции не затрагивают базовый код ОС, в том числе ядро, поэтому ftServer обеспечивает 100-процентную двоичную совместимость системного программного обеспечения с приложениями и функциями промежуточного слоя Windows 2000 по интерфейсу Aplication Binary Interface (ABI). Сервер поддерживает стандартные версии ОС Windows 2000 Server, Advanced Server и Datacenter Server.

Программные средства ftServer для достижения непрерывной готовности направлены на решение двух основных задач: предотвратить cбой, который способен привести к простоям приложений, и минимизировать время простоя, если его не удалось предотвратить.

Предотвращение простоев приложений

«Стабилизированные» драйверы (hardened driver). Драйверы устройств - программные интерфейсы для связи операционной системы с периферийными и коммуникационными устройствами - являются одним из основных источников нестабильности Windows. Небольшие ошибки, допущенные разработчиками драйверов, могут вылиться в серьезные системные сбои. Причем, как правило, проблемы с драйверами трудно изолировать и диагностировать. Как мы отмечали, создатели Windows 2000 позаботились о том, чтобы драйверы стали более надежными, однако в Stratus сочли необходимым пойти дальше.

«Стабилизация» драйверов для всех PCI-адаптеров, которые поддерживает ftServer, достигается с помощью нескольких методов предотвращения сбоев, абсолютно прозрачных для Windows-приложений. Драйверы получают возможность быстро выявить ситуацию, когда адаптер пытается выполнять запись за пределами выделенной ему физической памяти, и прервать этот процесс, способный привести к сбою.

Стабилизированные драйверы используют два метода повышения надежности сервера: самоконтроль адаптера (self-monitoring) для обнаружения ошибок драйвера, допущенных при разработке, и дублирование аппаратных компонентов. Процедура самоконтроля обеспечивает постоянное отслеживание периодически возникающих ошибок на каждом из PCI-адаптеров. Если частота возникновения определенной ошибки превысит допустимое пороговое значение, адаптер автоматически выводится из работы. Поскольку адаптеры дублированы, операции ввода/вывода будут автоматически переключены на альтернативный адаптер, причем для пользователей и приложений факт переключения управления пройдет незамеченным. Неисправный модуль будет заменен новым в режиме «горячей замены», без прерывания работы сервера. Для предотвращения ошибок оператора в процессе замены неисправного адаптера стабилизированные драйверы поддерживают индикаторы состояния для каждого устройства. Зеленый цвет индикатора указывает на то, что адаптер можно спокойно заменять, поскольку он работает нормально и в режиме дублирования. Желтый цвет идентифицирует, что адаптер работает нормально, но не имеет избыточного компонента, а красный сигнализирует об ошибке в адаптере и о том, что он был выведен из работы.

Разработка стабилизированных драйверов опирается на встроенный в операционную систему инструментарий управления и генерации сообщений WMI (Windows Management Instrumentation). WMI определяет базовые функции, которые используются при создании таких драйверов: считывание статуса устройства и статуса платы адаптера; добавление и удаление адаптеров устройств; диагностика адаптера, выведенного из рабочего состояния; замена адаптера в оперативном режиме.

Драйверы для всех поставляемых Stratus адаптеров стабилизированы, причем компания рекомендует стабилизировать драйверы для всех устройств, которые будут использоваться с сервером ftServer. Для этого разработчикам предоставляется комплект DDK (Device Driver Kit), который включает команды, руководства по разработке, библиотеку кодов и позволяет создавать драйверы, соответствующие требованиям сертификации для Windows 2000.

Монитор системы и приложений. Средства упреждающего мониторинга системных ресурсов и прикладного программного обеспечения - еще один эффективный способ снизить риск внеплановых простоев. Специальные программные средства Stratus расширяют возможности такого мониторинга, реализованные в ОС. Монитор системы и приложений отслеживает ключевые системные параметры для центрального процессора, оперативной памяти и дисковой подсистемы, сравнивая их с заданными системным администратором пороговыми значениями. Список параметров мониторинга включает уровень используемости и загрузку центрального процессора, объем свободного пространства на диске, размер виртуальной памяти и т.д.

Монитор системы и приложений реализует механизм централизованного сбора, фильтрации и регистрации событий в системе и приложениях, и, в случае превышения пороговых значений параметров, позволяет оповещать по электронной почте персонал или сервисную службу Stratus Customer Assistance Center (CAC). Таким образом, появляется возможность выполнять корректирующие действия сразу, как только выявлен потенциальный источник проблем, и тем самым не позволить ситуации вылиться в серьезный системный сбой.

В случае возникновения определенных событий монитор систем и приложений может автоматически инициировать заранее заданный процесс - превентивное предупреждение или команду на перезапуск приложения. Таким образом, вмешательство оператора в управление сервером и поддержка высокого уровня доступности сводится к минимуму. Монитор имеет также возможность анализировать ошибочные ситуации и определять их причины.

Монитору доступны любые другие функции управления системами, если они поддерживают инструментарий WMI . Поэтому монитор совместим с продуктами ведущих поставщиков ПО управления, включая Tivoli, CA-Unicenter TNG, HP OpenView, BMC Patrol и Compuware.

Диспетчер управления ресурсами (Resource Inventory Manager — RIM). Несовместимость версий аппаратного и программного обеспечения от разных поставщиков - еще одна из частых причин сбоев в среде Windows. Ключ к решению проблем совместимости - в тщательном отслеживании и контроле данных о конфигурации. Разработанный для сервера ftServer диспетчер управления ресурсами RIM решает эту задачу.

Программное обеспечение RIM встроено в стандартную инфраструктуру управления Windows 2000 и не требует никаких модификаций операционной системы, стандартных прикладных пакетов или аппаратного обеспечения. RIM динамически проверяет версии аппаратных компонентов сервера, пакетов обновления (service pack), плат адаптеров, динамических библиотек DLL и предотвращает конфликты из-за несоответствия версий, которые могут серьезно повлиять на стабильность работы сервера. Идентификация всех элементов конфигурации системного ПО и аппаратуры сервера вместе с их версиями происходит в момент начальной установки и при любом изменении конфигурации. Полученная информация хранится на локальном системном диске, а также в базе данных центра поддержки пользователей Stratus CAC. Последнее обстоятельство позволяет быстро найти причину конфликта, если он возникает не первый раз, и оценить возможное влияние новых проблемных ситуаций на конфигурацию системы конкретного пользователя. Сервисная служба имеет дистанционный доступ к системам заказчиков, поэтому в случае возникновения проблемы с программным обеспечением специалисты Stratus получат непосредственный доступ к данным о конфигурации и версиях и смогут проанализировать и скорректировать ситуацию.

RIM работает только с данными о конфигурации системы, но может быть расширен таким образом, чтобы собирать информацию о промежуточном и прикладном ПО.

Минимизация времени простоев

Быстрая перезагрузка с сохранением образа памяти (Online Dump). Реализация этой возможности опирается на дублирование аппаратных компонентов сервера ftServer и на сервисные технологии Stratus. В случае сбоя операционной системы сервер отключает одну из избыточных плат процессора или памяти и без каких-либо временных потерь возвращает к нормальному рабочему состоянию оставшуюся часть системы. При этом на отключенном компоненте сохраняется вся информация о ситуации, вызвавшей сбой. Выполнение приложений продолжается, одновременно формируется дамп памяти отключенного модуля. Когда сохранение образа памяти завершено, отключенная плата возвращается в нормальное рабочее состояние. Затем система автоматически связывается с сервисной службой и сообщает о возникшей проблеме. Впоследствии специалисты, используя ftServer Access PCI Adapter, смогут проанализировать системы и решить проблему.

FtMemory. Данная функция имеет очень важное значение для критичных приложений, поскольку гарантирует сохранение и целостность данных в оперативной памяти при любых сбоях и перезагрузке операционной системы, причем без потерь производительности, неизбежных при частой перезаписи данных на диск. FtMemory дает возможность выделить определенную часть основной системной памяти для специальной защиты в случае сбоя или перезагрузки ОС. Эта часть памяти остается нетронутой, поэтому время восстановления приложения при перезапуске сервера будет минимальным по сравнению со сходными ситуациями на обычном сервере, где данные необходимо реконструировать или загружать с диска. Сохранение данных в оперативной памяти и отсутствие операций перезаписи на диск не допускает и потерь производительности приложения.

Доступ к ftMemory осуществляется с помощью специального приложения ftRAM Disk, которое поддерживает стандартный интерфейс файловой системы Windows RAM Disk. Пока это единственный способ доступа к защищенной оперативной памяти, но Stratus предполагает реализацию и других интерфейсов для ftMemory.

Обновление драйверов в оперативном режиме. Технология стабилизации драйверов составляет основу для модификации драйверов в оперативном режиме - возможности, которая сокращает время плановых простоев. Установка драйверов и связанных с ними PCI-адаптеров, включая платы Ethernet и SCSI, выполняется без прерывания работы сервера и приложений. Индикаторы статуса устройства уменьшают вероятность возникновения ошибок в процессе модификации, поскольку однозначно показывают, когда возможна безопасная замена адаптера и насколько корректно работает новый адаптер после установки. Такая модификация проходит в режиме plug-and-play - не требуется никакого вмешательства оператора в работу программного обеспечения по выводу старого драйвера из рабочего состояния. Запуск инсталлированного адаптера также происходит автоматически.

Сервис на службе у отказоустойчивости

Отказоустойчивый сервер не может на 100% гарантировать отсутствие сбоев, однако способен гарантировать, что даже в случае возникновения проблемы продолжится обработка данных. Но есть еще один важный аспект обеспечения отказоустойчивости и непрерывной готовности - специальные технологии сервисного обслуживания, которые позволяют в минимальные сроки устранить причину сбоя и заменить отказавшие компоненты. Stratus еще в начале 80-х определила принципы организации обслуживания отказоустойчивых компьютеров своих заказчиков, которым следует до сих пор и которые теперь, благодаря аппаратным средствам и возможностям программного обеспечения сервера ftServer, станут достоянием пользователей среды Windows. Эти принципы заслуживают особого обсуждения, поскольку играют важнейшую роль в достижении почти 100-процентной готовности серверных систем.

Удобство обслуживания (service-ability) сервера ftServer заложено уже на уровне аппаратной архитектуры, поскольку все основные компоненты (материнские платы, платы ввода/вывода, диски) дублированы и организованы в виде заменяемых пользователем модулей (customer relpaceable unit — CRU). Неисправные компоненты изолируются автоматически, а выполнение приложений продолжается на оставшихся аппаратных элементах. Также автоматически в случае сбоя инициируется телефонный звонок в центр поддержки пользователей, после чего в минимальный срок (обычно на следующий день) доставляется необходимый для замены компонент.

В ftServer предусмотрены специальные средства для дистанционного контроля, мониторинга и диагностики. Сервер оснащен двумя адаптерами Access PCI, каждый из которых является одноплатным компьютером, полностью независимым от центрального процессора, оперативной памяти и ОС основного сервера. Адаптер Access PCI выполняет роль интерфейса для удаленного управления сервером ftServer, не требуя при этом, чтобы на сервере выполнялась ОС, но позволяя с удаленной консоли посредством Web-интерфейса включать/выключать систему и прерывать работу сервера.

Access PCI открывает доступ к серверу ftServer по сервисной сети Stratus (Stratus Service Network — SSN), которую компания поддерживает для удаленного обслуживания всех своих клиентов в различных регионах мира. По сети SSN в зашифрованном виде передаются автоматические обращения по поводу любых проблем с аппаратным и программным обеспечением и осуществляется обратная связь - специалисты сервисной службы получают доступ к удаленным системам для анализа возникшей ситуации или выполнения операций по сопровождению и поддержке. SSN фактически исключает необходимость в выезде специалистов непосредственно на место. SSN опирается на стандартные протоколы TCP/IP, которые позволяют проводить несколько сеансов связи по одному физическому соединению. Благодаря этому к обслуживанию системы заказчика могут подключаться партнеры и ISV - в случае, если разрешение проблемы потребует совместных усилий.

Ядро сервисной структуры Stratus - центр поддержки пользователей САС. Все сигналы о проблемах поступают именно сюда, и отсюда осуществляется удаленная коррекция ошибок и поставка новых компонентов для замены. Центр САС для региона СНГ функционирует в Москве на базе компании СРМ.

***

ftServer пока в начале пути. Возможно, его ждут трудности, поскольку впервые отказоустойчивый сервер предлагается для Windows. Однако Windows 2000 нацелена на критичные применения, и, возможно, ее пользователи почувствуют необходимость в аппаратных платформах с максимально высоким уровнем надежности. До сих пор такой уровень могли обеспечить только кластеры производства Compaq, IBM, Hewlett-Packard, Dell и др. Однако кластер по природе своей - сложная система, и его конфигурация и обслуживание могут послужить дополнительным источником сбоев вместо желаемого сокращения непродуктивного времени. Одно из преимуществ отказоустойчивого сервера - в прозрачности всех архитектурных изощрений для пользователя, который работает с ftServer как с обычным сервером. Кроме того, в отличие от кластера, отказоустойчивый сервер не требует нескольких лицензий на операционную систему и программное обеспечение. Отчасти поэтому, общая стоимость владения отказоустойчивым сервером может оказаться ниже аналогичных показателей для кластера, хотя первоначальная цена покупки последнего ниже стоимости отказоустойчивого решения.

По данным International Data Corp., пользователи NT-систем среди наиболее важных для них характеристик на первое место ставят готовность, отдавая предпочтение этому показателю, в частности, по сравнению с масштабируемостью. И здесь очевидные козыри — у ftServer. Однако новый сервер может быть принят с определенной настороженностью, поскольку до сих пор рынок не знал подобных решений для серверных систем под Windows. Так что в ближайшем будущем вполне возможна интересная интрига противостояния на рынке массовых высоконадежных решений.

Литература

1. Виктор Шнитман. Отказоустойчивые компьютеры компании Stratus. «Открытые системы», №1, 1998
2. Fault-tolerant computing for the NT masses: did Stratus get there first? IDC Bulletin, February 2000
3. Stratus: the next generation. Standish Group Research Note, 1999