Последний год прошлого тысячелетия был ознаменован выпуском новой серии серверов PRIMEPOWER от Fujitsu Siemens Computers — первой в Европе разработки компьютеров с коммутационной архитектурой на базе процессоров SPARC. В этой статье представлены особенности архитектуры этой линейки систем, протянувшейся от машин начального уровня до 128 процессорных гигантов, предназначенных для реализации корпоративных центров данных.

Семейство серверов PRIMEPOWER начинается с двухпроцессорной машины начального уровня PRIMEPOWER 200, серверы рабочих групп представлены моделями PRIMEPOWER 400 (до 4 процессоров) и PRIMEPOWER 600 (максимум 8 процессоров). В качестве серверов корпоративного уровня используются 16-процессорная PRIMEPOWER 800, 32-процессорная PRIMEPOWER 1000 и 128-процессорная PRIMEPOWER 2000 (Таблица 1).

Серверы PRIMEPOWER 800-2000 построены на базе технологии коммутации и внутри линейки имеют идентичную конструкцию и компоненты. Общие свойства серверов этого семейства:

  • масштабируемость за счет коммутатора производительностью до 57,6 Гбайт/с;
  • процессор SPARC64 GP [1] с большой кэш-памятью второго уровня (8 Mбайт) и частотой 450 МГц;
  • подсистема оперативной памяти SDRAM с 64-кратным расслоением доступа и частотой 100 MГц;
  • подсистема ввода/вывода на базе 64-bit шин PCI с частотой 66 MГц.

Конструкция серверов позволяет наращивать ресурсы процессоров оперативной памяти и устройств I/O без каких-либо совместных ограничений, что означает возможность построения конфигураций, включающих в себя 128 процессоров, 256 Гбайт оперативной памяти и 192 PCI слота. В таблице 2 приводится оценка роста производительности OLTP, кратная производительности восьмипроцессорного PRIMEPOWER 2000. Оценки даны для системы, построенной на SPARC64 GP 300 MГц. Для следующего поколения процессоров коэффициент линейности для OLTP задач будет улучшен до 1,8.

Архитектура PRIMEPOWER

Важным ключевым звеном архитектуры PRIMEPOWER является процессор SPARC64 GP [1], разработанный фирмой HAL и производимый Fujitsu. Этот 64-х разрядный процессор полностью сделан по спецификациям SPARC v9, что позволяет использовать для серверов на его основе стандартную ОС Solaris/SPARC и все существующие для нее приложения. SPARC64 GP обеспечивает бинарную совместимость с процессорами UltraSPARC-II. Процессор SPARC64 GP выпускается с частотой 450 и 600 Мгц, а в конце 2001 года — 1-1,2 ГГц. Масштабируемость серверов семейства PRIMEPOWER обеспечивается технологией высокопроизводительного коммутатора, обеспечивающего одну из самых высоких в индустрии пропускную способность данных — до 57,6 Гбайт/с. Последним важным звеном архитектуры PRIMEPOWER является подсистема ввода/вывода, в основе которой лежит стандартная промышленная шина PCI с производительностью до 500 Mбайт/с.

Компоненты сервера

Базовым модулем серверов PRIMEPOWER 800/1000/2000 является системная плита, на которой размещается до четырех процессорных модуля, модули оперативной памяти (до 8 Гбайт) и корзина с шестью разъемами PCI. Однокабинетная PRIMEPOWER 2000 поддерживает до 8 системных плит, а 64-процесорная конфигурация PRIMEPOWER 2000 состоит из двух объединенных кабинетов, в каждый из которых устанавливается до 8 системных плит. Максимальная 128-процессорная конфигурация образована из четырех объединенных кабинетов. Однокабинетная PRIMEPOWER 1000 поддерживает в свою очередь до 4 системных плит, а максимальная конфигурация PRIMEPOWER 1000 состоит из двух объединенных кабинетов, в каждый из которых устанавливается до 4 системных плит. Системные плиты устанавливаются в нижнюю часть лицевой части каждого кабинета PRIMEPOWER. Кабели ввода/вывода присоединяются к контроллерам PCI, внешние выводы которых находятся на лицевой панели каждой системной плиты. Кабели для присоединения внешних устройств проходят от контроллеров PCI с задней стороны кабинета или через его нижнюю часть. Непосредственно за системными плитами располагается воздушный фильтр, а над ними — восемь сменных вентиляторных блоков. Каждый блок содержит по три высокоскоростных вентилятора с контролем частоты вращения. Верхние и нижние блоки образуют взаимно резервируемые пары. Расположение вентиляционных устройств гарантирует безопасное обслуживание их, кабелей и карт ввода/вывода, установленных на системной плите.

В верхней части кабинета предусмотрено место для установки любых 19-дюймовых стоечных компонентов — обычно сюда монтируются системные дисковые массивы, с которых осуществляется загрузка ОС, однако, возможна установка и других устройств, таких как, например, ленточные накопители и стекеры. В эту же стойку помещаются и специализированные устройства CCU (console controle unit), представляющие собой сетевые шести портовые мультиплексоры. Их количество зависит от конфигурации системы, количества динамических системных доменов, но не может быть менее одного. Блоки питания находятся по обеим сторонам места для установки 19-дюймовых компонентов. Общесистемная коммутационная панель расположена с задней стороны кабинета. В сервере PRIMEPOWER 2000 поддерживается горячая замена всех основных компонентов, что позволяет осуществлять обслуживание системы без ее остановки. На задней внутренней панели серверов PRIMEPOWER предусмотрено место для основного и резервного устройств управления внутренней диагностикой CDB. Каждое такое устройство имеет 10Mбит Ethernet соединение с закрытой сетью управления сервером и, соответственно, с консолью управления, выполненной на базе станции UltraSPARC 5.

Системный коммутатор

В серверах PRIMEPOWER старших моделей используется технология двухуровневой коммутации, благодаря которой возможна масштабируемость до 128 процессоров. Коммутатор первого уровня (L1 crossbar) является внутренним и расположен непосредственно на системной плите. Процессоры SPARC64 GP, мосты для шин PCI и модули оперативной памяти взаимодействуют между собой через этот коммутатор. Коммутатор второго уровня (L2) осуществляет взаимодействие между коммутаторами первого уровня, располагающимися на системных плитах (до 16 коммутаторов первого уровня). Компоненты коммутатора L2 монтируются в нижней части задней панели кабинета. Все сервера PRIMEPOWER М800-М2000 имеют полностью идентичный коммутатор второго уровня. На рис. 1 представлена схема коммутаторов L1 и L2.

Рис. 1. Схема коммутаторов L1 и L2 серверов PRIMEPOWER 800-2000

Сегодня коммутатор второго уровня поддерживает пропускную способность до 57,6 Гбайт/с, поддерживая практически линейную масштабируемость серверов вплоть до 64 процессоров. Для обеспечения такой производительности проводники, соединяющие коммутаторы L1 и L2, собираются из 8000 проводников строго одинаковой длины. Тонкая настройка длины этих проводников осуществляется вручную во время технологического процесса создания коммутационных соединений. В свою очередь, при организации двух кабинетных конфигураций коммутаторы L2 соединяются между собой специальными шлангами. FSC использует специальную волноводную технологию для исключения задержек в таких шлангах, разъемах и интегральных схемах, что позволяет осуществлять синхронные операции передачи на частоте 200 МГц. Современные серверы PRIMEPOWER могут содержать от одного до двух кабинетов — базовый системный и кабинет расширения. Для машин PRIMEPOWER 1000 в каждом кабинете предусмотрено место для установки 4 системных плит, для 2000 — 8.

Системная плита

Системная плита серверов PRIMEPOWER 800/1000/2000 представляет собой законченную четырехпроцессорную систему со своей оперативной памятью, вводом/выводом и высокоскоростным системным интерфейсом. На плите имеются разъемы для установки 4 процессорных модулей, 32 разъема для установки модулей оперативной памяти и шесть разъемов шин PCI. При этом возможна гибкая схема конфигурирования ресурсов. Например, для задач, связанных с интенсивными вычислениями, на системную плиту можно установить четыре процессора и 8 Гбайт оперативной памяти. В тоже время, для крупномасштабного файлового или сетевого сервера можно установить один процессор, 512 Мбайт оперативной памяти и шесть контроллеров PCI.

Системы 800/1000/2000 имеют SMP- архитектуру. Идентификаторы процессора (ID) и связанные с ним функции обработки прерываний имеют диапазон от 0 до 127 и размещаются в специализированном регистре системной плиты. Во время работы ОСID копируется во внутренние регистры процессора для обеспечения максимально быстрого доступа к ID-информации. При этом обеспечивается эффективная реализация SMP с поддержкой до 128 процессоров, поскольку прерывания (например, от PCI карт), могут быть распределены на любой процессор. Функции управления, следящие за тем, какой процессор и на какой системной плите будет обслуживать данное прерывание, реализуются специальной микросхемой, также расположенной на системной плите.

Как уже отмечалось, в машинах 800 и 1000 может быть смонтировано до четырех, а в сервере 2000 — до 16 системных плит в одном кабинете. Минимальная конфигурация системной плиты — один процессор и 512 Мбайт оперативной памяти.

Процессор SPARC64 GP

Основа серверов PRIMEPOWER — высокопроизводительный процессор SPARC64 GP [1], который может выполнять до 4 инструкций за такт, поддерживать внеочередное исполнение команд для всех типов инструкций. Процессор поддерживает 64-разрядное виртуальное адресное пространство и 41-разрядное физическое адресное пространство. SPARC64 GP обеспечивает работу с кэш-памятью I0: 16 Kбайт, I1: 128 Kбайт, D1: 128 Kбайт, U2: 8 Mбайт и использует четырех направленный ассоциативный метод доступа с обратной записью.

Использование кэш-памяти большого объема становится особенно важным для обеспечения соизмеримости производительности подсистемы оперативной памяти с быстрорастущей производительностью процессоров. Процессор SPARC64 GP поддерживает технологию ECC (Error Correction Code) как для первичного кэша данных объемом в 128 Kбайт, так и для кэш-памяти второго уровня емкостью 8(16) Mбайт. Технология ECC обеспечивает автоматическую коррекцию однобитовых ошибок и продолжение нормального функционирования системы.

Рассматриваемые модели серверов поддерживают как текущую 450 MГц версию процессора SPARC64 GP, так и процессоры следующего поколения c планируемой частотой 600 и 1000 МГц. При этом модернизация серверов осуществляется простой заменой процессорных модулей.

Подсистема оперативной памяти

Серверы рассматриваемого семейства имеют возможности по расширению оперативной памяти — до 256 Гбайт. В серверах PRIMEPOWER 800/1000/2000 средства управления оперативной памятью и сами модули памяти размещаются на каждой системной плите. Контроллер оперативной памяти реализован в виде одной БИС, называемой SC (System Controller), которая содержит копию тэгов внешнего процессорного кэша второго уровня для контроля за когерентностью кэш-памяти. Микросхема имеет структуру MCM (Multi Chip Module) и обеспечивает быстрое и параллельное выполнение транзакций, улучшая, таким образом, скорость выборки из оперативной памяти. При доступе к оперативной памяти в пределах одной системной плиты скорость обмена данными существенно повышается, поскольку при этом не задействуется коммутатор L2.

Оперативная память организована с 4-кратным расслоением на каждой системной плите. Операции доступа к памяти по четырем различным адресам могут осуществляться одновременно, улучшая скорость доступа и выборки. В качестве элементов памяти используются модули SDRAM с частотой 112,5 MГц. Метод управления расслоением гарантирует эффективное использование всех четырех банков памяти SDRAM, обеспечивая суммарную пиковую пропускную способность для оперативной памяти в 9,6 Гбайт/с для каждой системной плиты. Последний показатель особенно важен, поскольку он напрямую связан с общими показателями производительности системы.

Архитектура оперативной памяти серверов PRIMEPOWER 800/1000/2000 гарантирует нормальную работу даже в случае полного выхода из строя одной микросхемы на модуле памяти. Эта особенность архитектуры обеспечивает особую устойчивость серверов к ошибкам как собственно в данных, так и в путях их передачи.

Подсистема ввода/вывода

Основной шиной ввода/вывода для серверов PRIMEPOWER является шина PCI, соответствующая стандарту PCI Revision 2.1 и обеспечивающая передачу данных 32/64 бит на частоте 33/66 MГц. На каждой системной плите размещаются шесть шин и разъемов PCI. Общее количество шин PCI в серверах PRIMEPOWER может достигать 192 (для модели 2000). Уникальной особенностью серверов является подключение каждого разъема PCI к своей независимой шине, что исключает снижение производительности в результате конкуренции за шинные ресурсы со стороны нескольких PCI-плат. В качестве устройств PCI могут выступать контроллеры PCI FC-AL для подключения дисковых устройств и систем долговременного хранения, SCSI контроллеры, контроллеры сетевых интерфейсов 1000/100Mбит Ethernet, FDDI, ATM и ряд других. Интегрированные на системную плиту контроллеры 100/10 Mбит Ethernet и RS-232C подключены к шине PCI F. Данные по шинам PCI представлены в таблице 3.

Сеть системного контроля

Сеть системного контроля (ССК) для серверов PRIMEPOWER размещается внутри системных кабинетов и стоек расширения и служит для выполнения следующих функций:

  • управления и контроля за источниками питания и вентиляторами;
  • управления и контроля обслуживания системы;
  • перезапуска устройств;
  • задания частоты обслуживания системы.

Сеть системного контроля серверов PRIMEPOWER представляет собой высоконадежный и высокоскоростной последовательный интерфейс, реализующий функции определения и восстановления ошибок большого количества разнородных элементов компьютера. При этом в качестве элементов могут выступать блоки питания, вентиляторы, системные плиты, подсистема управления тактовой частотой, а также система общего слежения (СОС). ССК используется для задания различных управляющих установок и отслеживания сигналов неисправностей. Сеть системного контроля полностью дублирована, что позволяет продолжать работу даже в случае физического повреждения одной из линий передач. Система общего слежения (реализованная на плате системного контроля CDB — Control and Diagnostic Board) отвечает за обслуживания различных ситуаций, связанных с неисправностью оборудования. С ее помощью можно задать системную консоль для вывода сообщений и задания управляющих действий системным администратором. Системная консоль позволяет отслеживать различного рода статусную информацию о всех устройствах, подключенных к ССК и выдает ее системному администратору для анализа и принятия тех или иных мер.

Важной особенностью сети системного контроля является ее независимость от процессоров SPARC64 GP. Даже в том случае, когда сервер не может начать работу вследствие какой-либо ошибки, различного рода информация о ней может быть собрана и направлена на системную консоль. При этом, поскольку плата системного контроля, в свою очередь, может быть дублирована и возможна ее горячая замена, работа сервера не прекратится даже в случае ее выхода из строя. На рис. 2 приводится схема сети системного контроля.

Рис. 2. Схема сети системного контроля

Концепции RAS/HA и сервера PRIMEPOWER 800/1000/2000

Особое значение для серверов корпоративного класса имеют высокие показатели надежности, доступности и обслуживаемости (RAS). В серверах PRIMEPOWER 800/1000/2000 эти показатели практически соответствуют уровню, достигаемому в мэйнфреймах.

Надежность. Наиболее распространенным показателем надежности является среднее время между возникновением неисправностей (среднее время наработки на отказ) — MTBF (Mean Time Between Failure). Достижение приемлемых показателей надежности требует высокого качества всех компонентов системы. Кроме того, все компоненты должны иметь отличные показатели устойчивости к сбоям и приемлемую реакцию в случае их возникновения, прогнозируемую заранее. Данные характеристики должны быть применимы как к аппаратным, так и программным компонентам системы.

Доступность. Доступность измеряется временем, в течение которого система может продолжать работу. Поскольку нельзя полностью исключить возникновение неисправностей, высокая доступность системы должна обеспечивать продолжение ее работы даже в случае проявления таких неисправностей (аппаратные сбои блоков, сбои приложений и базового ПО). Серверы PRIMEPOWER 800/1000/ 2000 поддерживают следующие черты высокой доступности (при этом кластерные конфигурации позволяют еще больше увеличить ее уровень):

  • избыточные конфигурации и горячая замена ключевых компонентов;
  • расширение набора компонентов и подсистем;
  • улучшение обработки возникающих ошибок и обеспечение продолжения работы;
  • уменьшение времени простоя благодаря автоматическому рестарту;
  • обеспечение слежения за состоянием оборудования в режиме реального времени.

Обслуживаемость. Серверы PRIMEPOWER 800/1000/2000 включают ряд черт высокой готовности, например, горячая замена ключевых компонентов и обеспечение продолжения работы в усеченном режиме в случае возникновения неисправностей. Такие функции обеспечивают изоляцию и замену неисправных блоков без остановки системы. Программное обеспечение системы общего слежения серверов PRIMEPOWER предоставляет необходимые возможности для системного администратора и обслуживающего персонала по выявлению и устранению неисправностей.

В серверах PRIMEPOWER все основные компоненты, вплоть до системной консоли и всех соединений серверов с ней могут быть сконфигурированы избыточно. В конфигурациях PRIMEPOWER с двумя и более кабинетами предусматривается установка резервных системных часов, что позволяет быстро перезагрузить систему в случае их выхода из строя. Линии передачи сети системного контроля CCK также полностью дублируются в каждом системном кабинете и стойках расширения.

Избыточность дисковых подсистем достигается путем зеркалирования и дублирования как самих дисковых устройств так и их соединений с серверами. При этом используется сочетание программных и аппаратных средств организации данных на устройствах хранения, в том числе аппаратных RAID массивов FiberCAT или Symmerix в комбинации с пакетами SynfinityDisk и Multipath Disk Control. Пакет Synfinity Disk делает возможным зеркалирование как данных, так и томов. Если во время загрузки ОС происходит ошибка чтения с диска, операционная система может быть автоматически перезагружена с другого диска, что существенно уменьшает общее время простоя. ПО Multipath Disk Control позволяет организовывать резервные пути ввода/вывода автоматически переключая потоки данных с неисправных каналов на функционирующие.

Деградационные функции процесса начальной загрузки

При возникновении нарушений в работе, серверы PRIMEPOWER 800/1000/2000 определяют и изолируют ошибки, после чего реконфигурируют себя таким образом, чтобы исключить дефектное оборудование из использования. Функции серверов, обеспечивающие такой режим работы, называются деградационными. После включения питания, перед загрузкой ОС выполняется начальная диагностика, во время которой определяется корректность работы системных плит и коммутационных соединений. После завершения этого тестирования происходит старт процессоров SPARC64 GP и выполняется проверка оперативной памяти и подсистемы ввода/вывода. При обнаружении ошибок в проверяемых устройствах на этих этапах происходит их исключение из конфигурации. При проведении процедуры изоляции, система контроля использует алгоритм, минимизирующий число изолируемых компонентов. Информация об ошибках, выявленных в процессе начальной диагностики, предоставляется системному администратору и обслуживающему персоналу через системную консоль.

Системные домены

Уникальной особенностью корпоративных серверов PRIMEPOWER является возможность организации системных доменов [2] — независимых виртуальных серверов консолидированных в рамках одного физического сервера. Каждая машина серии PRIMEPOWER 800-2000 может быть разбита на такие домены, содержащие одну или несколько системных плит. Общее количество доменов может достигать 15 (рис. 3).

Рис. 3. Схема разбиения сервера на системные домены

В каждом домене может быть запущена своя независимая ОС и действия, производимые в одном домене, никак не влияют на операции в другом. Каждый домен в серверах PRIMEPOWER 800/1000/2000 соответствует отдельной вычислительной системе и может функционировать как полностью независимый сервер. Системная консоль предоставляет единый доступ к администрированию всех доменов. Средства управления предоставляют системному администратору следующие возможности по работе с системными доменами:

  • загрузка и останов операционной системы в домене;
  • отображение, слежение и определение ошибок аппаратных конфигураций и системных состояний;
  • отображение состояния загрузки, слежение и определение ошибок устройств ввода/вывода и системных ресурсов;
  • инсталляцию различного ПО, в том числе и операционной системы;
  • унифицированный набор средств анализа для системных настроек отдельных доменов.

Если для определенной бизнес-системы требуется наличие нескольких независимых машин, то это можно сделать с помощью механизма системных доменов на одном физическом сервере PRIMEPOWER 800-2000. Для приложений, требующих двух отдельных серверов для разработки и промышленной эксплуатации, можно использовать один системный домен в качестве системы для разработки, а второй — в качестве основной продуктивной машины. Управление и обслуживание такого комплекса проще, чем несколькими независимыми серверами, поскольку все действия производятся с одной системной консоли.

Важной особенностью реализации системных доменов PRIMEPOWER является возможность их динамического изменения. В статическом домене системные плиты (содержащие процессоры, оперативную память и шины PCI), образующие домен, задаются до запуска операционной системы, и их конфигурация не может быть изменена во время работы.

Рис. 4. Динамическое увеличение параметров домена

При использовании динамических доменов (рис. 4), системные плиты и различные системные ресурсы могут добавляться или удалятся из соответствующих доменов непосредственно во время работы. Ядро и драйверы устройств распознают появление новых ресурсов и выполняют переход к состоянию, в котором они могут быть использованы операционной системой данного домена. Во время динамического удаления системной плиты, операции, совершавшиеся при добавлении плиты, выполняются в обратном порядке, удаляя различные ресурсы из системной конфигурации. В этом случае ресурсы удаляемой системной плиты становятся недоступными для приложений, работающих в данном системном домене, а процессорная производительность и оперативная память уменьшаются. Ресурсы ввода/вывода также сокращаются, уменьшая производительность для устройств, подключенных через PCI контроллеры (рис. 5).

Рис. 5. Динамическое уменьшение параметров домена

В этой ситуации работа приложения или драйвера устройства может быть нарушена, вследствие попытки работы с физически удаленным устройством. Для исключения таких нарушений применяется специальный дизайн многонаправленных соединений (IOMP) с устройствами ввода/вывода и соответствующими приложениями.

Функции динамических системных доменов позволяют серверам PRIMEPOWER 800/1000/2000 увеличивать, например, производительность работающей системы без прекращения работы текущих задач. Дополнительные процессоры и оперативная память становятся доступны для работающего приложения сразу после динамического добавления системной плиты в виртуальный домен (рис. 6).

Рис. 6. Перераспределение ресурсов между доменами

Другим примером использования динамических доменов является горячая замена системных компонентов. В то время как для обычных серверов горячая замена возможна в основном только для дисков в RAID конфигурациях, серверы PRIMEPOWER 800-2000 обеспечивают горячую замену неисправных процессоров и модулей оперативной памяти. В сочетании с начальной диагностикой, деградационными функциями и функциями RAS, это существенно уменьшает время простоя в случае возникновения неисправностей. В качестве примера рассмотрим следующую процедуру отслеживания неисправности процессора:

  1. Процессор №8 выходит из строя.
  2. Система останавливается. Происходит перезагрузка в деградационном режиме, средства начальной диагностики изолируют неисправный процессор №8. Работа возобновляется.
  3. Прибывает системный инженер и заменяет процессор №8, предварительно извлекая с помощью функций управления доменами системную плиту №2. В это время приложение продолжает работу, используя системные плиты №1 и №2.
  4. Системная плита №2 устанавливается на свое место и снова включается в домен, после чего процесс восстановления можно считать завершенным.

Устройства хранения данных

Семейство серверов PRIMEPOWER поддерживает широкий спектр устройств хранения для всех типов приложений, используемых в корпоративных вычислениях: SAN, дисковые массивы FiberCAT и Symmetrix, а также устройства долговременного хранения данных на лентах и оптических дисках.

Дисковая подсистема FС600 предназначена для организации отказоустойчивых дисковых конфигураций большой емкости (до 1720 Гбайт) и имеет высокопроизводительный интерфейс FC-AL. Подключение к серверам осуществляется через FC-AL переключатель, который может быть продублирован. В подсистеме используются двухпортовые диски емкостью по 18 и 36 Гбайт и скоростью вращения 10000 об/мин. Системы FC600 не имеют встроенных аппаратных RAID контроллеров и ориентированы на использование в приложениях типа хранилищ данных и систем поддержки принятия решений с «длинными» транзакциями.

Для масштабных OLTP-систем на базе серверов PRIMEPOWERпредлагается использовать дисковые подсистемы FiberCAT. Для таких приложений характерно большое количество коротких транзакций, хорошо помещающихся в кэш-память аппаратного RAID дискового массива. Две модели этого семейства FC4500 и FC5300 предназначены для организации отказоустойчивых дисковых конфигураций большой емкости (до 4000 и 1000 Гбайт соответственно) и имеют высокопроизводительные RAID контроллеры с кэш-памятью до 512 Мбайт. Все компоненты массивов полностью дублируются. Внешним и внутренним интерфейсом этих устройств является FC-AL. Подключение к серверам осуществляется через 2(4) соединения FC-AL и коммутаторы FC-AL, что позволяет максимально использовать преимущества архитектуры SAN. В подсистеме используются двухпортовые диски FC-AL емкостью по 9, 18 и 36 Гбайт и скоростью вращения 10000 об/мин. Общее количество поддерживаемых дисков достигает 30 для FiberCAT5300 и 110 для FiberCAT 4500.

Системы дисковой памяти Symmetrix от EMC предназначены для организации хранилищ данных очень большого объема и корпоративных вычислительных центров. Емкость устройств Symmetrix достигает 19 Тбайт (модели Symmetrix 8000). Внутренняя архитектура этих дисковых массивов обеспечивает высокую пропускную способность — до 1,44 Гбайт/с и поддерживает кэш-память сверхбольшого объема — до 32 Гбайт. Дисковые массивы поддерживают большое количество каналов ввода/вывода, поддерживающих различные интерфейсы — FC-AL, SCSI, ESCON.

Для серверов PRIMEPOWER предлагается широкий набор устройств хранения от ADIC, HP, STK и ATL. Различные модели устройств поддерживают от 1 до 32 одновременно работающих лентопротяжных механизмов стандарта DLT7000 (8000) и обеспечивают обслуживание до 652 ленточных картриджей. Емкость картриджа 35/70 Гбайт (с компрессией). Максимальная емкость хранения в таких устройствах достигает 2 Пбайт.

Для корпоративных серверов PRIMEPOWER существует большое количество систем хранения на магнитооптических дисках PXM2-OS5x. Оптические архивные системы PXM2 предусматривают возможность установки от 1 до 10 многофункциональных накопителей для перезаписываемых оптических дисков ROD (Rewritable Optical Disks) и дисков с однократной записью WORM (Write Once Read Many) и могут обслуживать от 16 до 238 дисков. Общая емкость хранения при этом варьируется в пределах от 83,2 до 1,2 Пбайт на одно устройство.

Управление дисковыми системами и средствами архивации может осуществляться всеми широко известными пакетами: Veritas Netbackup, Legato Networker и др. Они имеют сходную функциональность, которую можно проиллюстрировать на примере пакета Synfinity.

SynfinityDisk позволяет организовывать программный RAID дисковых томов. Для обеспечения высокого уровня готовности очень важно, чтобы операционная система и приложения могли быстро рестартовать после сбоя. Поддержка и проверка файловой системы на целостность после системного краха осуществляется журнальной файловой системой SynfinityFile. Кроме того, SynfinityFile распределяет нагрузку ввода/вывода по различным разделам файловой системы, позволяя таким образом расширять ее и поддерживать большие файловые системы, расположенные на многих физических томах. SynfinityDisk обеспечивает операции зеркалирования между дисковыми устройствами для конфигураций с одним консолидированным сервером, операции горячей замены, и операции зеркалирования для общих разделяемых устройств в среде SynfinityCluster.

SynfinityFile — файловая система, имеющая полностью совместимый с UFS прикладной программный интерфейс и поддерживающая функции журналирования (журнал мета-данных), мультитомных файловых систем и разделяемого (многохостового) доступа.

Размер такой файловой системы может быть легко увеличен без предварительного сохранения данных, что существенно уменьшает стоимость эксплуатации и время простоя ОС и приложений. Каждый из трех элементов файловой системы (мета-данные, собственно данные, журнал) могут быть распределены по различным дискам, улучшая, таким образом, производительность ввода/вывода. Разделяемый доступ (кластерные файловые системы) — одновременный доступ к файловой системе со стороны разных серверов через стандартный API. Различные виртуальные домены серверов PRIMEPOWER 800, 1000 и 2000 также могут иметь разделяемый доступ к общим файловым системам.

Сетевая подсистема и кластеры

В кластерных системах Fujitsu Siemens Computers, использующих программные компоненты RMS, SynfinityCluster, SynfinityDisk и SynfinityFile, может быть достигнута готовность 99,999%.

Серверы PRIMEPOWER 800/1000/ 2000 позволяют строить не только кластерные конфигурации между отдельными серверами, но и организовывать кластер между отдельными виртуальными доменами в рамках одного сервера.

Доменная кластерная конфигурация позволяет объединить в кластер несколько виртуальных серверов в пределах одной физической машины, что существенно сокращает общую стоимость владения и экономит место. Для таких кластерных конфигураций серверы PRIMEPOWER 800, 1000 и 2000 поддерживают горячее резервирование, позволяющее быстро переключать приложения с одной машины на другую. При помощи масштабируемых кластерных конфигураций можно получать как более высокую производительность, так и дополнительную готовность приложений. Кластерные домены получают доступ ко всем общим дисковым устройствам и могут, таким образом, производить параллельную обработку данных. Динамические домены, реализованные в этих моделях, позволяют осуществлять модернизацию и улучшение работы системы без прерывания производственного процесса путем добавления прямо в процессе функционирования системных плит и других компонентов. Высокая готовность обеспечивается с помощью системы SynfinityCluster и пакета Synfinity-VIA, который предоставляет стандартный интерфейс к высокопроизводительным межузловым соединениям, требуемым для эффективного использования параллельных баз данных и сетевых решений.

Базовое ПО и его структура

Базовое программное обеспечение серверов PRIMEPOWER 800, 1000 и 2000 состоит из 64-разрядной ОС Solaris 8 Server Edition и пакета Enhanced Support Utility, позволяющего управлять данным семейством серверов. Логически Solaris 8 поддерживает 64-разрядное виртуальное адресное пространство, однако, физическое адресное пространство процессоров UltraSPARC-I и II (архитектура sun4u) ограничено только 41 разрядом, вследствие чего при использовании высших адресов возникает адресная дыра. Процессор SPARC64 GP является единственным на сегодняшний день полностью совместимым со спецификациями SPARC V9 и поддерживающим 64-разрядную адресацию, что позволяет использовать все возможное адресное пространство ОС Solaris 8.

Процессоры UltraSPARC-I и II имеют специальный регистр для индикации используемого процессорного разъема (slot ID). Поскольку данный регистр имеет размер только 5 разрядов, через него, возможно, напрямую адресовать лишь 32 процессора. Процессор SPARC64 GP имеет четыре привилегированных регистра, называемых «Рабочие программные регистры (Software Scratch Register), каждый по 64 разряда. Встроенные микропрограммы ПО начальной загрузки — OBP (Open Boot Program) серверов PRIMEPOWER устанавливают идентификаторы процессорных разъемов в эти специальные регистры, после чего загружают ядро Solaris 8, которое распознает свои собственные процессорные идентификаторы путем доступа к этим регистрам.

PRIMEPOWER 800, 1000 и 2000 используют чипсет U2P в качестве моста в шину PCI. Набор U2P был разработан Sun Microsystems и играет ключевую роль в обеспечении высокой степени совместимости существующих карт PCI и драйверов для их обслуживания. Модели PRIMEPOWER 800, 1000 и 2000 используют набор U2U для поддержки доступа при количестве процессоров больше 32. Чипсет U2U, организующий соединение между U2P и контроллером памяти ASIC, управляет маршрутизацией пакетов прерываний. Это единственный новый набор микросхем, для которого произведена соответствующая модификация ОС Solaris. Само устройство и набор микросхем U2P управляются драйвером pci nexus. Сервер PRIMEPOWER 2000 содержит максимум 48 наборов микросхем U2U, однако, потенциально, ОС Solaris 8 для него позволяет обслуживать до 128 микросхем. Каждый U2P поддерживает две шины PCI, каждая из которых, в свою очередь, обслуживает один разъем PCI. Как следствие, PRIMEPOWER2000 может обслуживать максимум 96 PCI разъемов. Ядро ОС Solaris для сервера PRIMEPOWER 2000 поддерживает до 128 Гбайт оперативной памяти. В перспективе 64-разрядное ядро Solaris 8 будет поддерживать до 512 Гбайт.

Система Enhanced Support Facility предоставляет средства управления серверами PRIMEPOWER 800, 1000 и 2000, включая компоненты Machine Administration APCS (Auto Power Control System) и программу SCF (System Control Facility). Пакет Machine Administration Software обеспечивает конфигурирование аппаратных средств, системный мониторинг и сбор контрольной информации. Это ПО собирает и обрабатывает определенные системные сообщения, а также получает информацию о состоянии аппаратных средств при помощи драйверной программы SCF. Пакет APCS (Auto Power Control System) является утилитой, автоматически управляющей плановыми включениями и выключениями серверов PRIMEPOWER, задаваемыми системным администратором. Операции включения/выключения осуществляются при этом через SCF.

Консоль управления системой

Рабочая станция, используемая в качестве консоли, устанавливается отдельно от серверов PRIMEPOWER 2000, 1000 и 800 и предназначена для реализации следующих функций:

  • мониторинг состояния серверов;
  • распечатка конфигурации и установок параметров доменов;
  • предупреждение администратора о различных проблемах, связанных с аппаратурой;
  • работа в качестве консоли управления для отдельных доменов;
  • задание параметров планирования автоматического включения/выключения;
  • реализация сервера NTP (Network Time Protocol);
  • обеспечение управления операциями по обслуживанию аппаратуры.

Системный администратор может управлять серверами PRIMEPOWER 2000, 1000 и 800 при помощи системной консоли, отслеживая при этом состояние конфигурации и неисправности компонентов. При возникновении сигнала о сбое в работе, системная консоль определяет источник ошибки, выдает на экран и печать соответствующее сообщение и отправляет e-mail системному администратору. На системную консоль выводятся экраны консолей виртуальных доменов, что позволяет использовать эффективные средства слежения и облегчает работу системного администратора, которому доступны все сообщения о работе доменов, включая загрузочные и сообщения о крахе. Системный администратор может вводить любые команды, в том числе и команды перезагрузки и сброса для конкретных доменов, может задаваться графики плановых автоматических включений/выключений комплекса и параметры сервера NTP.

Несмотря на то что системная консоль является важной составной частью серверов PRIMEPOWER машины данного семейства могут продолжать работу даже в случае ее выхода из строя. Информация о плановых включениях/выключениях хранится непосредственно в системном кабинете, поэтому все соответствующие подсистемы будут функционировать корректно. На панель оператора будет осуществляться вывод информации о статусе машины и сообщения, позволяющие определить источник неисправности. Файлы системных сообщений и файлы syslog могут быть доступны по сети через стандартный вход.

Литература

[1] Виктор Шнитман. Архитектура Unix-систем GP7000. «Открытые системы», 2000, №5-6 сс. 15-22. http://www.osp.ru/os/2000/05-06/015.htm.

[2] Наталья Пирогова. И один в поле воин. «Открытые системы», 2000, №10 сс.27-32. http://www.osp.ru/os/2000/10/027.htm

Виталий Кузьмичев (vital@lynx.ru) — технический директор компании «Линкс ВСС» (г. Санкт-Петербург)


Таблица 2. Оценка роста производительности OLTP

Оценка роста производительности OLTP, кратная производительности восьмипроцессорного PRIMEPOWER 2000 для системы, построенной на SPARC64 GP 300 Mгц
Конфигурация8 проце-

ссоров
16 проце-

ссоров
32 проце-

ссора
64 проце-

ссора
OLTP Performance1,01,83,25,0

назад

Таблица 3. Распределение и характеристики шин PCI
№ разъемаспецификация№ шины PCIПримечания
64 бит, 33/66 МГц 3,3 V/UniversalA480 Мбайт/с (пик)
0B64 бит, 33 МГц 5 V/UniversalB240 Мбайт/с (пик)
64 бит, 33/66 МГц 3,3 V/UniversalC480 Мбайт/с (пик)
1B64 бит, 33 МГц 5 V/UniversalD240 Мбайт/с (пик)
64 бит, 33/66 МГц 3,3 V/UniversalE480 Мбайт/с (пик)
3B64 бит, 33 МГц 5 V/UniversalF240 Мбайт/с (пик) LAN/RS-232C port

назад