Новые серверы AViiON 20000 от Data General
Американская фирма Data General (DG) в последнее время заметно укрепила свои рыночные позиции благодаря новым продуктам, в том числе известным дисковым массивам CLARiiON (недавно они начали поставляться с интерфейсом Fibre Channel) и серверам семейства AViiON. В начале лета DG объявила о выпуске новых серверов AV20000, в которых применяется архитектура cc-NUMA и технология NUMALiiNE. Похоже, DG уже пора зарегистрировать "знак" ii как свою торговую марку.
Наши читатели имели возможность познакомиться с предыдущими моделями серверов AViiON на платформе Intel (CWR, #24, 1996). Уже тогда DG нацелилась на применение архитектуры cc-NUMA, которая пока что является последним писком моды в области архитектур многопроцессорных серверов высшего класса (high-end). Такие компьютеры выпускают, в частности, HP/Convex (семейство Exemplar), SGI/ Cray (Origin 2000). Sequent, с которой DG сотрудничает, также недавно начала поставки серверов этой архитектуры на базе Intel Pentium Pro. DEC планирует выпустить новое семейство серверов Wildfire - и также с использованием cc-NUMA. DG уже имеет опыт разработки компьютеров с такой архитектурой. Это - AViiON 10 000 на базе микропроцессоров Motorola 88010. Лидерами в семействе AViiON стали AV20000 - cc-NUMA-серверы на базе микропроцессоров Intel Pentium Pro (200 МГц). Прежде чем рассказать читателям об архитектуре и технических характеристиках AV20000, напомним, почему ведущие фирмы-производители многопроцессорных компьютеров вдруг стали отходить от старой доброй архитектуры симметричных мультипроцессорных систем - SMP.
Причины, естественно, кроются в недостатках SMP, про которые всем давно известно. Это ограничения пропускной способности (ПС) системной шины, приводящие к возникновению "узкого места" на тракте процессор (ЦП) - оперативная память (ОП) при увеличении числа ЦП. Наряду с ограничением числа слотов системной шины это приводит к ограничению возможностей масштабирования вычислительной системы. Применение коммутаторов вместо системной шины (как, например, в гиперузлах HP/Convex Exemplar) не влияет на общую оценку. Кроме того, реализация системной шины (или коммутатора), обычно в виде задней платы (backplane), обходится весьма дорого.
Преимущество альтернативного подхода - кластерных и массивно-параллельных систем с распределенной ОП (МРР) - прекрасные характеристики масштабируемости, но при этом теряется парадигма общего поля памяти, за что приходится платить трудностями при программировании.
Поскольку программистов надо беречь, компьютерные фирмы попытались скрестить ежа с ужом - SMP и MPP. Тогда на свет и появилась cc-NUMA (cache-coherent Non Uniform Memory Access). От SMP ccNUMA унаследовала аппаратную поддержку общего поля памяти и когерентность кэш-памяти всех микропроцессоров системы (парадигма GCM - Global Coherent Memory), а от МРР - ОП, физически распределенную между узлами.
Дешево и сердито
К построению cc-NUMA-систем на базе Pentium Pro фирмы-производители подтолкнула и сама Intel, производящая 4-процессорные платы SHV, которые представляют собой готовые SMP-блоки (узлы) для cc-NUMA. В AV20000 как раз и использованы SHV, точнее SHV II. Эти платы содержат 4 процессора Pentium Pro со вторичной кэш-памятью емкостью 512 Кбайт у каждого, контроллер ОП Orion (OMC), 2 PCI-моста Orion (OPB) и "шинный соединитель" (bus connector). Последний позволяет строить системы либо с архитектурой cc-NUMA, либо кластеры, в которых общего поля ОП для всех ЦП не создается.
Шинный соединитель дает возможность подсоединять к шине Pentium Pro некий "внешний агент", который и определяет архитектурное построение системы.
Плата SHV II комплектуется ОП емкостью от 512 Мбайт до 4 Гбайт, защищенной кодами ECC. В ОП применяется стандартная технология DRAM в режимах fast-page или EDO со временем цикла 60 нс. На плате имеется 32 слота для модулей DIMM. Для поддержания 4-кратного расслоения ОП она наращивается порциями по 512 Мбайт (4 модуля DIMM по 128 Мбайт). Наиболее современные подсистемы ОП используют технологию SDRAM. Эта ОП быстрее, чем EDO, хотя и несколько дороже. Можно предположить, что в дальнейшем будут поставляться и SHV-платы c SDRAM ОП.
64-разрядная системная шина Pentium Pro работает, как известно, на частоте 66 МГц и имеет пиковую ПС 533 Мбайт/с. На шине поддерживается протокол с расщеплением транзакций. Адресная шина отделена от шины данных и поддерживает 36-разрядное поле адресов физической памяти (64 Гбайт); по мнению DG, этого достаточно на ближайшие 3 года. Шина данных защищена кодами ЕСС. Для адресов и управляющих сигналов используется контроль по четности.
Микропроцессоры OPB поддерживают интерфейс системной шины и 32-разрядных шин PCI c пиковой ПС 133 Мбайт/с каждая. SHV II поддерживают по 12 слотов PCI. Приведенное описание SHV показывает, что эти платы представляют собой практически готовую SMP-систему, стоимость которой достаточно низка вследствие относительно массового выпуска этих плат. Это и есть одна из основных причин низкой (конечно, для уровня систем высшего класса) стоимости AV20000.
Другой основной причиной понижения стоимости AV20000 стало применение SCI-межсоединения (адаптера) SHV-узлов. SCI-адаптер и является тем самым внешним агентом, который одним концом соединяется с системной шиной Pentium Pro, а с другой стороны, обеспечивает соединение узлов и поддержание GCM.
Таким образом, вся ОП системы AV20000 по отношению к узлу SHV бывает двух "сортов": локальная, расположенная на этой плате SHV, и удаленная, расположенная на других платах SHV. Если запрошенные ЦП данные не находятся в локальной ОП (на плате SHV, где расположен этот ЦП), то запрос передается через адаптер SCI на другой SHV-узел. Естественно, обращение к локальной ОП происходит быстрее. При обращении к удаленной ОП возникает дополнительная задержка. Это плата за поддержание парадигмы GCM. C другой стороны, cc-NUMA-архитектура AV20000 обеспечивает хорошую масштабируемость системы ввода/вывода, емкости ОП и др. При сохранении характерной для SMP-систем парадигмы GCM удается достичь переносимости программного обеспечения, разработанного для SMP-компьютеров, в архитектуру cc-NUMA. Аппаратная поддержка GCM скрывает сложности аппаратуры от программного обеспечения, которое "не знает", что ОП физически распределена между SMP-узлами, и может полагать, что работает на обычном SMP-компьютере. Тем самым сохраняются инвестиции, вложенные в разработку SMP-приложений.
Вообще говоря, SCI (Scalable Coherent Interface) - это стандарт ANSI/IEEE.
Шина SCI обеспечивает поддержание когерентности, в нашем случае - между узлами SHV (между ЦП на плате SHV когерентность кэша обеспечивает системная шина Pentium Pro). Устройство интерфейса с процессором PIU включает 2 блока, PIU-A и PIU-D, отвечающих за обработку адресов и данных, каждый из которых реализован в виде полузаказной микросхемы. PIU взаимодействует с системной шиной SHV. Другая полузаказная микросхема, SCI-контроллер когерентности, использует для обеспечения когерентности специальную DRAM-память - так называемую директорию SCI. Некоторые методы поддержания когерентности кэша, основанные на директориях, рассмотрены в моей статье в журнале "Открытые системы" #2 за 1997 г.
Важнейшим блоком SCI-адаптера в AV20000 является так называемый кэш удаленной памяти. В нем сохраняются данные, полученные при передаче из удаленной ОП других SHV-узлов. Таким образом, запросы к ОП будут передаваться через SCI-межсоединение только в том случае, если данные не найдены в процессорной кэш-памяти L1, L2, локальной ОП и кэше удаленной памяти. Задержка при обращении в последнюю примерно равна задержке при обращении в локальную ОП. Емкость кэша удаленной памяти составляет от 16 до 128 Мбайт. Кэш защищен кодами ЕСС, и в нем используется 4-кратное расслоение.
Контроллеры SCI-каналов преобразуют запросы SCI-контроллера когерентности в протокол SCI-каналов и обратно. SCI-каналы имеют пиковую ПС 500 Мбайт/с каждый и организованы в виде двух колец. Это обеспечивает соединения типа "точка-точка" с ПС 1 Гбайт/с. Моделирование показало, что типичные задержки при обращении к локальной ОП в системе из 4 SHV-плат составляют около 11 тактов (165 нс), к удаленной ОП - 160 тактов (2,4 мкс) на ненагруженной системе и 20 тактов (300 нс) - 340 тактов (5,1 мкс) - соответственно для локальной и удаленной ОП на ненагруженной системе. Для сравнения, в серверах NUMA-Q от Sequent задержка при обращении в удаленную ОП в системе из трех 4-процессорных плат составляет 3,3 мкс.
Технические характеристики AV20000
Собственно, основные характеристики AV20000 уже представлены выше. Эти серверы могут поставляться в конфигурациях, имеющих от 4 до 32 ЦП Pentium Pro, хотя в будущем их число способно еще возрасти. AV20000 имеют ОП емкостью до 32 Гбайт и до 96 слотов PCI c суммарной ПС до 2,1 Гбайт/с. Напомним, что адресное пространство, поддерживаемое Pentium Pro, - 4 Гбайт.
Основным строительным блоком стоек AV20000 является SBB (Scalable Building Block), основу которого составляет плата SHV. SBB содержит также SCI-адаптер, так называемую 3D-плату для контроля и диагностики и избыточные устройства охлаждения и электропитания с возможностью горячей замены. До 2 блоков SBB помещается в одну раму. Стойка AV20000 содержит до 2 рам, а всего в AV20000 может быть 2 стойки (т. е. 8 блоков SBB и соответственно 8 SHV-плат). Суммарная емкость дискового пространства AV20000 составляет 104 Тбайт.
AV20000 поставляется с фирменной версией Unix - DG-UX. Хотя другие серверы AViiON могут работать и с Windows NT, столь большие системы этой ОС пока не подвластны.
Целью DG было построение мощных многопроцессорных наращиваемых серверов самой современной архитектуры при относительно низкой стоимости. Цена стартовой 4-процессорной конфигурации AV20000 в нашей стране составляет порядка 80 тыс. долл. Учитывая уже имеющийся опыт инсталляции в нашей стране многопроцессорных систем от DG (например, в таможенной службе Шереметьево-Карго, в Департаменте муниципального жилья и др.), на AV20000 следует обратить пристальное внимание тем, кому нужны мощные Unix-серверы "с перспективой на будущее", т. к. AV20000 позволяет легко наращивать конфигурацию по мере роста вашего бизнеса.