Архитектура ЦП
Подсистема памяти
Ввод-вывод
Многоузловые системы
Конфигурации и производительность

На фоне общего кризиса отечественной науки и промышленности, вызванного отсутствием минимально необходимого бюджетного финансирования, в некоторых областях наблюдается несомненный прогресс, например в области телекоммуникации. В настоящее время наблюдается некоторое оживление и в сфере суперкомпьютерных вычислений. Поэтому в нашей рубрике мы уделяем особое внимание современным суперкомпьютерным технологиям.

Как известно, в последние годы борьба между США и Японией на рынке суперкомпьютеров еще более обострилась. Nippon Electric (NEC) со своим последним суперкомпьютером SX-4 оказалась одной из самых удачливых компаний. Недавно она сумела обойти Cray Research и добиться контракта на поставку SX-4 в США. Хотя вскоре этот контракт, после вмешательства американского Министерства торговли, был приостановлен вследствие обвинения NEC в демпинге, но все же налицо активные действия NEC уже и на рынке США. Оставляя в стороне экономические и политические аргументы конкурентов, остановимся на технической стороне дела и рассмотрим архитектуру SX-4, возможно, главного конкурента Cray T90 на рынке векторно-конвейерных суперкомпьютеров.

Интерес к SX-4 подогревается еще и тем, что это одна из самых "неизвестных" среди суперкомпьютерных систем в том смысле, что данные об ее архитектуре весьма скудны. Дело дошло до того, что на телеконференции по суперкомпьютерам довольно долго обсуждался вопрос о том, является ли блок скалярной обработки SX-4 архитектурной копией известного микропроцессора SGI/Mips R10000!

Архитектура ЦП

Общая схема центрального процессора (ЦП) видна из рис.1. Каждый ЦП включает векторное устройство и скалярное устройство.

Векторное устройство состоит из векторных регистров и конвейеров для выполнения операций над векторами (логических, операций умножения, сдвига и сложения, деления, маскирования), а также устройства загрузки регистров/записи в оперативную память (ОП). Длина векторного регистра составляет 32 элемента. На самом деле, кроме 8 так называемых операционных (т.е. тех, над которыми выполняются команды) векторных регистров, изображенных на рис.1, имеются еще 64 векторных регистра данных, которые служат своеобразной векторной кэш-памятью. Они являются важнейшим архитектурным элементом ЦП SX-4, поскольку пропускная способность тракта векторные регистры - память во многом определяет производительность всего компьютера.

Фактическое строение векторного устройства гораздо сложнее, чем можно представить по рис. 1. Векторное устройство содержит 8 СБИС-процессоров, соединенных через коммутатор. Эти процессоры образуют массив из 32 векторных конвейеров, объединяемых в четыре группы по 8 конвейеров каждая. Конвейеры одной группы могут выполнять только определенный тип операций - соответственно сложение/сдвиг, умножение, деление и логические операции. Объединение в группу 8 однотипных конвейеров позволяет выполнять аппаратно операции над векторами длиной до 256 элементов. Все группы конвейеров могут работать параллельно. При одновременном выполнении умножения и сложения достигается пиковая производительность процессора 2 GFLOPS (при тактовой частоте 125 МГц). Это чуть больше, чем у Cray T90 (1,8 GFLOPS/процессор). Кроме того, при одновременном выполнении с этими двумя операциями еще и деления, пиковая производительность может превысить 2 GFLOPS.

Скалярное устройство в ЦП SX-4 действительно имеет много общего с архитектурой микропроцессора Mips R10000. Однако и отличий между ними достаточно для того, чтобы утверждать, что это все-таки разные процессоры. ЦП SX-4 имеет RISC-подобную архитектуру, включающую 223 команды, из них 116 векторных. Как и R10000, SX-4 имеет суперскалярную архитектуру и может выполнять одновременно 2 команды за такт (а R10000 - 4 команды). ЦП SX-4 поддерживает набор команд серии SX (ранее NEC выпустила SX-2 и SX-3), в том числе векторные команды, а R10000 выполняет команды архитектуры Mips IV. Оба процессора позволяют проводить внеочередное (out-of-order) выполнение команд, причем в SX-4 это касается и векторных команд. И тот и другой выполняют предсказание переходов. Блок-схемы обоих процессоров очень похожи.

Числа с плавающей запятой в NEC SX-4 могут представляться в одном из трех форматов: IEEE 754 32- и 64-разрядные, а также

128-разрядные расширенной точности; 64- и 128-разрядные в формате Cray и аналогичной разрядности в формате IBM. Этих возможностей R10000 не имеет, там используется IEEE 754. Производительность SX-4 не зависит от формата; тип представления указывается при компиляции. Целые числа также бывают 32- и 64-разрядные.

Для поддержки синхронизации между различными процессорами в SX-4 применяется набор регистров синхронизации, аналогичный используемому еще в Cray X-MP.

Подсистема памяти

SX-4 имеет 3 группы моделей - так называемые серверные, компактные и одноузловые. Они имеют фактически симметричную многопроцессорную архитектуру с сильно связанными процессорами и общим полем оперативной памяти. Именно их архитектура изображена схематично на рис. 1, а так называемые многоузловые модели рассмотрены ниже.

Подсистема оперативной памяти в этих компьютерах подсоединяется к процессорам посредством неблокирующегося коммутатора. Этот подход является более перспективным, чем традиционная системная шина. В наиболее "продвинутых" из современных архитектур SMP-компьютеров - SGI Origin 2000, серверах S- и X-серий от HP (бывшие Convex SPP) - в SMP-узлах используются именно коммутаторы, а не системная шина.

Каждый процессор SX-4 имеет порт к коммутатору с пропускной способностью 16 Гбайт/с. 32-процессорный узел SX-4 имеет поддерживаемую пропускную способность ОП 512 Гбайт/с, что уступает Cray T932 (800 Гбайт/с). Вся оперативная память узла построена с применением быстродействующей технологии SSRAM и имеет до 1024 банков. Данные об емкости ОП приведены в таблице 1. Хотя SX-4 работает в режиме реальной памяти, в ней используется страничная адресация. Это позволяет загружать программу в несмежные участки памяти, избегая ее фрагментации.

Кроме обычной ОП SX-4 может включать более медленную и более дешевую расширенную память (РП), аналогичную SSD в Cray T90. РП может использоваться операционной системой SUPER-UX для целей кэширования дисков, свопинга и т.д. Характеристики емкости и производительности РП даны в таблице 1.

Параметр
NEC SX-4/C
Cray T94
NEC SX-4
Cray T932
Число процессоров
1-4
1-4
4-32
16-32
ОП, Гбайт
2
0,5-1
2-8
4-8
Пропускная способность ОП, Гбайт/с
8-64
100
64-512
800
Производительность ввода-вывода, Гбайт/с
1.6
8
3.2-6.4
35

Таблица 1. Сравнение конфигураций Cray T90 и NEC SX-4 (до 32 ЦП).

Ввод-вывод

Основу подсистемы ввода-вывода составляют работающие независимо от ЦП процессоры ввода-вывода (ПВВ), имеющие производительность 1,6 Гбайт/с каждый. К одноузельным моделям можно подсоединить до 4 ПВВ. По этой характеристике одноузельные SX-4 уступают Cray T932, которая имеет подсистему ввода-вывода с пропускной способностью до 35 Гбайт/с.

Основные высокопроизводительные каналы, обслуживаемые ПВВ - это HiPPI, а также более дешевые F&W SCSI-2. К ПВВ можно подключить дисковые RAID-массивы емкостью до 128 Гбайт каждый и мультиплексор ввода-вывода (МВВ), который выступает в качестве концентратора более медленных каналов, подсоединяемых через него к HiPPI. К SCSI-шинам можно подключать разнообразные внешние устройства, в том числе НМЛ (4 мм, 8 мм, 0,25 дюймов, IBM 3480/3590), оптические диски и сетевые контроллеры, например FDDI и ATM (622 Мбит/с).

Многоузловые системы

Возможности наращивания конфигурации SX-4 не ограничиваются одноузловыми SMP-моделями. Существует еще и группа многоузловых моделей, в которых одноузловые SMP-системы связаны посредством неблокирующегося коммутатора IXS. IXS связывает узлы SX-4 посредством пар волоконнооптических каналов с пропускной способностью 8 Гбайт/с. Каждый узел имеет 1 входной и 1 выходной канал, которые работают независимо друг от друга. Половинная пропускная способность полностью сконфигурированной 16-узловой SX-4 (т.е. скорость, с которой одна половина системы может обмениваться информацией с другой половиной системы) составляет 128 Гбайт/с. Время межузловой задержки равно 3 мкс для 30-метрового кабеля. Кроме того, возможно построение IXS с использованием более дешевой технологии HiPPI.

Возможности образования многоузловой модели SX-4 позволяют получить систему, содержащую 512 процессоров, 128 Гбайт ОП с пропускной способностью до 192 Гбайт/с. А возможности наращивания Cray T932 завершаются на 32 процессорах: построение более крупных систем предлагается там с использованием MPP-компьютеров Cray T3E. NEC SX-4 являет собой уникальный пример системы, использующей векторно-конвейерные процессоры (к тому же мировых лидеров производительности) и одновременно относящейся к классу массивно-параллельных систем.

Конфигурации и производительность

NEC SX-4 стал первым векторно-конвейерным суперкомпьютером, процессоры которого построены по КМОП-технологии. Поэтому для всех моделей SX-4 достаточно воздушного охлаждения, в то время как в Cray Т90 при числе процессоров свыше четырех требуется жидкостное охлаждение. Пониженные затраты SX-4 на электропитание, более низкая цена и, соответственно, соотношение стоимость/производительность - все это делает продукт привлекательным. Конфигурации (таблица 1) и ряд характеристик производительности (таблица 2) SX-4 и Cray T90 довольно близки.

Компьютер
Число ЦП
Данные тестов
Тесты STREAMS (Мбайт/с)
COPY
SCALE
SUM
TRIAD
Cray T90
1
11342
10718
14784
13920
NEC SX-4
1
14665
14639
14891
14873
Тесты NAS Parallel Benchmark (класс В), сек.
SP
BT
Cray T916
1
428
649
2
215
NEC SX-4
1
416
620
2
213
Тесты Linpack, MFLOPS
N=100
N=1000
Пиковая производительность
Cray T916
32
962
29390
57600
16
19980
28800
8
10880
14400
4
5735
7200
2
2998
3600
1
705
1603
1800
NEC SX-4
32
578
29170
64000
16
20490
32000
8
12220
16000
4
6447
8000
2
3570
4000
1
1944
2000

Таблица 2. Сравнение производительности NEC SX-4 и Cray T-90.

Cray T90 опережает SX-4 на более коротких векторах (Linpack, N=100) и немного отстает на длинных векторах (N=1000). Отметим, что младшие модели SX-4 (серверные SX-4B/e и компактные SX-4/Ce, SX-4/1C) имеют только четыре векторных конвейера и, соответственно, вдвое меньшую пиковую производительность ЦП. Вероятно, именно более дешевые компьютеры с пиковой производительностью до 4 GFLOPS из серий SX-4B и SX-4C могут представлять сегодня в России наибольший интерес.

На тестах NAS Parallel Benchmark (класс B, тесты SP и BT) 32-процессорная NEC SX-4 почти в 3 раза опередила Cray T916 по критерию стоимость/производительность (данные октября 1995 г.) Не исключено, что после слияния с SGI стратегическим направлением разработки компьютеров Cray Research будет ориентация на построение MPP-систем. Поэтому на линию векторно-конвейерных компьютеров NEC SX следует обратить особое внимание.


Михаил Кузьминский - зав. отделом Института органической химии РАН. С ним можно связаться по тел.: (095) 135 -6368.