Нынешний интерес к архитектуре сервера HP Superdome 2 на платформе Intel Itanium 2 вызван, в частности тем, что широкое распространение кластерных систем привело к тому, что масштабные SMP-серверы вообще появляются не часто. Однако кластерный подход к построению высокопроизводительной системы не всегда приемлем, хотя бы потому, что некоторым приложениям может потребоваться оперативная память слишком большой емкости. Кроме того, не все приложения умеют работать в параллельном окружении кластерных архитектур, поэтому большие системы с общим полем памяти (архитектуры SMP или ccNUMA) актуальны и сегодня — относительно недавно кроме HP Superdome 2 появилось несколько не кластерных систем: SGI Altix UV на базе микропроцессора Intel Xeon, IBM Power 795 на базе Power7, IBM zSeries/z10.
Если вкратце охарактеризовать Superdome 2, то нужно прежде всего обратить внимание на следующее: высочайшую надежность этих систем — среднее время между сбоями (MTBF) инфраструктуры cерверов превышает 300 лет; увеличение в 2-4 раза производительности на той же площади, что и в Superdome; улучшение на 55% отношения стоимость/производительность в расчете на 1 Вт [1].
Многопроцессорные серверы Superdome с архитектурой ccNUMA допускают установку до 64 процессоров, и в линейке выпускаемых компанией HP серверов они являются самыми мощными. Компьютеры Superdome ориентированы на выполнение как научно-технических, так и критичных для бизнеса приложений. Каковы перспективы данных систем?
Как следует из данных тестов SPECint_rate2006 и SPECfp_rate2006, Itanium 9300/Tukwilla отстает и от Power7, и от процессоров архитектуры x86, а декларированное Intel увеличение производительности вдвое обусловлено в первую очередь увеличением числа ядер. В Tukwilla были реализованы давно провозглашенные Intel идеи слияния компонентов инфраструктуры Xeon и Itanium. В частности, общими c Nehalem EX стали каналы межпроцессорной связи QPI (QuickPath Interconnect), интерфейсы работы с памятью — SMI(Scalable Memory Interconnect) и SMB (Scalable Memory Buffer), а также набор микросхем Intel (концентратор ввода-вывода, IOH). Все это позволило снизить стоимость систем на базе Itanium 2, но сегодня этот микропроцессор отстает по производительности от Xeon. Однако, как отмечают в Intel, Tukwilla ориентирован для работы с бизнес-критичными приложениями, что обеспечивается рядом его особенностей, гарантирующих высокий уровень отказоустойчивости, а также поддержкой мультитредовой обработки (HyperThreading) — (два треда на ядро) и технологии виртуализации Intel VT.
Кроме однотактного кэша L1 (по 16 Кбайт для данных и команд), в микроархитектуре Tukwilla представлены кэши L2 (256 Кбайт и 512 Кбайт) и кэш L3, емкость которого зависит от модели, например для 9350 — это 24 Мбайт (по 6 Мбайт на ядро). Емкость адресуемой оперативной памяти составляет 1024 Тбайт. В Tukwilla применяются два встроенных контроллера памяти, обеспечивающих пропускную способность 34 Гбайт/с, и такое решение доказало свою эффективность. Применение высокопроизводительного последовательного дифференциального интерфейса SMI в Tukwilla предполагает работу с технологией DDR3.
Тактовая частота старшей модели 9350 составляет 1,73 ГГц, которая благодаря технологии Turbo Boost, известной по Xeon, может быть увеличена до 1,86 ГГц. Tukwilla coдержит 2 млрд транзисторов (этот уровень достигнут впервые в мире) и производится по технологии 65 нм. TDP процессора составляет 185 Вт, обеспечиваются продвинутые средства термического управления процессором и памятью, а для уменьшения энергопотребления предусмотрены средства оптимизации напряжения и тактовой частоты.
В планах Intel выпуск двух последующих поколений Itanium 2: Poulson и Kittson. Первый будет производиться по технологии 32 нм, иметь большее число ядер и поддерживаемых тредов, а также более высокие частоты. Оба поколения микропроцессоров будут совместимы по разъемам с Tukwilla, что открывает возможности для будущей модернизации Superdome 2. Несомненно, что запланированный прогресс в технологии изготовления — относительно сегодняшних 65 нм — позволит увеличить тактовую частоту, число ядер и общую производительность.
Архитектура
Шасси Superdome 2 построено на стандартной стойке 18U, а сам сервер может содержать несколько корпусов (узлов). Общая схема Superdome 2 основана на объединении через коммутаторы ячеек (сell), реализованных в форме лезвий, содержащих процессоры, память и базовые средства ввода-вывода (I/O), которые могут дополняться подсоединяемыми через коммутаторы средствами расширения ввода-вывода IOX (I/O Expansion Enclosure) [1].
Архитектурную основу для такой структуры составляет набор микросхем HP sx3000, пришедший на смену использовавшемуся ранее sx2000. Новый набор состоит из трех микросхем: контроллер лезвия Agent, коммутаторная микросхема (crossbar switch) и адаптер шин PCI Express. Платы коммутаторов и ячеек-лезвий вставляются в слоты пассивной системной платы (midplane).
Каждое лезвие (рис. 1) содержит два процессорных разъема, две напрямую соединенные между собой микросхемы Agent, по 16 слотов памяти RDIMM на каждый разъем, IOH, два двухпортовых адаптера 10 Gigabit Ethernet и три слота плат в мезонинном конструктиве. В корпусе 18U может содержаться до 8 лезвий, содержащих 16 процессорных разъемов, 256 слотов DIMM, 32 порта 10 Gigabit Ethernet и 24 слота дочерних плат.
Между собой и Agent микропроцессоры связаны пятью двунаправленными каналами QPI с пиковой пропускной способностью 19,2 Гбайт/с каждый. Пиковая пропускная способность памяти, локально подсоединенной к каждому микропроцессору, составляет 34 Гбайт/с или 68 Гбайт/с на ячейку, что вдвое выше, чем в sx2000. Каждый микропроцессор связан с 4 масштабируемыми буферами памяти (Scalable Memory Buffers, SMB), и уже через них происходит обмен данными с RDIMM. Архитектура sx3000 позволяет каждому микропроцессору напрямую обращаться к локальной памяти, не «консультируясь» при этом с другими микропроцессорами и Agent. Подобное прямое подсоединение позволяет уменьшить задержки и улучшить масштабирование.
Микропроцессор Tukwilla имеет два независимых контроллера памяти, каждый из которых работает через интерфейс SMI c двумя SMB. Cтрока кэша расщепляется между двумя модулями DIMM, поэтому для достижения максимальной пропускной способности необходимо иметь минимум 8 DIMM. В Superdome 2 поддерживаются продвинутые средства расслоения памяти (interleave) — низкоуровневое расслоение обеспечивают оба Agent и все шесть каналов, связывающих их с коммутатором, при доступе к памяти удаленного лезвия, а микросхемы IOH вместе с Agent поддерживают тонкозернистое расслоение страниц. Кроме того, возможно распределение памяти для процессорного разъема. Такая схема показала свою эффективность в серверах стандартной архитектуры. Для уменьшения задержек обращения к удаленной оперативной памяти в лезвиях применяется кэш L4 емкостью 64 Мбайт (два кэша по одному для каждого микропроцессора), который использует схему с обратной записью, построен по технологии встраиваемой памяти (eDRAM) и подсоединяется через Agent. Когда строка кэша разделяется всеми четырьмя ядрами одного микропроцессора, то в соответствующем кэше L4 содержится только одна копия строки, а когда одно ядро имеет доступ к строке кэша по чтению и по записи, то эта же строка используется другим ядром того же микропроцессора, а их согласование идет через Agent.
Применение Agent обеспечивает расширенную масштабируемость по числу микропроцессоров, интерфейс к средствам ввода/вывода, когерентность кэша, а также управление кэшем L4 (рис. 1). Каждый Agent имеет по три канала с пропускной способностью 13 Гбайт/с, идущих к коммутатору системы (Crossbar Fabric), и, соответственно, на плату лезвия приходится всего шесть каналов. Эти каналы являются дифференциальными двунаправленными, используют технологию SERDES и объединяют в себе 10 последовательных каналов, обеспечивая 5,2 млрд передач в секунду (GigaTransfer, GT/s). Каждый Agent имеет еще один такой же канал с IOH. Собственно, через эти концентраторы подсоединяются все аппаратные средства подсистемы ввода-вывода, которая базируется на применении дифференциальных каналов PCI-E (v.2) х8; каждая микросхема IOH обеспечивает шесть таких интерфейсов с пропускной способностью 5 GT/s каждый.
Как видно из рис. 1, схема соединения процессоров, Agent, IOH и коммутатора обеспечивает избыточность всех основных узлов ячейки, резервирование путей и возможности балансировки нагрузки, что, безусловно, значительно повышает надежность Superdome 2.
Каждый Agent использует три канала к системному коммутатору, итого шесть каналов на ячейку. Коммутатор системы реализован в виде набора коммутаторных плат-модулей XFM (Crossbar Fabric Module), вставляемых в слоты срединной платы. Всего в одном узле имеется до восьми ячеек и до 4 XFM. Узлов, в свою очередь, может быть до четырех, и они соединяются между собой кабелями через порты системного коммутатора.
Из 20 портов неблокирующегося коммутатора XFM 12 являются «внутренними» — они соединяются с ячейками. Оставшиеся 8 «внешних» портов предназначены для соединения с IOX или соединения узлов между собой посредством кабелей. Для конфигураций Superdome 2 c одним узлом модули XFM не имеют прямых соединений друг с другом — они соединяются через ячейки или IOX. Для максимальной конфигурации с 32 ячейками они задействуют 192 порта на системном коммутаторе (фабрике).
Каждый Agent ячейки подсоединен к «своей» паре XFM, так что любая ячейка соединена со всеми четырьмя XFM. Аналогичная ситуация имеет место для IOX: каждая из двух микросхем IOH соединяется со своей парой модулей XFM, что обеспечивает резервирование и балансировку нагрузки.
Общая схема построения системного коммутатора обеспечивает необходимую для отказоустойчивости избыточность. Пиковая пропускная способность портов коммутатора составляет 12-13 Гбайт/с и зависит от подключаемого оборудования (Agent или IOX) [3]. Умножив на 6 эту величину в расчете на ячейку, получаем 78 Гбайт/с.
На срединную плату (точнее было бы назвать ее «верхней» системной платой) приходится 8U из общей высоты узла (18U), а оставшиеся 10U объема отведены для аппаратных средств коммутаторов I/O, соединяемых с нижней системной платой. Эта нижняя часть узла аналогична HP c7000 — здесь располагаются, в частности, средства управления (Onboard Administrator, OA), модули коммутаторов Fibre Channel (8 Гбит), Infiniband, Ethernet, SAS и вентиляторы. Верхняя часть узла является уникальной для Superdome 2 надстройкой.
В Superdome 2 имеется возможность прямой передачи данных между ядрами микропроцессора без обращения к памяти (из кэша в кэш) за три «прыжка» (hops) коммутатора. Другой важнейшей, зависящей от межсоединения характеристикой общей архитектуры ccNUMA-системы являются величины задержек по обращению в локальную и удаленную память. Для SMP-системы вся память является однородной — программисту нет необходимости учитывать разные скорости обращения.
Подсистема ввода/вывода имеется в ячейках и в корпусах IOX высотой 4U (рис. 2а). Концентраторы IOH используют два канала PCI-E x8 к сетевым адаптерам 10 Gigabit Ethernet и три таких же канала к слотам дочерних плат ввода/вывода. И сетевые адаптеры, и интерфейсы дочерних плат соединяются с портами коммутаторов ввода/вывода c обеспечением отказоустойчивости благодаря дублированию соединений. Кроме того, к IOH подключается управляющий контроллер ячейки iLO.
Благодаря двум каналам между IOH и Agent общая пиковая пропускная способность ввода/вывода ячейки равна 26 Гбайт/с, а поддерживаемая в дуплексном режиме — 11,8 Гбайт/с (в Superdome — 8,2 Гбайт/с). Масштабирование подсистемы ввода/вывода обеспечивается путем подключения новых ячеек, а дополнительные корпуса IOX позволяют не добавлять новые ячейки.
Каждая микросхема IOH в IOX имеет по два канала и подсоединяется к двум разным платам XFM (рис. 2б). Эти каналы к коммутатору основаны на 10 последовательных соединениях по 5 GT/s. Пиковое значение пропускной способности канала составляет 12,5 Гбайт/с, а поддерживаемое значение для дуплексной двунаправленной передачи — 5,7 Гбайт/с. Для всего IOX пропускная способность составляет 50 Гбайт/с. В структуре серверов Superdome модули IOX отсутствовали.
Рис. 2б. Расширенная подсистема ввода/вывода
Надежность и доступность
Все базовые аппаратные компоненты и пути, их соединяющие, в Superdome 2 дублированы, а все основные аппаратные компоненты допускают возможность горячей замены по схеме OLARD (OnLine Addition, Replacement, Deletion). Повышение уровня доступности достигается благодаря применению системы разбиения на разделы, а также средств виртуализации. В Таблице представлена часть наиболее важных и интересных аппаратных особенностей основных подсистем Superdome 2, способствующих повышению отказоустойчивости.
В подсистеме памяти применяются не только коды ECC, но и технология SDDC (Single Device Data Correction, известна также под названием Chipkill), позволяющая обойти сбои одной микросхемы в DIMM и DDDC (Double Device Data Correction), а также корректировать сбои сразу в двух последовательных микросхемах. Для памяти применяется технология scrubbing тестирования и исправления ошибок одновременно с работой приложений.
Эти и ряд других аппаратных усовершенствований в Superdome 2 позволили в 17 раз уменьшить вероятность поломки модулей DIMM и минимизировать риск повреждения данных. Кроме того, в самих процессорах возросла доля аппаратуры, контролируемой на наличие ошибок, — средствами контроля покрывается весь кэш и 70% возможных источников сбоев ядер. По разным оценкам, надежность Tukwilla вдвое выше, чем у массовых микропроцессоров.
Применение отказоустойчивых каналов в ячейках, подсистеме ввода/вывода и системном коммутаторе означает высокую доступность всех аппаратных разделов Superdome 2. Cервисное обслуживание каналов не требует остановки системы, а удаление большинства компонентов, потенциально способных вызвать аппаратных ошибки подсистемы ввода/вывода, позволило поднять время доступности Superdome 2 в 20-25 раз по сравнению с предыдущей модификацией. Отказоустойчивость повышена и благодаря возможностям онлайн-ремонта компонентов подсистемы ввода/вывода.
Что касается управления Superdome 2, то следует отметить перенос обнаружения и регистрации аппаратных ошибок с уровня операционной системы на прошивку (firmware) благодаря применению средств диагностики Analysis Engine, позволяющих анализировать сбои, даже если нельзя загрузить раздел. Единой точкой входа для сервисного обслуживания Superdome 2 являются (задублированные) модули средств управления OA. Вся система и все iLO ячеек управляются через OA, которые имеют доступ и к средствам конфигурирования разделов. Работа с OA может осуществляться через командную строку или Web-интерфейс, причем к ОA можно обратиться, даже если сервер не работает. В качестве некоторого более примитивного аналога такого подхода можно упомянуть платы IPMI в серверах стандартной архитектуры.
Cами модули OA, как и задублированные модули GPSM (Global Partitions Service Modules), содержащие, в частности, тактовые генераторы и средства мониторинга блоков питания и вентиляторов верхней половины узлов, допускают возможность горячей замены.
Конфигурации и производительность
Кроме Itanium 9350, в Superdome 2 могут применяться модели 9340 с тактовой частотой 1,6 ГГц и кэшем L3 емкостью 20 Гбайт. Имеются три группы моделей серверов, отличающихся числом процессорных разъемов (8, 16 и 32): Superdome 2 8s, -16s и -32s [1]. Старшие модели отличаются также числом IOX — до 4 в Superdome 2 8s, и до 8 — в остальных. Superdome 2 32s содержат до 128 ядер и обеспечивают суммарную пропускную способность ввода/вывода до 816 Гбайт/с, а производительность межсоединения достигает при этом рекордного в индустрии показателя — 1,248 Тбайт/с.
Серверы Superdome 2 могут работать c разными ОС, включая Windows Server 2008 R2, но основной следует считать HP UX 11i — рекордные показатели производительности были установлены именно в этой среде. На тестах TPC-H (для систем поддержки принятия решений) c емкостью хранения в 1 Тбайт сервер Superdome 2 в конфигурации с 64 ядрами в среде HP-UX 11i v3/Oracle 11g R2 Enterprise Edition достиг результата 140181 QphH. Предыдущий рекорд — 123323 QphH, принадлежащий системе Superdome, был получен тоже на 64 ядрах (32 микропроцессора Itanium 2 9140N 1,6 ГГц).
Имеется целая иерархия средств организации Superdome 2 в виде набора изолированных разделов, в которых можно образовать виртуальные разделы vPars (c гранулярностью до одного ядра и одной платы PCI-E). Применяя средства HPVM (HP Integrity Virtual Machines), можно достигнуть гранулярности меньше одного ядра, а надежность обеспечивается средствами HP UX SRP (Secure Resource Partitions) [4].
***
Серверы Superdome нашли широкое применение при решении самых различных вычислительных проблем, включая ресурсоемкие задачи квантовой химии, требующие больших объемов памяти на один процесс, а использование Superdome 2 для таких задач оказывается еще эффективнее. В любом случае, как следует из анализа архитектуры, наиболее важная область применения Superdome 2 — критические для бизнеса приложения. Производитель указывает на такие области применения, как OLTP-обработка (большая емкость памяти позволяет хранить в ней таблицы базы данных), cистемы поддержки принятия решений, задачи виртуализации и консолидации серверов.
Литература
- R.Turner "Unleash Your Potential. New HP Integrity Servers", HP Presentation, Apr. 2010
- Intel Itanium Processor 9300 Series. Reference Manual for Software Development and Optimization", Intel, Doc. № 323602-001, March 2010
- HP Superdome 2: The Ultimate Mission-Critical Platform, HP, June 2010
- New Features in Superdome 2 Partition Management, Technical white paper, HP, 2010
Михаил Кузьминский (kus@free.net) – старший научный сотрудник учреждения РАН «Институт органической химии им. Н.Д. Зелинского» (Москва).
Подсистема | Особенности |
Память | ECC; SDDC; DDDC;scrubbing ОП; отказоустойчивость каналов (сбросы и повтор операций); дифференциация между CRC-ошибкой канала SMI и ECC-сбоем микросхем памяти |
Процессоры | Обнаружение и коррекция ошибок кэша; самолечение кэшей L2, L3; применение в технологии изготовления специальных защелок для борьбы с мягкими ошибками (например, от космических лучей); защита логики ядер по четности и кодами ЕСС; продвинутые средства архитектуры обработки ошибок МСА; восстановление от МСА-ошибок на уровне HP UX; обнаружение и коррекция ошибок путей QPI (с применением CRC, возможности повтора операции и др.) |
Каналы (ввода/вывода, ячеек и межсоединения) | Повторение операции на канальном уровне; уменьшение эффективной ширины сбоящего канала; горячая замена XFM; подсоединение IOX через XFM |
Коммутатор | Избыточные каналы к ячейкам; явная поддержка аппаратных разделов |
Слоты I/O | Обнаружение и коррекция ошибок; изоляция сбоев PCI в одном слоте; улучшенное восстановление после ошибок I/O; поддержание многих путей; возможности OLARD для плат PCI-E. |
Набор микросхем | Обнаружение и коррекция ошибок внутренних путей данных; применение специальных защелок против мягких ошибок; запасные строки кэша в L4 |
Поддержка разделов и Инфраструктура системы | nPartitions (аппаратная и программная изоляция разделов); OLARD для ячеек; избыточные тактовые генераторы с горячей заменой; полностью избыточные пути распространения синхросигналов; управление автоматическим обходом ошибок и горячей заменой (OA, GPSM); избыточность и автоматический обход ошибок в межсоединении с пакетным протоколом; возможности ремонта без выключения нескольких разделов; избыточность источников питания (2N); избыточность вентиляторов; пассивные системные платы; средства Analysis Engine |