Одна из основных статей расходов, связанных с эксплуатацией современных гипермасштабируемых ЦОД провайдеров облачных услуг, — затраты на обновление серверного парка. При периодической модернизации, чаще всего связанной с выходом нового процессора Intel, сервер заменяется целиком, хотя некоторые аппаратные компоненты остаются без изменений и могли бы использоваться в дальнейшем. Очевидно, что, если бы архитектура серверов позволяла заменять их по отдельности, расходы на обновление серверного оборудования можно было бы существенно сократить и в результате увеличить жизненный цикл тех компонентов, которые обновляются реже, чем процессоры.

 

Еще одна постоянная проблема центров обработки данных — дефицит пространства для размещения дополнительного оборудования. Когда речь идет о десятках или сотнях тысяч машин, уменьшение их размеров даже на несколько процентов позволит существенно сэкономить на площади создаваемого ЦОД или дать вторую жизнь старому ЦОД, где свободного места уже не осталось. Один из путей повышения плотности серверов — уменьшение их размеров. В начале предыдущего десятилетия появились блейд-серверы, которые были не только меньше стандартных стоечных и экономили пространство в стойке, но и отличались низким энергопотреблением за счет использования общих для всех лезвий шасси вентиляторов, блоков питания и дисковых лезвий.

Дальнейшее уменьшение габаритов машин и сокращение энергопотребления (по сравнению с лезвиями) обеспечивают модульные серверы, например Dell PowerEdge C, Fujitsu Primergy CX и HP ProLiant SL, рассчитанные как на поддержку услуг облачных провайдеров, так и на построение суперкомпьютерных кластеров. Если блейд-серверы ориентированы на обслуживание традиционных серверных приложений (баз данных, ERP, CRM-систем и электронной почты), то модульные серверы применяются для развертывания горизонтально масштабируемых приложений. В отличие от лезвий высокая отказоустойчивость обеспечивается в них за счет резервирования серверов, а не фирменных технологий обнаружения и предотвращения аппаратных сбоев. Еще одно их важное отличие — использование так называемых низковольтовых моделей процессоров с низким уровнем энергопотребления и тепловыделения, что позволяет увеличить плотность размещения серверов.

Оптимизация жизненного цикла серверных компонентов и наращивание процессорной плотности требуют радикального пересмотра привычной архитектуры аппаратной конфигурации сервера и предполагают агрегирование отдельных компонентов (процессоров, оперативной памяти, дисков и сетевых интерфейсов) больших серверных конфигураций в отдельные аппаратные блоки. Такое дезагрегирование обеспечивает независимую замену компонентов, уникальную гибкость конфигурирования серверов и распределения между ними аппаратных ресурсов, а кроме того, позволяет добиться большей плотности благодаря созданию общего для всех серверов пула ресурсов. Этот подход можно рассматривать как развитие архитектуры лезвий и модульных серверов, поскольку в дополнение к общим блокам питания и вентиляторов «обобществляются» и остальные основные компоненты серверных систем. Посмотрим, как этот подход сегодня реализуется на практике.

OPEN COMPUTE PROJECT

Проект Open Compute Project (OCP), у истоков которого стояла компания Facebook, направлен на создание архитектуры легко заменяемых модульных серверов. В центрах обработки данных этой компании для обслуживания разных приложений (Web, чат, база данных, Hadoop, фото/видео и multifeed/поиск/реклама) ранее использовались пять базовых конфигураций стоечных серверов. Тем не менее не для всех сервисов (а всего их 40 основных и 200 вспомогательных) удавалось подобрать оптимальную конфигурацию из этих пяти; к тому же потребности в вычислительной мощности со временем менялись, что требовало внесения изменений и в конфигурацию серверов, обслуживающих тот или иной сервис.

Для решения этой проблемы инженеры Facebook разработали серверный лоток Group Hug, в разъемы PCI-Express которого монтируются 10 компьютерных карт. Каждая карта оснащена одним процессором, 8 или 16 слотами DIMM, одногигабитным сетевым интерфейсом и не имеет дисков. По сравнению со стоечными серверами применение Group Hug позволило увеличить плотность размещения процессоров в три — пять раз. Кроме того, в рамках этого проекта был разработан лоток с модулями оперативной памяти 128–512 Гбайт RAM Sled, лоток Storage Sled (Knox) c 15 жесткими дисками и лоток Flash Sled, вмещающий до 18 Тбайт твердотельной памяти. Применение этой архитектуры специализированных лотков позволило сократить стоимость серверного оборудования, упростить его обслуживание, ускорить внедрение специализированных конфигураций и новых технологий.

Внедрение OCP позволит выпускать дезагрегированные стоечные системы, что, в свою очередь, должно упростить управление серверной структурой центра обработки данных — системные администраторы будут осуществлять управление на уровне не отдельных серверов, а доступных вычислительных, сетевых и дисковых ресурсов.

Наиболее известной реализацией OCP являются стоечные системы Scorpio, в которых блоки питания и вентиляторы серверов вынесены в отдельные модули. Scorpio разработаны тремя китайскими компаниями (онлайновым магазином Alibaba, поисковиком Baidu и социальной сетью Tencent) при технической поддержке Intel. Основной целью было сокращение расходов на закупки серверного оборудования. В типичной конфигурации Scorpio в стойке высотой 42U три верхних юнита занимают коммутаторы, под ними находится зона высотой 16U, где установлены одноюнитовые серверные модули (лотки), еще ниже располагаются три юнита блоков питания и еще одна серверная зона 16U. Серверные лотки Scorpio бывают половинной и полной ширины. Кроме того, в стойку можно установить полноразмерный лоток с 13 дисками в конфигурации JBOD. На пилотной стадии проекта применение Scorpio позволило улучшить эффективность энергопотребления серверов, так что участники проекта планируют запустить эти системы в промышленную эксплуатацию еще в текущем году.

На следующем этапе реализации идей OCP предполагается вынести в отдельные модули те компоненты серверов, которые обычно размещаются на системной плате. Например, в предложенной Intel архитектуре сервера Rack Scalable Architecture (RSA), масштабируемого в пределах стойки, один модульный лоток стойки RSA высотой 2U может содержать только процессоры (причем можно использовать лотки с процессорами Xeon либо Atom), другой — модули оперативной памяти, третий — диски и т. п.

Применение лотков RSA позволяет независимо модернизировать отдельные компоненты сервера — например, заменив процессорный лоток на аналогичный с новыми кристаллами, можно увеличить вычислительную мощность сервера (или серверов) без замены оперативной памяти и дисковой подсистемы. В результате расходы на его модернизацию значительно снижаются и увеличивается срок службы.

По оценкам Intel, по сравнению с обычными одноюнитовыми двухсокетными стоечными серверами, установленными в стойке 44U, архитектура RSA позволяет в полтора раза увеличить плотность размещения процессоров, до пяти раз уменьшить энергопотребление серверного комплекса, втрое снизить число кабелей в стойке, в полтора раза нарастить плотность дисковой емкости и до 25 раз сократить число соединений с сетью передачи данных в масштабе ЦОД.

Для процессорных лотков RSA подготовлены спецификации нескольких процессорных плат, включая Panther с процессором Atom C200 и Leopard с процессором Xeon E5-2600. В один лоток устанавливается 30 процессорных плат, а к общей фабрике стойки все они подключаются через общий мезонинный коммутатор.

Очевидно, что для того чтобы дезагрегированный сервер RSA обеспечивал тот же уровень производительности, что и стандартный стоечный сервер, ему требуются очень быстрые интерконнекты, соединяющие установленные в стойке лотки разного типа в единую систему. Шина PCI-Express, используемая для соединения компонентов в обычных серверах, для этого не подходит, так как она поддерживает связь на расстоянии не более 25 см — для соединения между лотками в стойке этого явно недостаточно. В качестве технологии для таких интерконнектов Intel предложила использовать разработанную в ее лабораториях кремниевую фотонику Silicon Photonics, обеспечивающую скорость до 25 Гбит/сек при соединении на расстоянии свыше 100 м (см. статью Дмитрия Ганьжи «Дезассемблер шкафа» в ноябрьском номере «Журнала сетевых решений/LAN» за 2013 год).

В марте нынешнего года Intel объявила о том, что при участии компании Corning и еще нескольких партнеров во втором полугодии будут выпущены многомодовые оптические кабели MXC на основе кремниевой фотоники, обеспечивающие пропускную способность до 800 Гбит/сек при длине кабеля до 300 м. Сейчас они проходят тестирование в центрах обработки данных нескольких организаций, в том числе в Facebook и Microsoft. Как ожидается, их промышленное производство приведет к появлению первых серверных систем на базе архитектуры RSA. Тем не менее на рынке уже есть и другие дезагрегированные серверы, которые, правда, масштабируются в пределах стоечного шасси, а не всей стойки.

СЕРВЕРЫ С МАСШТАБИРОВАНИЕМ НА УРОВНЕ СТОЕЧНОГО ШАССИ

О планах выпуска стоечного сервера с принципиально новой архитектурой HP объявила еще в конце 2011 года, а первые серверы Moonshot вышли на рынок прошлой весной. Эта система продвигается в качестве решения для обслуживания социальных сетей, облаков, Больших Данных и других приложений, которые хорошо масштабируются по горизонтали. Представители HP подчеркивают, что Moonshot не следует рассматривать как замену обычных стоечных серверных лезвий.

Система HP Moonshot состоит из шасси HP Moonshot 1500 высотой 4,3U, в которое вертикально вставляется 45 одноплатных серверных картриджей HP ProLiant Moonshot (см. Рисунок 1). Помимо поддерживающих горячую замену серверов-картриджей, в этом шасси размещаются два 45-портовых коммутатора Gigabit Ethernet, плата удаленного управления серверами HP Integrated Lights-Out (iLo) и общие для всех картриджей блоки питания и вентиляторы.

Рисунок 1. В шасси НР Moonshot 1500 высотой 4,3U вертикально вставляются 45 одноплатных серверных картриджей.
Рисунок 1. В шасси НР Moonshot 1500 высотой 4,3U вертикально вставляются 45 одноплатных серверных картриджей.

 

Конструкция HP Moonshot похожа на блейд-системы, но обеспечивает еще большую плотность вычислительной мощности благодаря агрегированию в отдельные модули систем питания и охлаждения серверов. В HP Moonshot 1500 вместо объединительной панели (backplane) — как в шасси лезвий HP BladeSystem c7000 — используются три отдельные сетевые фабрики: коммуникационная на базе интегрированных в шасси гигабитных коммутаторов Ethernet, для доступа к дискам и для объединения серверов в кластеры. Кроме того, для администрирования шасси имеется служебная сеть iLO. Каждый картридж HP Moonshot подсоединяется ко всем трем фабрикам шасси, причем к каждому коммутатору Gigabit Ethernet он может подключаться по четырем каналам.

Кластерная фабрика шасси имеет архитектуру трехмерного кольца и состоит из 15 кластеров, в каждом из которых располагаются по три сервера-картриджа. Для объединения трехузловых кластеров в фабрику могут использоваться различные интерфейсы (PCI Express, Ethernet или SATA). У каждого сервера-картриджа есть доступ к четырем шинам SAS/SATA: две идут к общим дискам, а две другие — к соседним картриджам. С помощью фабрики устройств хранения, которая тоже имеет архитектуру трехмерного кольца, связывающего пятиузловые кластеры, из накопителей нескольких картриджей можно создавать общий дисковый ресурс и строить из них массив RAID. Расширение дисковой емкости шасси Moonshot осуществляется путем подключения по 10 Gigabit Ethernet к дисковому массиву корпоративного класса HP 3Par StorServ или стоечному серверу HP ProLiant SL4500, оснащенному 60 дисками. Применение в шасси трех отдельных фабрик позволяет разделить сетевой трафик, трафик локальных дисковых подсистем хранения и трафик обмена данными между картриджами, что существенно улучшает общую производительность системы.

Сначала для HP Moonshot были выпущены картриджи HP ProLiant Moonshot на базе процессора Intel Atom S1260 (Centerton) с двумя интегрированными гигабитными портами Ethernet, оперативной памятью емкостью 8 Гбайт и одним диском 2,5″. Шесть шасси, в которых установлены эти картриджи, обслуживают корпоративный Web-сайт HP, и, по данным компании, их применение вместо 46 обычных стоечных серверов позволило уменьшить число стоек с 23 до 6 и сократить энергопотребление со 138 до 6 кВт.

В конце прошлого года HP выпустила картридж HP ProLiant m700, оснащенный четырьмя низковольтовыми процессорами AMD Opteron X2150 APU с архитектурой (System on Chip, SoC), оперативной памятью DDR3 объемом от 8 до 32 Гбайт и твердотельным накопителем на 32 Гбайт. В Opteron X2150 APU на одном кристалле располагаются 4-ядерный модуль обработки данных (CPU), 128-ядерный модуль обработки графики Radeon (GPU) и интегрированные порты ввода-вывода. HP ProLiant m700 предназначен для обслуживания приложений Citrix Xen Desktop для хостинга десктопов (HDI) — каждый процессор картриджа предоставляет вычислительные ресурсы и возможности использования графики и мультимедиа для одного удаленного рабочего места.

В конце сентября HP представила сразу пять новых картриджей Moonshot. ProLiant m300 и ProLiant m450, в которых установлены 8-ядерные процессоры Atom, рассчитаны на обслуживание Web-инфраструктур и Web-сайтов. Первый из них снабжен одним Atom с2750, а второй — четырьмя Atom с2730. Картридж ProLiant m400, предназначенный для кэширования Web-страниц, имеет 64-разрядный процессор ARM. Для оцифровки видео и обслуживания тонких клиентов ProLiant m710 оснащен низковольтовым 8-ядерным Xeon E3-1284L v3. Картридж ProLiant m800 с четырьмя кристаллами SoC на базе специализированного DLP-процессора Texas Instruments Keystone II 66AK2H рассчитан на выполнение в реальном времени аналитики больших объемов данных (например, данных сейсморазведки при поиске месторождений нефти) и разработку приложений цифровой обработки сигналов для телеком-операторов.

Рисунок 2. Системы SeaMicro обеспечивают по крайней мере двукратное увеличение плотности размещения процессоров и дисков по сравнению с обычными стоечными серверами.
Рисунок 2. Системы SeaMicro обеспечивают по крайней мере двукратное увеличение плотности размещения процессоров и дисков по сравнению с обычными стоечными серверами.

Как и HP Moonshot, система AMD SeaMicro реализует масштабирование на уровне стоечного шасси. В ее основе — решения компании SeaMicro, которую AMD приобрела в 2012 году. Правда, у AMD SeaMicro S15000 шасси вдвое выше (высота 10U), и в нем используется единая сетевая фабрика Freedom Fabric с топологией трехмерного кольца и агрегированной пропускной способностью 1,28 Тбит/сек, которая соединяет вычислительные, дисковые и сетевые ресурсы системы. Для отказоустойчивости в Freedom Fabric применяются технологии самоизлечения и резервирование маршрутов. Как утверждает AMD, системы SeaMicro обеспечивают по крайней мере двукратное увеличение плотности размещения процессоров и дисков по сравнению с обычными стоечными серверами (см. Рисунок 2), так как благодаря фабрике Freedom серверы шасси могут совместно использовать общие компоненты (блоки питания, вентиляторы и сетевые интерфейсы). По оценкам AMD, одно шасси SeaMicro способно заменить 32 одноюнитовых двухсокетных сервера, использующих 8-ядерные процессоры, при этом энергопотребление сокращается вдвое, а производительность вычислений повышается в 16 раз.

AMD SeaMicro поддерживает установку в шасси нескольких типов модулей дезагрегированного сервера. Вычислительный модуль C-Card содержит четыре процессора, оперативную память до 256 Мбайт и интегрированную микросхему SeaMicro Fabric ASIC, обеспечивающую виртуализацию ввода-вывода и подключение модуля к фабрике Freedom. C-Card выпускаются с процессорами AMD Opteron 4300, Intel Xeon E3-1260L и E3-1265Lv2, Intel Atom N570.

Независимо от используемого процессора все платы C-Card полностью взаимозаменяемы (имеют идентичные физические, электрические и термические характеристики). Шасси SeaMicro S15000 рассчитано на установку до 64 плат C-Card, доступ к ним осуществляется с боковой стороны шасси. C-Card поддерживают Windows, Linux и гипервизоры VMware и Citrix.

Кроме того, в шасси устанавливаются до восьми модулей сетевых интерфейсов, в каждом из которых имеется восемь 1-гигабитных либо два 10-гигабитных порта Ethernet, два порта SAS для подключения фабрики к внешней дисковой подсистеме емкостью до 5,44 Пбайт, восемь плат хранения и до 64 стандартных 2,5-дюймовых дисков по 1 Тбайт. К одной плате хранения подсоединяются восемь дисков SATA II (6 Гбит/сек), а каждая плата хранения, как и C-Card, подключается к фабрике Freedom по двум интерфейсам 10 GbE. Сетевые модули доступны с задней панели шасси, а платы хранения и диски — с передней. Все процессорные и сетевые модули, платы хранения и диски шасси поддерживают горячую замену. Замена всех модулей AMD SeaMicro выполняется всего за четверть часа, при этом необходимо выдвинуть шасси из стойки.

Один из крупнейших мировых операторов сотовой связи Verizon использует AMD SeaMicro для обслуживания публичного облака, а компания Red Hat с помощью одной системы SeaMicro S15000 развернула тысячу виртуальных машин для внедрения инфраструктуры OpenStack и OpenShift. В ЦРУ США на базе SeaMicro S15000 построена система аналитики Больших Данных, использующая Hadoop MapR.

Представленные в начале сентября модульные серверы Cisco UCS M-Series тоже могут рассматриваться как пример дезагрегирования — используемая в них интегрированная микросхема ASIC заменяет сетевые карты и дисковые контроллеры серверов (в терминологии Cisco — серверных картриджей) и позволяет гибко предоставлять ресурсы ввода-вывода всем картриджам, установленным в одном шасси. UCS M-Series состоит только из процессора и модулей оперативной памяти, подсоединенных по шине PCIe к шасси. Общими для картриджей ресурсами на уровне шасси являются не только питание и вентиляторы, но также сетевые интерфейсы и дисковая подсистема.

ЗАКЛЮЧЕНИЕ

Дезагрегированная архитектура серверных систем открывает новые возможности для оптимизации серверной инфраструктуры гипермасштабируемых центров обработки данных — повышается плотность размещения серверов, экономится пространство, сокращаются энергопотребление и тепловыделение. HP Moonshot и AMD SeaMicro успешно реализовали дезагрегирование серверов на уровне стоечного шасси, а проект Intel RAS позволит создавать дезагрегированные серверы в масштабе стоек.

Лев Левин — независимый автор.