При обсуждении суперкомпьютерных архитектур акцент обычно делается на производительности и особенностях повышения пропускной способности шин и коммутаторов, однако мастерство, как известно, определяется деталями: без организации нормального энергоснабжения сотен параллельно работающих модулей невозможна работа ни одной вычислительной конфигурации.

Повышение производительности современных вычислительных систем достигается путем объединения большого числа вычислительных модулей, работающих на предельных частотах. Многоуровневые древовидные структуры подсистем электропитания таких вычислительных комплексов должны обеспечивать надежность энергоснабжения распределенных аппаратных средств при потребляемой мощности в диапазоне от десятков до сотен киловатт. Архитектура подсистем электропитания должна иметь возможность настройки на обслуживание различного числа используемых вычислительных модулей и обеспечивать высокую эффективность использования энергоресурсов. Рассмотрим особенности их реализации на примере подсистемы бесперебойного электропитания и контроля параметров среды функционирования для суперкомпьютера МВС-1000М.

Электроснабжение МВС-1000М осуществляется от трехфазной электрической сети с глухим заземлением нейтрали. Технические средства МВС-1000М с точки зрения условий надежности электроснабжения представляют собой приемники первой категории: перерыв электроснабжения этих устройств может привести к значительному ущербу вплоть до повреждения дорогостоящего оборудования. Приемники первой категории должны получать питание от двух независимых источников питания [7]. Субсистема электропитания МВС-1000М содержит понижающий трансформатор, который имеет два промышленных вывода, используемых в качестве независимых источников питания НИП1 и НИП2. Агрегат включения резерва передает на вход напряжение промышленной сети от НИП1. В случае отказа НИП1 агрегат за заданное время автоматически переключает на свой выход напряжение промышленной сети, поступающее от НИП2. При этом во время переключения агрегата включения резерва не допускается перебоев в электроснабжении технических средств суперкомпьютера. Главным источником отказов и помех в электропитании системы являются городская энергосеть и энергосеть организации, где размещается суперкомпьютер.

Особенностью МВС-1000М является разнородный, с точки зрения характера нагрузки на цепи первичного электропитания, состав оборудования. Большую часть технических средств системы составляют вычислительные блоки, подключаемые к импульсным вторичным источникам питания, накладывающих жесткие ограничения на использование трехфазных электросетей. Это связано с тем, что при подключении импульсных вторичных источников питания в каждой фазе в нулевом проводнике возможно сложение токов третьей гармоники. В результате ток в нулевом проводнике может оказаться много больше фазовых токов и превысить допустимые значения токов для этого проводника. Поскольку в нулевом проводнике, как правило, не устанавливается каких-либо защитных устройств, избыточный ток может привести к перегреву и повреждению провода. В подобных случаях автоматические выключатели или другие защитные устройства не обеспечивают защиты электросети, что может привести к глобальной аварийной ситуации.

Сложившаяся в НИИ «Квант» многолетняя практика разработки, изготовления, наладки и эксплуатации параллельных вычислительных систем доказывает целесообразность реализации функций управления электропитанием и динамического контроля физических параметров среды функционирования с помощью отдельной подсистемы. При этом, информация о параметрах электропитания и среды функционирования должна интегрироваться в потоки диагностической информации о текущем состоянии вычислительной системы.

Анализ характеристик сети, предназначенной для первичного электропитания, показал необходимость введения в иерархию электроснабжения вычислительной системы отдельного уровня источников бесперебойного электропитания, в качестве которых был выбран масштабируемый отказоустойчивый блок бесперебойного электропитания Power Array Symmetra компании APC. Каждая логическая стойка МВС-1000М подключена к отдельному блоку Symmetra, что позволяет реконфигурировать машину путем наращивания числа логических стоек с подключенным к каждой из них ИБП. Таким образом, используемый в системе энергоресурс будет соответствовать реализованной конфигурации суперкомпьютера.

На вход Symmetra через агрегат включения резерва поступает трехфазное напряжение с магистрали энергосети вычислительного центра, а на выходе формируется высококачественное однофазное переменное напряжение номиналом 220 В и частотой 50 Гц. Надежность работы ИБП гарантируется схемой распределенной избыточности. В МВС-1000М к Symmetra подключена нагрузка, меньше предельной, таким образом, чтобы при выходе из строя одного из четырех модулей электропитания происходило равномерное перераспределение мощности между оставшимися тремя. Батарейный блок ИБП Symmetra состоит из четырех свинцово-кислотных батарей и при отказах в работе первичного электропитания, ИБП переходит на батарейный режим работы. Мощность батарейного блока обеспечивает работу стоек МВС-1000М в течение 5-7 минут после отключения первичного электропитания; этого достаточно для корректного аварийного завершения вычислительных процессов (рис. 1).

Рис. 1. Структура сети управления подсистемой бесперебойного питания и контроля среды функционирования суперкомпьютера МВС-1000М

Особенность электрического сопряжения Symmetra со стойками МВС-1000М заключается в необходимости учета импульса выходного тока ИБП в момент его включения. Этот пусковой ток обусловлен процессом заряда входных емкостей импульсных вторичных источников питания, применяемых в МВС-1000М. Его импульсное значение превышает предельно-допустимый ток для Symmetra, поэтому с целью уменьшения пускового тока нагрузка подключается к этому ИБП через силовые коммутационные реле, временная последовательность включения которых задается специальным программно-временным устройством, управляемым посредством интерфейса RS-422.

Системный подход к проектированию и эксплуатации подсистемы бесперебойного питания предполагает организацию дистанционного управления и мониторинга состояний отдельных ИБП, мониторинга температуры и влажности окружающей среды, а также протоколирование результатов мониторинга. В МВС-1000М сформирована информационная подсеть Ethernet-10T, которая объединяет восемнадцать ИБП Symmetra с помощью встраиваемых сетевых плат APC AP9606. Управление подсетью осуществляется с помощью управляющего компьютера. В состав подсистемы бесперебойного питания МВС-1000М включены два устройства AP9612TH, измеряющие температуру и влажность воздушного потока, поступающего из подпольного пространства, а также воздуха в зале. Диапазон измерения температуры составляет 0?С — 65?С, влажности — 10-90% RH. Данные о величине температуры и влажности поступают на станцию управления.

Для обеспечения надежной работы необходимо контролировать ряд параметров, таких как напряжение питания и частота на входах и выходах ИБП, заряд батарей, ток нагрузки, а также параметры окружающей среды. Подобный контроль надо осуществлять постоянно и непрерывно; поэтому его надо сделать автоматическим. При использовании Symmetra имеется несколько способов получения информации о различных параметрах питания. Для получения оператором данных в интерактивном режиме могут использоваться протоколы HTTP и Telnet.

Однако для работы системы в автоматическом режиме наилучшим образом подходит SNMP [2-4], использование которого позволяет уменьшить нагрузку на сеть за счет увеличения периода опроса параметров. При этом сохранение контроля состояния подсистемы бесперебойного питания обеспечивается с помощью специальных trap-сообщений, которые контролируемые устройства посылают на станцию управления в случае возникновения критических ситуаций, например, при пропадании первичного питания или критическом уровне заряда батарей. Кроме trap-сообщений в протоколе SNMPv1 определены команды GetRequest, GetNextRequest, SetRequest и GetResponse. Команда GetRequest позволяет запрашивать от контролируемого устройства, называемого SNMP-агентом, значение параметра, определяемого его идентификатором. Команда GetNextRequest используется для получения очередной переменной из списка агента. Команда SetRequest применяется для изменения значения параметра и обычно используется при конфигурировании SNMP-агента. Команда GetResponse возвращает результаты выполнения предыдущих трех команд. Доступные для работы идентификаторы объектов для каждого типа оборудования, поддерживающего протокол SNMP, описываются в файле MIB (Management Information Base), предоставляемым производителем данного оборудования. В качестве сетевого протокола в SNMP применяется IP, а в качестве транспортного — UDP. Последний протокол не обеспечивает гарантированной доставки пакетов, что не позволяет полностью отказаться от проведения периодического опроса параметров. Такой опрос позволяет также выявить отказы сетевого оборудования, при которых систему нельзя контролировать автоматически.

СA Unicenter TNG, Cabletron Spectrum, HP OpenView, SunNet Manager, Tivoli Management Environment... позволяют автоматически определять конфигурацию сети, контролировать состояние сетевых узлов, принимать и отображать trap-сообщения, выбирать действия, которые будут автоматически выполняться при приходе аварийных сообщений и т.д. Однако все эти программы предназначены, в основном, для управления сложными сетями с разнородным оборудованием, а для выполнения специфических действий, связанных с управлением определенным оборудованием, требуется разработка дополнительных программных модулей.

Подсистема бесперебойного питания универсальных МВС-1000М является комплексом с достаточно однородной структурой, основной задачей которого является выполнение ряда специфических процедур, обеспечивающих надежное функционирование:

  • периодический опрос параметров питания ИБП;
  • периодический опрос значений температуры и влажности в нескольких точках машинного зала;
  • опрос параметров низковольтного питания и состояния силовых релейных коммутаторов;
  • сохранение результатов мониторинга в базе данных;
  • включение и выключение силовых релейных коммутаторов;
  • визуализация контролируемых параметров;
  • обеспечение возможности дистанционного включения и выключения ИБП по определенному алгоритму;
  • обеспечение возможности запуска с операторской консоли процесса диагностирования ИБП;
  • выдача trap-сообщений на станцию управления процессорными модулями в случае достижения каким-либо из контролируемых параметров критического значения.

Рис. 2. Вид главного окна консоли управления подсистемы бесперебойного питания
Подобная программа была разработана в лаборатории «Микропроцессорные системы» Московского инженерно-физического института в сотрудничестве со специалистами НИИ «Квант». На рис. 2 приведено основное окно программы, в котором для каждого ИБП представлено его состояние, а в случае отсутствия связи с ИБП вместо значений параметров питания отображается процент сетевых ошибок.

Управление работой подсистемы может происходить как вручную через графическую консоль, так и автоматически. При этом обеспечивается автоматическое отключение источников бесперебойного питания в случае выхода из строя системы кондиционирования. Процесс автоматически координируется с вычислительным процессом, выполняемым на МВС-1000М, путем обмена SNMP-сообщениями между станцией управления, подсистемой питания и станцией управления вычислительным комплексом. В случае возникновения аварийных ситуаций возможен анализ результатов мониторинга параметров питания и окружающей среды. Данные могут представляться как в табличном, так и в графическом виде, что помогает заранее предупредить возможный отказ источника бесперебойного питания. Все это обеспечивает надежное бесперебойное питание.

Следует отметить, что введение дополнительной станции управления повышает надежность системы, а не является дополнительным компонентом, снижающим устойчивость. Эта станция осуществляет мониторинг параметров питания и аварийное выключение системы в случае возникновения аварий по питанию, температуре или влажности. Она не задействована при нормальной работе системы питания, и ее отказ не может привести к нарушениям в работе вычислительного комплекса. В то же время данная система позволяет избежать серьезных аварий, которые могут возникнуть при отказе системы питания, системы кондиционирования, возникновении протечек, а также позволяет предупреждать отказы ИБП за счет долгосрочного накопления и последующего анализа широкого набора параметров ИБП.

В случае возникновения аварии по питанию станция должна осуществить корректное завершение работы процессорных модулей (они работают под управлением ОС Linux). Возлагать на эту станцию дополнительные задачи по управлению питанием не имеет смысла, так как необходимо контролировать большое количество параметров питания (из-за этого целесообразно выделить станцию мониторинга питания в отдельный сегмент сети), осуществлять управление ИБП по достаточно сложному алгоритму.

Полученный опыт создания систем управления объектами на базе протокола SNMP показывает эффективность его использования для решения задач управления, возникающих в различных отраслях [5, 6].

Денис Зельтинг (den@d406.micro.mephi.ru), Евгений Головин, Игорь Шагурин (shagurin@d406.micro.mephi.ru) — сотрудники МИФИ. Сергей Ротнов (p7w7@rambler.ru) и Валерий Соловьев — сотрудники НИИ «Квант» (Москва).

Литература
  1. В.К. Левин, Российский суперкомпьютер - есть 1 Тфлопс. // Электроника: НТБ. 2002, № 1
  2. Sean J. Harnedy, "Total SNMP:Exploring the Simple Network Management Protocol". 2nd edition, Prentice Hall PTR, 1998
  3. W. Stallings, SNMP and SNMPv2: The Infrastructure for Network Management. // IEEE Communication Magazine, 1998, № 2
  4. Д. Бекман, Стандарт SNMPv3. // Сети и системы связи, 1998, № 12
  5. С. Штайнке, Рентгеновский снимок сети. // LAN Magazine/Русское издание. 1996, № 6
  6. И.И. Шагурин, С.Г. Петров, В.А. Ванюлин, С.Л. Эйдельман, Е.М. Бердышев, Реализация агентов SNMP для управления сетями связи. // Сети и системы связи, 2000, № 7
  7. С. А. Кужеков, С.В. Гончаров, Городские электрические сети. Ростов-на-Дону. Издательский центр "Март", 2001