Graph500: адекватный рейтинг
Список Graph500 претендует на более адекватное, чем в Top500, отражение рейтинга суперкомпьютеров, способных обрабатывать большие массивы данных. Что побудило создать очередной тест и в чем его суть? Леонид Эйсымонт, Александр Фролов, Александр Семенов |
Суперкомпьютер «Ломоносов» был установлен в МГУ имени М. В. Ломоносова в 2009 году, и на момент запуска его пиковая производительность составляла 420 TFLOPS, что соответствовало тогда первой строке в рейтинге самых мощных компьютеров СНГ и стран Восточной Европы и двенадцатой — в рейтинге Top500 (ноябрь 2009 года). На суперкомпьютере работало 250 пользователей из МГУ, а его ресурсы предоставлялись более чем 50 организациям — подразделениям МГУ, институтам РАН и др. Уже спустя год доступных ресурсов этой системы стало недостаточно — запросы пользователей превысили имеющиеся вычислительные мощности, поэтому была выполнена серия расширений, в результате которых (табл. 1) осенью 2012 года «Ломоносов» оказался на 22-й позиции рейтинга Top500 с пиковой производительностью 1,7 PFLOPS и на 13-м месте в рейтинге Graph500.
Число вычислительных узлов x86 | 5104 |
Число вычислительных узлов GPU | 1065 |
Число вычислительных узлов PowerXCell | 30 |
Число процессоров x86 | 12 346 |
Число процессорных ядер x86 | 52 168 |
Число процессорных ядер GPU | 954 240 |
Основной тип вычислительных узлов | TB2-XN |
Основные типы процессоров |
Xeon X5570/X5670
Nvidia X2070 |
Оперативная память | 92 Тбайт |
Системная сеть | QDR InfiniBand |
Сервисная сеть | 10-Gigabit Ethernet |
Управляющая сеть | Gigabit Ethernet |
Специальная сеть | Сеть барьерной синхронизации и глобальных прерываний |
Система хранения данных | Параллельная файловая система Lustre, файловая система NFS, система резервного копирования и архивирования данных |
ОС | Clustrx T-Platforms Edition |
Энергопотребление вычислителя | 2,6 МВт |
Общая схема архитектуры суперкомпьютера представлена на рис. 1. Основу вычислительного комплекса составляет платформа T-Blade 2 от компании «Т-Платформы», представляющая собой шасси 7U для установки в стандартную 19-дюймовую стойку, которая содержит: 16 вычислительных модулей, подключаемых в «горячем» режиме; два интегрированных коммутатора QDR InfiniBand; интегрированный управляющий модуль; блок воздушного охлаждения и блоки питания. В суперкомпьютере используются восемь видов вычислительных узлов и процессоры с различной архитектурой, что позволяет получить необходимую производительность для широкого спектра приложений. Кроме классических многоядерных узлов архитектуры x86 на базе четырехъядерных и шестиядерных процессоров Intel Xeon X5570 Nehalem и X5670 Westmere, в системе имеются гибридные узлы TB2-TL на процессорах Intel Xeon и Nvidia Tesla, а также узлы на процессорах PowerXCell 8i (табл. 2).
Рис. 1. Схема архитектуры суперкомпьютера «Ломоносов» |
Процессоры узла | Число процессорных ядер на узел | Объем памяти узла (Гбайт) | Локальные диски | Число узлов |
2 x Xeon 5570/2,93 ГГц | 8 | 12 | нет | 4160 |
2 x Xeon 5570/2,93 ГГц | 8 | 24 | есть | 260 |
2 x Xeon 5670/2,93 ГГц | 12 | 24 | нет | 640 |
2 x Xeon 5670/2,93 ГГц | 12 | 48 | есть | 40 |
2 x PowerXCell 8i/3,2 ГГц | 18 | 16 | нет | 30 |
2 x Xeon E5630/2,53 ГГц, 2 x Tesla X2070 | 8+896 CUDA-ядер | 12 | нет | 777 |
2 x Xeon E5630/2,53 ГГц, 2 x Tesla X2070 | 8+896 CUDA-ядер | 24 | нет | 288 |
Xeon X7560/2,26 ГГц | 128 | 2000 | нет | 1 |
Коммуникационная и инженерная инфраструктура
Все вычислительные узлы установки и систему хранения данных связывает коммуникационная сеть QDR InfiniBand с пропускной способностью до 40 Гбит/с. В качестве дополнительных сетей используются 10-Gigabit Ethernet и Gigabit Ethernet, а также выделенные фирменные сети поддержки коллективных коммуникаций.
Системная сеть обеспечивает коммуникации между процессами параллельных приложений на вычислительных узлах при использовании протокола MPI, а также доступ служебных серверов и всех вычислительных узлов к параллельной файловой системе. Сеть (топология Клоса), построенная на базе технологии QDR InfiniBand, обеспечивает полную бисекционную пропускную способность.
Мифология суперкомпьютинга
Сегодня страна покинула задворки индустрии HPC — отечественные высокопроизводительные системы все чаще попадают в рейтинг Top500, а российская суперкомпьютерная отрасль совершила рывок вперед, что породило, вместе с тем, ряд мифов. Антон Корж |
Управляющая сеть обеспечивает коммуникации между всеми узлами вычислителя и служебными серверами по протоколам ssh, IPMI и iKVM. Она построена на базе технологий 10-Gigabit Ethernet и Gigabit Ethernet.
Сервисная сеть предоставляет инфраструктуру для управления вычислительными узлами, служебными серверами, коммутаторами управляющей сети, серверами системы хранения, основным хранилищем и хранилищем метаданных, а также серверами и коммутаторами кластера сбора статистики, серверами архивирования и ленточной библиотекой системы архивирования, кондиционерами климатической системы, источниками бесперебойного питания, водоохлаждающей машины. Сеть построена на базе стандартов семейства Ethernet и выполнена в виде независимых от управляющей сети сегментов Ethernet с маршрутизацией между ними.
Сеть барьерной синхронизации предназначена для повышения эффективности операций барьерной синхронизации во время выполнения параллельных приложений. Сеть глобальных прерываний служит для синхронизации прерываний ядра ОС, используемых для работы внутренних таймеров ядра ОС, на всех вычислительных узлах, подключенных к сети. Сети барьерной синхронизации и глобальных прерываний реализованы в виде отдельной коммуникационной инфраструктуры, отличной от системной, управляющей и сервисной сетей.
Система бесперебойного энергоснабжения суперкомпьютера «Ломоносов» состоит из двух модульных источников бесперебойного питания APC Symmetra MW 1600, подключаемых к автоматическим выключателям главного распределительного щита, и выходных распределительных щитов системы бесперебойного энергоснабжения (чистого электропитания). В состав системы энергоснабжения входят свинцово-кислотные необслуживаемые герметичные батареи Exide Marathon L H4 06/165, емкости которых в конце срока службы хватает для обеспечения автономной работы комплекса в течение 10 минут. Общая мощность системы энергоснабжения составляет 2800 кВт при уровне резервирования N+1.
Охлаждение вычислительного комплекса строится с использованием внутрирядных кондиционеров — шкафы с оборудованием размещаются в помещении машинного зала для образования «горячих» и «холодных» коридоров. Кондиционеры забирают нагретый воздух из «горячего» коридора и подают охлажденный в «холодный». В качестве хладоносителя в кондиционерах помещений вычислительного комплекса используется вода, емкость баков для которой рассчитана таким образом, чтобы запаса холодной воды в них было достаточно для охлаждения всего оборудования вычислительного комплекса в течение не менее 10 минут с последующим охлаждением критичного оборудования вычислительного комплекса в течение не менее 20 минут.
ПО и файловая система
Погоня за экзафлопсом
Суперкомпьютеры становятся все мощнее, но насколько создаваемые сейчас системы ориентированы на потребности конечного пользователя? Сергей Суков |
Для централизованного администрирования суперкомпьютера используется набор программных компонентов Clustrx компании «Т-Платформы», обеспечивающих управление ресурсами, мониторинг и функционирование сервисных узлов. Clustrx включает в себя: ОС на базе Linux (CentOS 6.1); ОС вычислительных узлов на базе Linux; набор оптимизированных математических библиотек и комплект средств разработки; систему мониторинга и управления вычислительным комплексом Clustrx Watch; систему автоматического отключения оборудования и систему управления ресурсами.
HPC: региональные особенности
Сегодня в разных регионах мира активизировались работы по эволюционным и инновационным направлениям развития суперкомпьютеров. О каких решениях идет речь и как обстоит ситуация с их реализацией в России? Виктор Горбунов, Георгий Елизаров, Леонид Эйсымонт |
Для решения широкого спектра прикладных задач на суперкомпьютере установлен ряд программных пакетов, таких как VASP, WIEN2k, Gaussian, CRYSTAL, MOLPRO, Turbomole, Accelrys Materials Studio, MesoProp, MOLCAS. Для разработки собственных приложений программисты могут использовать компиляторы языков Cи/C++/Фортран с поддержкой стандарта OpenMP: GCC, Intel ICC/IFORT, PathScale, PGI. В состав математических библиотек системного ПО вычислительного комплекса входят ScaLAPACK, ATLAS, IMKL, AMCL, BLAS, LAPACK, FFTW, оптимизированные под архитектуру вычислительных узлов на платформе x86, а также cuBLAS, cuFFT, MAGMA, cuSPARSE, CUSP, cuRAND, оптимизированные под GPU. В распоряжении пользователей имеются также средства отладки приложений: Intel VTune, Allinea DDT, RogueWavе TotalView и ThreadSpotter.
Многоуровневая система хранения данных суперкомпьютера состоит из трех частей. Быстрое хранилище (уровень 1) емкостью до 500 Тбайт предназначено для проведения расчетов, оно строится на основе параллельной файловой системы lustre и доступно со всех узлов (вычислительные узлы, узлы доступа и узлы компиляции). Основное хранилище (уровень 2) предназначено для хранения рабочих данных задач пользователей и доступно по NFS с узлов доступа и компиляции. Общий объем этого хранилища — 312 Тбайт. Хранилище архивных данных (уровень 3) размещается на ленте и имеет объем 580 Тбайт.
Задачи для «Ломоносова»
Среди задач, решаемых сегодня на суперкомпьютере, можно отметить следующие: проектирование новых материалов, оптимизация нефте- и газодобычи, моделирование полимерных систем нового поколения, проектирование бронежилетов, разработка методов информационной безопасности и др.
Совместной группой мехмата МГУ и ИПМ им. М. В. Келдыша РАН получены уникальные результаты по численному моделированию формирования и развития концевых вихрей на сверхзвуковых режимах. В этой задаче рассматриваются нестационарные течения, содержащие детали различного масштаба, причем счетная область достаточно велика, чтобы в ней «поместилась» вся головная ударная волна, формирующаяся на крыле летательного аппарата. В окрестности крыла необходимо иметь ячейки малого размера, чтобы правильно воспроизвести пограничный слой, толщина которого много меньше характерных размеров задачи в целом. На базе этой модели можно наблюдать процессы разного масштаба по времени: высокочастотные колебания на границе вихря и низкочастотные эволюции области взаимодействия в целом, однако для этого необходимо вести расчет с малым шагом по времени.
С участием специалистов Научно-образовательного центра «Поисков, разведки и разработки месторождений углеводородов» МГУ и российской компании «Геолаб» решается ряд задач обработки сейсмических данных. В частности, методом 3D SRME осуществляется подавление волн-помех, проводится построение глубинного изображения среды при помощи метода миграции в обратном времени — каждый из таких расчетов задействует несколько тысяч процессорных ядер.
На суперкомпьютере проводятся исследования уязвимости криптографических алгоритмов к различным атакам, в частности, ведутся работы по исследованию хеш-функций и разложению больших составных чисел на множители. Заключительные вычисления, приведшие к нахождению коллизии, выполнялись на графической части суперкомпьютера.
Сотрудники НИВЦ МГУ применяли суперкомпьютер для разработки нового противоопухолевого лекарства на основе ингибиторов урокиназы. За время разработки проведен молекулярный докинг (метод, позволяющий предсказать наиболее выгодную для образования устойчивого соединения ориентацию и положение одной молекулы по отношению к другой) около 1 млн молекул (расчеты по одной молекуле проводятся несколько часов на одном процессоре). В результате было отобрано более 100 соединений — кандидатов в новые ингибиторы урокиназы, часть из которых были синтезированы и проверены экспериментально.
Исследования, ведущиеся на химическом факультете МГУ, направлены на установление механизмов процессов релаксации возбужденных электронных состояний биологических хромофоров в фоторецепторных и флуоресцентных белках, лежащих в основе их функционирования. Для этого применяются современные комбинированные методы квантовой и молекулярной механики высокого уровня точности. Интерес к фотоактивным биомолекулярным системам обусловлен не только их несомненно важной биологической функцией, но и возможностью исследовать элементарные физико-химические процессы, такие как перенос электрона, протона, разрыв и образование химической связи, являющиеся скорость-определяющими в данных системах. Вычисления, проводимые на ресурсах «Ломоносова», позволили установить механизмы первичных процессов релаксации в функционировании фотоактивных биосистем.
Одним из направлений разработки препаратов для терапии болезни Альцгеймера сегодня является поиск нековалентных и слабых ковалентных ингибиторов холинэстераз. На поздних стадиях болезни Альцгеймера наблюдается резкое падение концентрации нейромедиатора ацетилхолина, что приводит к когнитивным нарушениям. Частичное ингибирование ацетилхолинэстеразы и бутирилхолинэстеразы позволяет поддержать когнитивную функцию у пациентов. В МГУ совместно с Институтом физиологически активных веществ РАН ведется поиск слабых ковалентных ингибиторов, при этом важной задачей является оценка прочности связи фосфорорганических соединений. Расчеты проводятся с использованием квантово-механических методов высокой точности, требующих больших вычислительных ресурсов.
Численное моделирование световых полей лазерных источников в рассеивающих средах представляет собой сложную и трудоемкую при расчетах задачу. В совместной работе физического факультета МГУ и Института оптики атмосферы (Томск) предложен подход к регуляризации данной задачи — на суперкомпьютере проведено численное моделирование светового поля лазерного маяка в тумане.
В МГТУ им. Баумана совместно с ООО «Тесис» выполнялся проект по исследованию пуска поршневого двигателя с применением перспективного вихревого турбостартера. С помощью комплекса FlowVision HPC на суперкомпьютере было проведено моделирование процессов течения газа и движения ротора в вихревой турбине системы двигатель-стартер. Вихревые турбины характеризуются сложным вихревым течением газа, особенности которого на данный момент еще слабо изучены.
Загрузка «Ломоносова»
Каждый день на суперкомпьютере выполняется в среднем около 700 вычислительных задач — очередь пользовательских заданий держится на уровне 150–200 задач. Примерно половина научных групп для выполнения расчетов используют прикладные пакеты, 61% использует технологию MPI, 21% — OpenMP, а 26% — их комбинацию. При этом для 71% пользователей принципиально важны вычисления над вещественными числами с двойной точностью.
Рис. 2а. Статистика по суперкомпьютеру «Чебышев» |
Рис. 2б. Статистика по суперкомпьютеру «Ломоносов» |
Примечательна статистика по количеству процессоров, используемых приложениями. Если посмотреть на рис. 2а, где показана статистика по суперкомпьютеру «Чебышев», то видно, что большинство пользователей запускают приложения, требующие до 64 процессоров, а по «Ломоносову» картина иная (рис. 2б). Больших задач, требующих серьезных вычислительных ресурсов, действительно много, а появление новых идей и моделей зависит, в частности, от инструментов, которыми располагают исследователи.
Владимир Воеводин, Сергей Жуматий, Сергей Соболев ({ voevodin, serg ,sergeys} @parallel.ru) — сотрудники НИВЦ МГУ им. М. В. Ломоносова (Москва).
Статья подготовлена на основе материалов доклада «Суперкомпьютерный комплекс МГУ: архитектура, пользователи, задачи» (А. С. Антонов, П. А. Брызгалов, Вад. В. Воеводин, Вл. В. Воеводин, С. А. Жуматий, Д. А. Никитенко, С. И. Соболев, К. С. Стефанов), предоставленного авторами оргкомитету III Московского суперкомпьютерного форума (МСКФ-2012, грант Российского фонда фундаментальных исследований 12-07-06085-г).