Вопреки интуитивному восприятию суперкомпьютера просто как большого вычислителя, основные трудности вызывает создание инфраструктуры, обеспечивающей его работу. Чем мощнее вычислитель, тем сложнее инфраструктура, тем аккуратнее нужно ее проектировать и тем все более заметную роль она играет во всем центре обработки данных. Сложность решения вопросов, связанных с подготовкой помещения, энергоснабжения, организацией систем охлаждения, пожаротушения, шумоизоляции и т.п., с увеличением масштаба центра нарастает экспоненциально.
Удивительно, но ситуацию в данной области обострил национальный проект «Образование»; в его рамках 57 российских вузов получили значительные бюджетные средства, часть из которых многие решили направить на создание собственных суперкомпьютерных центров. Опыта в этом деле у большинства вузов почти нет, задела еще мало, а суперкомпьютерной истории никакой, однако есть желание встать на суперкомпьютерный путь и двигаться в данном направлении. Никаких возражений здесь быть не может, да только при движении не следует забывать «законов жанра», а иначе отпущенные государством немалые средства будут потрачены впустую.
Для нас все началось с проектирования центра обработки данных НИВЦ МГУ на базе суперкомпьютерного комплекса СКИФ МГУ — история cоздания таких комплексов, как и реализации любого масштабного проекта, интересна и во многом поучительна, — однако здесь мы хотели бы обратить внимание лишь на одну, но принципиально важную его составляющую. Речь пойдет об инфраструктуре, необходимой для обеспечения нормальной работы любого ЦОД. Распространенность кластерных технологий создает иллюзию простоты и доступности суперкомпьютерных систем, что на практике часто оборачивается «неожиданными» проблемами и, как следствие, необходимостью серьезных дополнительных финансовых вложений.
Вычислительную часть суперкомпьютера СКИФ МГУ образуют 63 шасси T-Blade с формфактором 5U, каждое из которых содержит до 10 вычислительных узлов, что в сумме системе дает 625 вычислительных узлов, 1250 процессоров, 5000 процессорных ядер. В каждом вычислительном узле установлено по два процессора Intel E5472/3ГГц.
Поскольку прикладных задач заведомо будет много и все они имеют различную структуру, то вычислительное поле суперкомпьютера было сделано неоднородным и разбито на четыре секции. Основная часть вычислительных узлов — 529 узлов — являются бездисковыми и содержат по 8 Гбайт оперативной памяти, в 64 узлах установлено по 8 Гбайт оперативной памяти и одному локальному жесткому диску, а в 32 узлах — по 16 Гбайт оперативной памяти и одному диску. Для задач, особо чувствительных к недостатку памяти, была дополнительно включена секция из 8 двухпроцессорных узлов с 32 Гбайт памяти и локальным диском в каждом.
Все вычислительные узлы системы объединены тремя независимыми сетями. В качестве системной сети использована технология DDR InfiniBand с микросхемами компании Mellanox четвертого поколения. Данная сеть имеет топологию FatTree, построенную на коммутаторах SilverStorm 9120 (базовые) и Flextronix F-X430046 (листовые). Вычислительные узлы подключены к системной сети картами Mellanox MT25418. Латентность при взаимодействии узлов, в зависимости от их расположения друг относительно друга, лежит в интервале 1,3-1,95 мкс. Максимальная скорость передачи данных составляет 1540 Мбайт/с. Для вспомогательной сети использована Gigabit Ethernet, организованная с помощью коммутаторов Force10 C300 и Force10 S2410, а [I]управляющая сеть[$] опирается на разработку ИПС РАН — технологию ServNet.
Кроме вычислительных узлов предусмотрены две управляющие машины, каждая из которых включает по два процессора Intel X5365/3 ГГц, 32 Гбайт оперативной памяти и жесткий диск 600 Гбайт на базе RAID-контроллера LSI SAS1068E. Для поддержки эффективной работы с файлами и организации хранения данных пользователей в архитектуру включено распределенное отказоустойчивое сетевое хранилище T-Platforms ReadyStorage ActiveScale Cluster объемом 60 Тбайт, использующее технологии компании Panasas.
Данная архитектура закладывалась на стадии проекта и должна была обеспечить создание суперкомпьютерной установки, выполняющей расчет программ пользователей. А теперь посмотрим на проект с другой стороны и проанализируем, какие «вспомогательные» шаги потребовалось сделать для того, чтобы теорию перевести в практику. И хотя напрямую эти «вспомогательные» действия не связаны с организацией вычислений или хранением данных, все они составляют необходимую инфраструктуру проекта, без которой не будет нормально работать ни один сколько-нибудь заметный ЦОД.
Инфраструктура суперкомпьютерного комплекса
Проектирование суперкомпьютера началось примерно за год до запуска оборудования. Были сформулированы требования к комплексу в целом, среди которых основными стали:
-
достижение запланированных в проекте технологических параметров суперкомпьютера;
-
обеспечение стабильной круглосуточной работы всего комплекса;
-
интеграция суперкомпьютерного комплекса в существующую инфраструктуру НИВЦ МГУ;
-
обеспечение сохранности дорогостоящего оборудования.
Эти требования определили последовательность дальнейших действий. Был составлен детальный план состава вычислительного оборудования и на его основе произведен расчет необходимой мощности энергопотребления, производительности систем охлаждения и минимальной площади помещения. При детальной проработке плана стало понятно, что использовать найденное помещение для ЦОД оказалось сложно: большая площадь и потолки в два этажа здания — это в большинстве случаев очень хорошо с точки зрения отвода выделяющегося тепла, но плохо с точки зрения пожарной безопасности. В системах пожаротушения для компьютерного оборудования должен применяться специальный газ, но, чтобы заполнить большой объем помещения за требуемое время, его потребовалось бы столько, что и стоимость системы пожаротушения, и площади под хранение баллонов с газом превысили бы все разумные пределы.
Была найдена новая площадка, но возникла другая проблема — к ней нельзя было подвести одной линией требуемую электрическую мощность. Пришлось увеличить количество стоек с силовым оборудованием, менять проект и перепланировать размещение. Вариант компоновки суперкомпьютерного комплекса на данной площадке все же был найден, а дополнительный аргумент, что сразу за стеной на улице было место для размещения внешних холодильных установок, позволил поставить точку в вопросе выбора помещения.
Следующий серьезный шаг — ремонт помещения, выполненный с учетом специальных требований термоизоляции, жидкостного охлаждения суперкомпьютера, пожарной безопасности, герметичности, активной системы дымоудаления и требований физической безопасности. Очень важен подбор материалов, среди которых не должно быть электростатических, а в помещении не должны использоваться пылящие материалы либо же они должны быть покрыты специальной краской. Поскольку в соседних помещениях работают люди, то особое внимание было уделено шумоизоляции — в машинном зале СКИФ МГУ трудно находиться без наушников.
Для подготовки жидкостного охлаждения использовался фальшпол, что само по себе является стандартным решением, однако в нашем случае общий вес размещаемого в зале оборудования составляет 30 тонн, и с учетом выбранной компоновки и веса каждой конкретной стойки, фальшпол должен выдерживать нагрузку до тонны на квадратный метр. Поскольку отвод тепла осуществляется за пределы машинного зала, а температура жидкости в системе охлаждения ниже температуры в помещении, то трубы под фальшполом необходимо было тщательно теплоизолировать, чтобы избежать образования конденсата. Кроме того, для быстрого обнаружения возможных протечек охлаждающей жидкости в комплексе предусмотрены специальные датчики, а сантехнические коммуникации спроектированы так, что позволяют проводить локальный ремонт, не отключая систему жидкостного охлаждения целиком.
Весь проект построен на базе серверов-лезвий, что предполагает компактное размещение вычислительных узлов в стойке и означает высокое удельное энергопотребление (до 24 КВт на стойку) и тепловыделение. При столь значительной выделяемой тепловой мощности принципиально важным является аккуратное планирование размещения стоек с оборудованием и кондиционеров. С учетом небольших размеров зала площадью всего 98 кв. м был реализован вариант «горячего коридора». Все вычислительные шкафы ставятся в два ряда таким образом, чтобы горячий воздух выдувался в пространство между ними. Вычислительные шкафы чередуются со шкафами с кондиционерами. Пространство между этими двумя рядами изолируется от остального помещения, поэтому горячий воздух локализуется только внутри образовавшегося коридора, откуда он эффективно и удаляется кондиционерами.
На каждом этапе подготовки такого проекта нужно было учесть множество факторов. В частности, горячий поток воздуха может быть направлен на встречный горячий поток, равный по мощности, но не должен попадать на другое оборудование, например на коммутатор. Более того, коридор должен быть спланирован так, чтобы горячий воздух беспрепятственно выводился наружу без образования застойных зон и локального перегрева оборудования даже в случае выхода из строя одного из кондиционеров.
Для охлаждения оборудования в горячем коридоре была построена инфраструктура на базе восьми рядных кондиционеров APC InfraStruXure InRow RP ACR502. Дополнительно на прилегающей к машинному залу территории были расположены три внешние холодильные машины Liebert-Hiross SLH 023, работающие в режиме чередования.
Дублирование и резервирование оборудования — важный момент в построении ЦОД. Чем больше оборудования, тем больше вероятность выхода из строя отдельных компонентов, тем больше потенциальных точек отказа всего комплекса в целом, который в идеале должен стабильно работать в режиме 24х7. Все основные элементы СКИФ МГУ резервируются и обладают возможностью горячей замены. Системная сеть построена так, что выход из строя одного из коммутаторов, даже из числа центральных, не остановит работу кластера в целом. Охлаждающие шкафы установлены с избыточностью N+2, и выход из строя двух шкафов с кондиционерами позволит продолжить нормальную работу комплекса. Продублирован и управляющий узел суперкомпьютера. В силу специфики решаемых задач в проект не закладывалось дорогостоящее требование автоматически «перебрасывать» задачи и активные сессии пользователей на резервный узел в случае отказа основного, однако выбранное решение позволяет быстро восстанавливать работоспособность суперкомпьютера.
В проекте не ставилась задача обеспечения работы суперкомпьютерного комплекса в условиях длительного отсутствия внешнего питания, но была задача обезопасить ЦОД от кратковременных перебоев в энергоснабжении и обеспечить возможность корректного завершения работы в случае длительного обесточивания. Выбранный состав и параметры оборудования гарантируют 10 минут полностью автономной работы суперкомпьютера и всех элементов подсистемы охлаждения. Для организации подсистемы бесперебойного питания использовалось решение APC Symmetra PX и ISX Manager. В результате почти половина машинного зала оказалась занята подсистемой электроснабжения и бесперебойного электропитания. В целом же из 42 стоек суперкомпьютерного комплекса вычислительное поле и дисковая система хранения данных разместились в 14 стойках, а все остальные стойки заняты «вспомогательным» оборудованием. Потребляемая мощность вычислительной части суперкомпьютера равна 330 кВт. С учетом всей инфраструктуры потребление комплекса составляет 520 кВт, а в пике с учетом стартовых нагрузок потребление может доходить до 720 кВт.
Эффективное управление подобным комплексом требует специальных средств. К каждому вычислительному узлу СКИФ МГУ можно подключиться удаленно по протоколу IPMI. С помощью этого же протокола можно управлять и электропитанием узлов. Кроме IPMI, который зависит от работоспособности и загруженности сети Ethernet, в системе предусмотрена специализированная управляющая сеть ServNet, работающая автономно.
Для обеспечения сохранности информации на общем дисковом массиве в состав комплекса дополнительно включены ленточная библиотека Quantum Scalar i500 и специальный сервер, выделенные для резервного копирования. Такое решение позволяет держать копии данных, которые могут быть потеряны в результате неосторожного удаления или случайной ошибки, а также хранить резервные копии удаленно от самого кластера.
Вопрос первостепенной важности — это развитая система мониторинга, оповещения и автоматического отключения суперкомпьютерного комплекса. При возникновении любых нештатных ситуаций обслуживающий персонал должен быть немедленно оповещен, а в экстренных случаях работа кластера должна быть автоматически остановлена. Постоянный контроль за множеством датчиков температуры, влажности, протечки охлаждающей жидкости, исправностью системы контроля климата, качеством электроснабжения — все это, как и многое другое, ложится на систему мониторинга. Таких систем две — одна разработана в НИВЦ МГУ, а вторая поставляется вместе с ServNet-IPMI.
Нужны ли большие суперкомпьютерные центры?
Подобный вопрос напрашивается сам собой. Если с ростом размеров вычислительных систем сопутствующие проблемы нарастают экспоненциально, то стоит ли их вообще создавать? Не проще ли вместо одного суперкомпьютера на 100 TFLOPS расставить в разных местах 20 небольших систем? Ответ — проще, но не лучше. В любом государстве, делающем ставку на развитие высокотехнологичных отраслей национальной экономики, должны быть вычислительные системы рекордной производительности, составляющие основу инфраструктуры и являющиеся показателем уровня развития суперкомпьютерных технологий в целом. Суперкомпьютерные системы — это доступ к технологиям, это собственная экспертиза в самых разных областях, это национальная безопасность.
Действительно, создание в 2002 году суперкомпьютера NEC Earth Simulator на 40 TFLOPS обошлось в 300 млн долл. Затем для поддержки работ в данном направлении был заключен контракт на его модернизацию до уровня в 131 TFLOPS, а сегодня полным ходом идет одновременное строительство вычислительных систем с производительностью 60-120 TFLOPS сразу в нескольких японских университетах и научных институтах. И еще год назад правительство Японии в альянсе с ведущими национальными ИТ-компаниями NEC, Fujitsu и Hitachi анонсировало новый национальный проект — создание к 2011 году суперкомпьютера мощностью 10 PFLOPS.
Большие системы, по существу, задают планку и определяют степень развития всей суперкомпьютерной пирамиды, состоящей из парка систем меньшей мощности, которые сегодня востребованы в самых разных областях. Виртуальная аэродинамическая труба. Виртуальный атомный реактор. Виртуальное освоение нефтегазового месторождения. Виртуальная лаборатория по исследованию свойств материалов. По такому же пути идет развитие работ и вокруг СКИФ МГУ. n
Владимир Воеводин (voevodin@parallel.ru ) — член-корреспондент РАН, заместитель директора НИВЦ МГУ.
Сергей Жуматий (serg@parallel.ru ) — старший научный сотрудник НИВЦ МГУ.
Разные ипостаси СКИФ http://www.osp.ru/os/2008/04/5114980