АВТОНОМНОСТЬ СЕРВЕРНЫХ МОДУЛЕЙ «РСК Торнадо» облегчает задачу физического масштабирования Источник: Intel |
Жидкостное охлаждение компонентов вычислительных систем эффективнее воздушного, это очевидно: теплоемкость воды в 3500 раз больше, чем воздуха, следовательно, меньше потерь на транспортировку этого теплоносителя, плюс к тому воду можно подавать непосредственно к греющимся узлам, а не гонять, как воздух, по всей стойке. Со времен мэйнфреймов известны примеры создания машин с водяным охлаждением, есть отдельные попытки и сегодня, но все же в массе превалирует воздушное. Эту традицию решили нарушить в компании РСК при создании продуктовой линейки энергоэффективных и компактных ЦОД «РСК Торнадо». Группа специалистов, имеющих опыт решения аналогичных задач в авиационном приборостроении, смогла распространить его на охлаждение стандартных серверов-лезвий. О том, как именно это было сделано, рассказал на недавнем форуме «Мир ЦОД 2012», организованном издательством «Открытые системы», технический директор компании «РСК Технологии» Егор Дружинин.
Из разных возможных схем был выбран вариант «на горячей воде», как не требующий использования промежуточных фреоновых систем; в этом случае вода из стойки поступает непосредственно в чиллер или в градирню. На первый взгляд идея реализации охлаждения на самой плате, предложенная инженерами из «РСК Технологий», не столь сложна, особенно потому, что она не требует никаких переделок тех компонентов, из которых обычно собирают стойку. Проектирование системы охлаждения начинается с построения трехмерной модели стандартного сервера-лезвия, далее по ней изготавливается накрывающая ее алюминиевая, зеркальная по конфигурации плата со встроенными каналами для подачи воды. Эта плата отбирает тепло, и сервер становится самодостаточным, стойка в целом не нуждается в дополнительном охлаждении. Остается подключить сервер к той или иной системе теплообмена.
Автономность серверов облегчает задачу физического масштабирования. В данный момент семейство «РСК Торнадо» состоит из трех членов, отличающихся конструктивным исполнением. МикроЦОД занимает часть стойки, он комплектуется вычислительными узлами числом от 16 до 64 со всеми необходимыми инфраструктурными элементами (подсистемы электропитания, охлаждения и коммуникации, а также управляющий сервер и средства индикации). Мини-ЦОД размещается в одной или двух стойках, но число вычислительных узлов варьируется в диапазоне от 64 до 256, номенклатура инфраструктурных элементов та же, но они отличаются по мощности, такие системы установлены в МФТИ и Росгидромете. При установке 96 процессоров Intel Xeon E5-2690 (1536 ядер) и коммуникационной сети InfiniВand QDR достигается производительность 35 TFLOPS, при этом общая занимаемая площадь менее 2 кв. м и в помещении не требуется кондиционирования. Полнофункциональный ЦОД, наподобие того, что установлен в ЮУрГУ, включает еще и систему хранения и может размещаться в нескольких стойках, а его производительность может достигать петафлопсных величин.
Можно говорить о нескольких основных преимуществах предложенной схемы охлаждения. Во-первых, это «холодные» процессоры, их температура не превышает 60-65 °С, поэтому они могут постоянно работать в ускоренном режиме Turbo Boost без всякого ущерба для себя, то есть частота работы может быть повышена более чем на 10%, с 2900 до 3300 ГГц. При воздушном охлаждении турбирование допустимо только на короткий промежуток времени, до исчерпания температурной инерции радиаторов, иначе возможен перегрев. Второе — тот факт, что каждый из серверов снабжен автономным охлаждением, позволяет использовать самые мощные версии процессоров и набивать ими стойки с рекордной емкостью, это повышает производительность на единицу площади. Производительность — важный фактор, но болеет существенно сокращение энергопотребления.
У «РСК Торнадо» рекордно низкое отношение общего энергопотребления к полезному — коэффициент PUE (Power Esage Effectiveness). Так, потребление энергии серверами в случае Росгидромета составляет 40,6 кВт, а потребление служебными подсистемами — 2,8 кВт, что в результате дает показатель ниже 1,06. C подобным PUE «РСК Торнадо» входит в четверку мировых лидеров, пропустив вперед Intel и две японские компании. По данным Uptime Institute, типичным PUE для ЦОД является 2,3-2,5, а результат равный 1,6 считается выдающимся. Близкие по показателям PUE компьютеры выпускает компания Eurotech; совместно с консорциумом Aurora Science она производит высокопроизводительный компьютер Aurora с охлаждением на горячей воде и межсоединением на трехмерном торе и InfiniВand.