Компания «Троник», специализирующая на сборке высокопроизводительных кластерных систем, официально выступила в поддержку процессорных технологий AMD. В «Тронике» использовались четырехъядерные процессоры AMD в суперкомпьютере, который в начале июля был введен в техническую эксплуатацию в Пермском государственном техническом университете. А 26 августа «Троник» и московский Научно-исследовательский центр электронной вычислительной техники (НИЦЭВТ), в здании которого разместился центр компетенции кластерных технологий «Троника», обнародовали результаты проведенного ими тестирования, которое продемонстрировало превосходство AMD по масштабируемости многоядерных процессоров.
Специалисты НИЦЭВТ протестировали платы с четырьмя четырехъядерными процессорами AMD Opteron 2350 (Barcelona) и платы с двумя четырехъядерными процессорами Intel Clovertown. Задача стояла в определении их толерантности к задержкам обращений к памяти и коммуникационной сети, что позволяет выявить влияние параллелизма обращений на пропускную способность системы.
С помощью теста STREAM была измерена толерантность при регулярных обращениях к памяти. Увеличение количества ядер на узле с микропроцессором Clovertown с одного до восьми практически не повлияло на пропускную способность. При операции копирования она увеличилась с 3230 Мбайт/с до 3374 Мбайт/с. В узле с микропроцессором Barcelona на той же операции пропускная способность выросла с 3563 Мбайт/с до 13270 Мбайт/с на восьми ядрах и до 17195 Мбайт/с — на шестнадцати.
Интенсивные нерегулярные обращения к памяти, типичные для современных вычислений, по словам начальника отдела «Архитектура и программное обеспечение суперкомпьютеров» НИЦЭВТ Леонида Эйсымонта, в разы снижают производительность суперкомпьютера. Как показало проведенное тестирование, задержка при нерегулярных обращениях к памяти с одним «потоком команд», или «тредом» (от английского thread) на Clovertown составила 300 тактов, а на Barcelona — 350. На 16 тредах показатели обоих процессоров оказались практическими равными — чуть более 70 тактов. На 64 тредах результат Clovertown не изменился, а задержка на Barcelona уменьшилась до 47 тактов.
В тесте на толерантность при выполнении операций с коммуникационной сетью также первенствовали процессоры AMD. Исследовалась зависимость пропускной способности от длины сообщений, которыми обмениваются узлы. При длине сообщения 4194304 байт пропускная способность Barcelona варьировалась от 1000 Мбайт/с на одноядерных узлах до 3500 Мбайт/с на восьмиядерных. На шестнадцатиядерных узлах показатель оказался ниже — 2500 Мбайт/с. В аналогичных условиях пропускная способность на Clovertown достигла чуть более 1200 Мбайт/с на одноядерных узлах и 1600 Мбайт/с — на восьмиядерных. Эйсымонт отметил, что, учитывая такие показатели, НИЦЭВТ может использовать плату AMD для тестирования мультитредового программного обеспечения нового поколения, которое будет разрабатываться центром в рамках создания суперкомпьютера стратегического назначения «Ангара».
Тревожными Эйсымонт назвал результаты по обоим процессорам, полученные при определении сбалансированности систем. Сбалансированность памяти и вычислительных мощностей (отношение пропускной способности на тесте STREAM к пиковой производительности процессоров) для Clovertown/2,3 Ггц составила 0,027, а для Barcelona — 0,134. Сбалансированность сети и вычислительных мощностей — 0,017 для Clovertown/3 Ггц и 0,058 — для Barcelona. Тем не менее, такие показатели Эйсымонт назвал типичными для многоядерных процессоров. Безоговорочными лидерами по сбалансированности на сегодня остаются процессоры Cray: в Cray X1 она достигает 1,65 по памяти и 0,899 по сети.
Как подытожил результаты проведенного тестирования технический директор «Троник» Михаил Полунин, превосходство AMD Opteron над Intel Xeon проявляется начиная примерно с шести ядер.
Кластер в ПГТУ, созданный совместно с компанией «Саровские суперкомпьютерные технологии», стал первым отечественным суперкомпьютером, построенным на четырехъядерном AMD Opteron. Его пиковая производительность составляет 4,1 GFLOPS, а производительность на тесте Linpack — 3,2 GFLOPS. Кластер состоит из 64 вычислительных узлов, построенных на платформе Supermicro Twin, в каждом из которых находится по два процессора Barcelona, а также оперативная память 8 Гбайт. Объем дисковой подсистемы — 12 Тбайт.