HBM3: «Автобан» для суперкомпьютеров и искусственного интеллекта

Память High-Bandwidth Memory (HBM), которая, в отличие от многих инкрементальных усовершенствований в мире ИТ, стала реальным скачком вперед, постепенно находит применение в системах высокопроизводительных вычислений и искусственного интеллекта.

HBM создали компании AMD и Hynix. Разработка началась в 2008 году, а в 2013-м спецификация была передана для стандартизации консорциуму JEDEC. В январе 2022 года был утвержден стандарт на третье поколение памяти нового типа, HBM3. Основные производители чипов HBM — Samsung, SK Hynix и Micron Technology.

HBM создали с расчетом на избавление от недостатков динамической оперативной памяти, которая отстает по быстродействию от центральных и графических процессоров. Ширина шины DRAM — от 4 от 32 разрядов, тогда как у HBM она 1024 разряда, за счет чего обеспечивается на порядки более высокая пропускная способность: память HBM можно сравнить со скоростной автомагистралью с большим количеством полос.

Кроме того, чипы HBM гораздо более компактные: если площадь кристалла микросхемы GDDR емкостью 1 Гбайт — 672 кв. мм, то чип HBM занимает в 19 раз меньше. HBM — «многоэтажная» память, содержащая до 12 слоев, соединенных друг с другом через сквозные отверстия (Through-Silicon Via, TSV): такая конструкция существенно уменьшает затраты времени на внутренний обмен данными. HBM можно разместить на одной подложке с процессором, что позволяет отказаться от модулей DIMM. По производительности память DDR может быть не хуже HBM, но при использовании большого количества модулей DIMM с DDR энергоэффективность и быстродействие будут далеки от оптимальных.

Первой HBM воспользовалась компания Fujitsu — в процессоре архитектуры ARM для высокопроизводительных вычислений. Суперкомпьютер Fugaku на базе этого чипа, построенный в 2020 году, попал в первые строчки списка самых быстрых систем мира Top500 и с тех пор удерживает позиции в нем. AMD задействовала HBM2 в ускорителе Instinct MI250X, а в Intel собираются воспользоваться HBM в некоторых процессорах Xeon серии Sapphire Rapids и графическом ускорителе корпоративного класса Ponte Vecchio. Графический процессор Nvidia Hopper, предназначенный для ускорения задач машинного обучения, получит память HBM3.

Чтобы воспользоваться преимуществами HBM, может понадобиться переработка программного обеспечения, если изначально оно было написано с привязкой к уровню задержки, возникающей при обращении к памяти конкретного типа. Без доработки ускорение будет незначительным, обусловленным только разницей в задержке между HBM и исходным видом памяти. Если же приложение создавалось с привязкой к пропускной способности памяти, переработка не нужна — HBM обеспечит максимально возможное для себя ускорение. Кроме того, если в системе с HBM одновременно выполняется много приложений, она в любом случае будет работать быстрее обычной благодаря повышению общей скорости обмена данными с памятью.

Стоит также отметить, что полноценное использование преимуществ HBM возможно на чипах архитектуры SIMD (single-instruction, multiple data - «одиночный поток команд, множественный поток данных»), которой соответствуют графические процессоры, но не центральные, так что ПО, написанное для процессоров x86 или AMD, при переносе на HBM-систему придется перерабатывать.

Попадет ли HBM в компьютеры для массового пользователя, учитывая, что эта память стоит примерно вдвое дороже, чем DDR5? Пока что, по-видимому, нет, особенно учитывая проблему охлаждения — поскольку память встроена в процессор, ему понадобится гораздо более мощная и сложная система отвода тепла.

HBM3: «Автобан» для суперкомпьютеров и искусственного интеллекта

Коммуникационные сервисы и эпоха перемен