В компании Nvidia заявили о значительном повышении пропускной способности операций чтения и записи систем хранения данных, основанных на сетевой платформы Spectrum-X Ethernet.

В состав Spectrum-X Ethernet входят коммутатор Spectrum-4 SN5000 с 64 портами 800 Гбит/с и суммарной производительностью до 51,2 Тбит/с, а также интеллектуальная сетевая карта BlueField-3 SuperNIC, которая поддерживает протокол удаленного прямого доступа в память (RDMA) в конвергентной сети Ethernet — RoCE v2.

В Nvidia пояснили, что для адаптивной маршрутизации и управления перегрузками используют расширения протокола RoCE. Это позволяет снижать перегрузки или обходить участки сбоев, направляя пакеты данных по наиболее свободным сетевым маршрутам.

Пакеты могут прибывать в пункты назначения не по порядку, но карта BlueField-3 SuperNIC или блок обработки данных конечного узла позволяют правильно их собрать, в то время как в подобной ситуации в традиционной сети Ethernet потребуется повторная передача многих пакетов, утверждают в сообщении компании.

Поскольку адаптивная маршрутизация способна повысить эффективность использования полосы пропускания, производительность систем хранения данных становится намного выше, чем при стандартной версии протокола RoCE v2; это очень важно для больших языковых моделей, где нужно перемещать терабайты данных и эффективно загружать графические процессоры.

В Nvidia проверили работу Spectrum-4 в рамках своего суперкомпьютера Israel-1. В процессе тестирования измерялась пропускная способность операций чтения и записи при обращении к системе хранения данных клиентов серверной платформы Nvidia HGX H100 GPU. Сравнивались результаты работы с сетью, поддерживающей стандартную версию RoCE v2, и полученные с адаптивной маршрутизацией и контролем перегрузок, осуществляемых платформой Spectrum-X. Пропускная способность чтения улучшалась от 20% до 48%, записи – от 9% до 41%.

Другим методом повышения эффективности является создание контрольных точек, при котором состояние задания периодически сохраняется в процессе его обработки. При сбое обучения моделей задание можно перезапустить, используя сохраненное состояние контрольной точки, а не начинать все сначала.