«У нас в компании существовало правило: ни один из проектов никогда не включал в себя целых три выдающихся решения, — заявил генеральный директор Nvidia Джен-Сан Хуанг на конференции GTC Conference, только что прошедшей в Сан-Хосе. — А между тем Tesla P100 претендует сразу на пять таких чудес».
И действительно, новый графический модуль Nvidia, предназначенный для крупномасштабных ЦОД, кажется буквально сошедшим с небес. Количество транзисторов в нем вдвое превышает число транзисторов в графических процессорах Maxwell нынешнего поколения. И хотя отсутствие новостей о потребительских графических платах, построенных на его основе, несколько разочаровало участников GTC, первый продукт на базе графической архитектуры Pascal казался настолько фантастическим, что все проявления недовольства утихли практически мгновенно.
Продукт Tesla P100 поддерживает целый ряд самых современных решений, начиная от 16-нанометровых транзисторов FinFET (а ведь целых четыре года производители процессоров никак не могли уйти от нормы проектирования 28 нм) и заканчивая высокоскоростной технологией памяти (HBM, high-bandwidth memory) второго поколения, новой графической архитектурой Nvidia Pascal и потрясающей шиной Nvidia NVLink. Мы перечислили четыре чуда, которые все вместе поддерживают пятое — передовые алгоритмы глубинного обучения с использованием методов искусственного интеллекта.
«Вот как много технологических новинок вобрал в себя наш очередной продукт», — подвел итог Хуанг.
Появление графической архитектуры Pascal, которую Nvidia уже на протяжении двух лет сулит потребителям, помогло осуществить долгожданный переход к 16-нанометровой транзисторной технологии и разместить на чипе площадью 600 квадратных миллиметров 15 млрд транзисторов. «Если бы я взял его в руки прямо сейчас, вы могли бы увидеть это с задних рядов», — пошутил Хуанг.
Число транзисторов, которых в процессорах Maxwell насчитывалось 5 млрд, увеличилось более чем вдвое. Производительность Tesla P100 составляет 5,3 TFLOPS при выполнении операций двойной точности и 10,6 TFLOPS при выполнении операций одинарной точности. Для сравнения, процессор Titan X при выполнении операций одинарной точности демонстрирует производительность на уровне 7 TFLOPS.
Джен-Сан Хуанг: «Вот как много технологических новинок вобрал в себя наш очередной продукт» |
Процессорный кристалл без учета всех прочих компонентов имеет площадь 600 квадратных миллиметров, и это, по-видимому, не случайно. Ведь площадь процессоров AMD Fiji старшего класса составляет 596 квадратных миллиметров. Процессор Tesla P100 позаимствовал у Fiji и 16 Гбайт сверхбыстрой памяти HBM второго поколения, дебютировавшей в графической плате Radeon Fury X. И если процессоры Nvidia Maxwell подключались к памяти через 384-разрядную шину, то обмен данными между памятью и чипом Tesla P100 осуществляется с помощью шины, насчитывающей 4 тыс. проводников. В общей же сложности модуль объединяет свыше 15 млрд транзисторов. Впечатляющие цифры.
Однако и это еще не все! Tesla P100 поддерживает новую шину Nvidia NVLink, благодаря которой графические модули обмениваются данными друг с другом и с центральными процессорами в пять раз быстрее по сравнению со стандартным соединением PCIe. Теперь вы сможете пригласить больше друзей: шина NVLink позволяет подключить до восьми графических процессоров, в то время как PCIe — только четыре.
В прошлом году Хуанг уже обещал десятикратное превосходство систем с графическими процессорами Pascal над системами на базе Maxwell. На поверку же выигрыш оказался еще более существенным. С учетом NVLink, оптимизации Pascal, HBM2 и увеличения числа транзисторов на чипе, речь может идти о 12-кратном росте быстродействия, заявил Хуанг. Таким образом, задачи, на которые Maxwell тратит 25 часов, на компьютере с чипом Pascal могут быть решены всего за два часа.
Ну, разве это не чудо? Производство процессоров Nvidia Tesla P100 в промышленных объемах уже началось. Но первые партии серверов, построенных на базе этих процессоров, должны появиться лишь в первом квартале 2017 года, что объясняется необходимостью адаптировать системные решения производителей серверов к особенностям, связанным с HBM.
«Dell, Hewlett Packard Enterprise, Cray и IBM начнут принимать заказы на серверы с процессорами Tesla P100 в четвертом квартале нынешнего года, — заявил Хуанг. — А поставки серверов начнутся в первом квартале следующего».