«У нас в компании существовало правило: ни один из проектов никогда не включал в себя целых три выдающихся решения, – заявил генеральный директор Nvidia Джен-Сан Хуанг на конференции GTC, только что прошедшей в Сан-Хосе. – А между тем, Tesla P100 претендует сразу на пять таких чудес».
И действительно, новый графический модуль Nvidia, предназначенный для крупномасштабных ЦОД, кажется буквально сошедшим с небес. Количество транзисторов в нем в два раза превышает число транзисторов в графических процессорах Maxwell нынешнего поколения. И хотя отсутствие новостей о потребительских графических платах, построенных на его основе, несколько разочаровало участников конференции GTC, первый продукт на базе графической архитектуры Pascal казался настолько фантастическим, что все проявления недовольства утихли практически мгновенно.
Продукт Tesla P100 поддерживает целый ряд самых современных решений, начиная от 16-нанометровых транзисторов FinFET (а ведь целых четыре года производители процессоров никак не могли уйти от нормы проектирования 28 нм) и заканчивая высокоскоростной технологией памяти (high-bandwidth memory, HBM) второго поколения, новой графической архитектурой Nvidia Pascal и потрясающей шиной Nvidia NVLink. Мы перечислили четыре чуда, которые все вместе поддерживают пятое – передовые алгоритмы обучения с использованием методов искусственного интеллекта.
«Вот как много технологических новинок вобрал в себя наш очередной продукт», – подвел итог Хуанг.
Появление графической архитектуры Pascal, которую Nvidia уже на протяжении двух лет сулит потребителям, помогло осуществить долгожданный переход к 16-нанометровой транзисторной технологии и разместить на чипе площадью 600 квадратных миллиметров 15 млрд транзисторов. «Если бы я взял его в руки прямо сейчас, вы могли бы увидеть это с задних рядов», – пошутил Хуанг.
Число транзисторов, которых в процессорах Maxwell насчитывалось 5 млрд, увеличилось более, чем вдвое. Производительность Tesla P100 составляет 5,3 TFLOPS при выполнении операций двойной точности и 10,6 TFLOPS при выполнении операций одинарной точности. Для сравнения, процессор Titan X при выполнении операций одинарной точности демонстрирует производительность на уровне 7 TFLOPS.
Процессорный кристалл без учета всех прочих компонентов имеет площадь 600 квадратных миллиметров, и это, по-видимому, не случайно. Ведь площадь процессоров AMD Fiji старшего класса составляет 596 квадратных миллиметров. Процессор Tesla P100 позаимствовал у Fiji и еще один компонент: 16 Гбайт сверхбыстрой памяти HBM второго поколения, дебютировавшей в графической плате Radeon Fury X. И если процессоры Nvidia Maxwell подключались к памяти через 384-разрядную шину, то обмен данными между памятью и чипом Tesla P100 осуществляется с помощью шины, насчитывающей 4 тыс. проводников. В общей же сложности модуль объединяет свыше 15 млрд транзисторов. Впечатляющие цифры.
Однако и это еще не все! Tesla P100 поддерживает новую шину Nvidia NVLink, благодаря которой графические модули обмениваются данными друг с другом и с центральными процессорами в пять раз быстрее по сравнению со стандартным соединением PCIe. Теперь вы сможете пригласить больше друзей: шина NVLink позволяет подключить до восьми графических процессоров, в то время как PCIe – только четыре.
В прошлом году Хуанг уже обещал десятикратное превосходство систем с графическими процессорами Pascal над системами на базе Maxwell. На поверку же выигрыш оказался еще более существенным. С учетом NVLink, оптимизации Pascal, HBM2 и увеличения числа транзисторов на чипе, Хуанг заявил, что речь может идти о 12-кратном росте быстродействия. Таким образом, задачи, на которые Maxwell тратит 25 часов, на компьютере с чипом Pascal могут быть решены всего за два часа.
Ну, разве это не чудо? Производство процессоров Nvidia Tesla P100 в промышленных объемах уже началось. Но первые партии серверов, построенных на базе этих процессоров, должны появиться лишь в первом квартале 2017 года, что объясняется необходимостью адаптировать архитектуру компьютеров в соответствии с требованиями HBM.
Ожидается, что выпуск графических плат потребительского класса с новыми процессорами будет налажен в ближайшие месяцы. Пока же мы имели возможность взглянуть на плату Nvidia Drive PX2 для умных автомобилей, на которой были установлены два «еще не анонсированных», по словам Хуанга, процессора.