«Сегодня нам нужно активнее искать пути продления срока действия закона Мура», — заявил на открытии GPU Technology Conference генеральный директор Nvidia Джен-Сан Хуанг. Впрочем, никаких колебаний в этом отношении у Nvidia и не наблюдается. Компания регулярно представляет новые аппаратные решения, делая свои и без того мощные графические процессоры еще более быстрыми. Еще одним подтверждением этого стало появление первого продукта с графической архитектурой следующего поколения Nvidia Volta.
Процессоры старшего класса Nvidia Pascal по-прежнему доминируют в графическом мире, хотя на конец июня компанией AMD уже запланирован выпуск конкурирующего графического процессора Radeon Vega. Процессор Volta должен помочь Nvidia перехватить инициативу у AMD еще до того, как Vega появится на прилавках магазинов. Несмотря даже на то что ее графический процессор Tesla V100 ориентирован на ЦОД.
Могучий — как по размерам, так и по функциональным возможностям — графический процессор может похвастаться наличием 21 млрд транзисторов и 5120 ядер CUDA, работающих на частоте 1455 МГц. Ядра изготовлены по самому современному 12-нанометровому технологическому процессу, который ранее еще не использовался Nvidia. Для сравнения, сегодняшний флагманский графический процессор с архитектурой Pascal — 14-нанометровый Tesla P100 имеет 3840 ядер CUDA и 15 млрд транзисторов. А GeForce GTX 1060 обладает лишь четвертью того запаса ядер CUDA, которым располагает Tesla V100. Здесь их всего лишь 1280.
Графическое ядро Volta в Tesla V100 занимает площадь 815 кв. мм, тогда как у Tesla P100 она составляет 600 кв. мм. Настоящий монстр!
«Volta находится практически на пределе возможностей фотолитографии», — заявил Хуанг. Научно-исследовательский бюджет этого проекта превысил 3 млрд долл.
Графическое ядро Volta в Tesla V100 занимает площадь 815 кв. мм — настоящий монстр! Источник: Nvidia |
Микропроцессорная потоковая архитектура Volta была полностью переработана и стала на 50% эффективнее по сравнению с Pascal. Весьма впечатляющее достижение. По словам представителей Nvidia, это обеспечивает заметное увеличение производительности FP32 и FP64 при том же энергопакете. Кроме того, в Tesla V100 появились новые «тензорные ядра», создававшиеся специально для глубинного обучения и обеспечивающие 12-кратное превосходство над терафлопсным Tesla P100 на базе Pascal. (В оборудование тензорной обработки инвестировала и компания Google.)
Пиковая производительность Tesla V100 составляет:
• 7,5 TFLOPS при выполнении операций с плавающей запятой двойной точности (FP64);
• 15 TFLOPS при выполнении операций с плавающей запятой одинарной точности (FP32);
• 120 «тензорных» TFLOPS при матричном умножении смешанной точности.
Для быстрой обработки данных в Tesla V100 используется 16 Гбайт сверхбыстрой 4096-разрядной памяти с повышенной пропускной способностью. Будут ли графические платы потребительского класса на базе Volta оснащаться памятью HBM2, пока неизвестно. У Radeon Vega такая возможность присутствует, но технология эта относительно новая и весьма дорогостоящая.
Память HBM2 обладает пропускной способностью 900 Гбайт/с, а Tesla V100 поддерживает второе поколение технологии Nvidia NVLink. При скорости передачи данных 300 Гбит/с NVLink обеспечивает в 10 раз более высокую пропускную способность по сравнению со стандартными соединениями PCIe.
Первое знакомство с Volta позволяет получить представление о возможностях графических плат Nvidia GeForce следующего поколения. Напомню, что компания Nvidia представила графический процессор Pascal на конференции GTC 2016 в виде Tesla P100, и эта полнофункциональная версия в конечном итоге уменьшилась до варианта Titan Xp, а вслед за этим появилась плата GeForce GTX 1080 Ti. Правда, огромные размеры графического процессора Tesla V100 и его четкая ориентация на машинное обучение заставляют усомниться в том, что то же самое произойдет и с Volta.