Сегодня наблюдаются тектонические сдвиги в области проблемно-ориентированных вычислителей [1–2] — появились и активно адаптируются к массовым задачам аппаратные функциональные акселераторы: IPU (Intelligence Processing Unit) и DPU (Dataflow Processing Unit), которые стали «наконечником стрелы» наступающей эпохи аппаратных архитектур, в которых конфигурация решения собирается из модульных систем со специализированными средствами аппаратной акселерации, вычислительным ядром на энергоэффективных решениях, а в состав оборудования входит программно-конфигурируемый слой для горизонтального масштабирования нагрузок. К управлению критичными для бизнеса инфраструктурами все шире привлекают искусственный интеллект, и, как следствие, ИИ-чипы входят в состав IPU/DPU, что выводит задачи ИИ за рамки решения задач оптимизации нагрузок для решения прикладных задач, одновременно расширяя специализацию собственно чипов, пригодных для исполнения и обучения ИИ. Разработчики экспериментируют сегодня не только с различными полупроводниковыми топологиями, выпуская новые системы на кристалле, но и с топологиями микросхем на иных физических принципах — на основе фотонов и аналоговых элементов.
Массовое применение глубинных нейронных сетей, недостаточная производительность, высокая энергоемкость и стоимость связки CPU/GPU, а также эволюция решений по виртуализации сетевых и других инфраструктурных функций на отдельных специализированных вычислителях привели к массовому привлечению ИИ для решения задач управления критической инфраструктурой, структурированию набора типовых вычислительных задач и изменению ландшафта вычислительного периметра, потребовавших перехода к архитектуре бессерверных вычислений и гиперскейлеров [1].
В ответ на эти возможности и в ожидании массового спроса появились новые проекты и новые имена в области разработки чипов, что вызвало коррекцию профиля компании-разработчика чипов. Узкое профессиональное сообщество известных гигантов-разработчиков (Intel, AMD, Nvidia, Samsung) пополнилось компаниями-гиперскейлерами, чей бизнес основан на мобилизации и продаже вычислительных мощностей: Amazon, Google, Microsoft, Alibaba и др. Сообщество разработчиков чипов пополнилось множеством компаний меньшего калибра и стартапами. Все это создало предпосылки к смене состава лидеров по мере того, как новые специализации чипов получают массовый спрос со стороны облачных и киберфизических систем. Стоит отметить, что гиперскейлеры, в отличие от других компаний, разрабатывают и продают решения только в составе собственных облачных сервисов, однако их решения воспринимаются как ориентир для индустрии, побуждая разработчиков чипов и аппаратных решений выпускать подобные решения для открытого рынка.
Глобализация рынков, высокая сложность и капиталоемкость производства современных чипов привели к мировой системе разделения труда: создатели чипов (fabless-компании) могут находиться где угодно, но контрактное производство кристаллов пока сосредоточено лишь в Азии. Так, на Тайване находится компания TSMC — крупнейший в мире и технологически передовой контрактный производитель полупроводниковых микросхем, освоившая технологию 5 нм и занимающая более 60% рынка производства микросхем в мире. Подобная концентрация в одной точке контрактного производства имеет экономическое преимущество — низкую стоимость микросхем, но одновременно порождает риск сбоев в логистике в условиях быстро растущего спроса.
Двигателем прогресса в области разработки новых топологий ИИ-чипов являются четко определенные типовые вычислительные задачи, формирующие стабильный набор требований к оборудованию (Таблица 1). Как следствие, появились специализированные архитектуры систем на кристалле (SoC) или системы на модуле (SoM), а также произошла адаптация программно-технологического стека, подстраиваемого под новые возможности вычислителей.
Углубление специализации оборудования под вычислительные задачи означает следующий шаг к разделению ИИ-задач на прикладные и инфраструктурные с дальнейшей унификацией механизмов их реализации [3, 4] (Таблица 2).
Согласно исследованию Google, выполнение программного кода облачной платформы («DC Tax Code») — по сути, накладные расходы, требует не менее 30% всей вычислительной мощности ЦОД [5]: компрессия/декомпрессия данных — 6%; размещение объектов в оперативной памяти — 12%; расчет хеш-сумм — 1%; маршаллинг/демаршаллинг (marshal — упорядочивание) в протоколе сериализации (Proto Buffers) — 6% (в JSON ощутимо больше); вызов сетевых методов — 2%; копирование блоков памяти при передаче данных — 3%. Аналогичные оценки накладных расходов при исполнении кода облачной платформы на CPU приводятся для Amazon и облачной платформы Azure. По данным Amazon, перенос исполнения инфраструктурных задач на функциональный акселератор типа IPU (DPU) позволяет высвободить до 30% циклов CPU (https://www.channelfutures.com/data-centers/gartner-predicts-top-disruptive-data-center-networking-technologies).
Значимость «DC Tax Code» определила рабочую гипотезу по ускорению облака — необходимо перенести вычислительную нагрузку, потребляемую облачной платформой, с серверных CPU на специализированные акселераторы инфраструктуры (IPU) [5], что обеспечит изоляцию кода арендаторов (тенантов) от кода облачной платформы (рис. 1) и предоставит ряд дополнительных преимуществ: уменьшение нагрузки на CPU до 80%; бездисковая архитектура серверов; снижение энергопотребления; снижение стоимости владения; исполнение кода облачной платформы в реальном времени с запасом по вычислительной мощности.
Рис. 1. Архитектура облачного сервера |
Совмещение ИИ-задач, включающих непрерывное обучение, тестирование, исполнение и мониторинг качества работы ИИ-моделей, в том числе сбор и подготовку данных для непрерывного обучения и тестирования, с задачами исполнения, мониторинга, журналирования и аудита облачной платформы, с переносом выполнения этого программного комплекса на оптимизированное оборудование функционального акселератора, такого как IPU (DPU), позволяет сделать шаг в направлении прироста производительности облачных серверов и серверов для граничных вычислений, который может быть еще более значимым, чем 30% всех циклов CPU.
С учетом типовых ИИ-задач облачной платформы (Таблица 2), а также рабочей гипотезы по акселерации облака путем переноса кода облачной платформы на функциональный акселератор, IPU унифицируется как PCI-акселератор в форм-факторе «система на модуле» (SOM), состоящий из следующих функциональных блоков (рис. 2):
Рис. 2. Функциональная модель IPU |
- вычислительный блок общего назначения на базе ядер ARM или RISC–V (две доступные на текущий момент опции, соответствующие задачам, которые решает облачная платформа);
- оперативная память на базе DDR4 RAM;
- блок энергонезависимого хранения данных на базе NVME SSD;
- блок сетевых интерфейсов на базе Converged Ethernet и Infiniband;
- блок непрерывного обучения ИИ-моделей на базе TPU;
- блок исполнения ИИ-моделей на базе TPU.
Подобное решение содержит все аппаратные компоненты, которые уже имеются в современном сервере, и представляет из себя «сервер в сервере», который включает в том числе программные компоненты облачной платформы: операционную систему, виртуализацию, оркестрацию, хранение данных, сеть передачи данных и средства обеспечения безопасности.
Рис. 3. Распределение штаб-квартир проектов по разработке ИИ-чипов по странам |
Разработчики из России обладают определенным потенциалом для преодоления стратегического отставания в области архитектур серверов для облачных и граничных вычислений (рис. 3). Однако для его реализации требуется консолидация усилий всех заинтересованных сторон для создания функционального акселератора типа IPU/DPU.
В России имеются разработчики (Таблица 3), потенциально способные принять участие в решении задачи по ИИ-акселерации облака: проектирование, производство и выпуск на рынок отечественного PCI-акселератора типа IPU.
По ряду позиций в России имеется технологический задел с учетом того, что большинство компаний работает по принципу «fabless».
***
Применение функциональных ускорителей для решения задач инфраструктуры, включая задачи искусственного интеллекта, адаптацию корпоративной облачной платформы или платформы сервис-провайдера под возможности функциональных ускорителей, становится сегодня ощутимой тенденцией при развертывании как облачной инфраструктуры, так и инфраструктуры граничных вычислений. На горизонте ближайших двух-трех лет большинство новых серверов в мире будет оборудовано подобными функциональными акселераторами. В России имеется технологический задел для проектирования функциональных акселераторов, хотя исуществуют пробелы по ряду направлений. Однако эту ситуацию возможно и целесообразно изменить при условии консолидации усилий по реализации функционального акселератора типа IPU (DPU).
Литература
1. Александр Прозоров, Роман Шнырев, Илья Алексеев. Базовая инфраструктура современных цифровых платформ // Открытые системы.СУБД. — 2021. — № 4. — С. 15–19. URL: https://www.osp.ru/os/2021/04/13056073 (дата обращения: 21.08.2022).
2. Александр Прозоров, Роман Шнырев, Дмитрий Волков. Архитектура цифровых платформ будущего // Открытые системы.СУБД. — 2021. — № 2. — С. 24–28. URL: https://www.osp.ru/os/2021/02/13055934 (дата обращения: 21.08.2022).
3. Александр Прозоров, Роман Шнырев, Дмитрий Волков. На пути к умной инфраструктуре // Открытые системы.СУБД. — 2022. — № 1. — С. 29–31. URL: https://www.osp.ru/os/2022/01/13056120 (дата обращения: 21.08.2022).
4. Дмитрий Ватолин. Аппаратное ускорение глубоких нейросетей. URL: https://habr.com/ru/post/455353 (дата обращения: 26.08.2022).
5. Intel Infrastructure Processing Unit (Intel IPU), https://www.intel.com/content/www/us/en/products/network-io/smartnic.html
Александр Прозоров (aalprozorov@sberbank.ru) — научный сотрудник МФТИ; Алексей Бахарев (bakharev-ae@rudn.ru) — директор, Николай Горбачев (gorbachev-nv@rudn.ru) — заместитель директора, Ирина Кольжанова (kolzhanova-ia@rudn.ru) — эксперт, Центр цифровых технологий РУДН; Роман Шнырев (RVShnyrev@sberbank.ru) — исполнительный директор, Лаборатория новых технологических решений, ПАО Сбербанк (Москва).
DOI: 10.51793/OS.2022.61.63.001