Аппаратное обеспечение — вот сегодняшняя проблема систем искусственного интеллекта. Прогресс в сфере ИИ, как и в ряде других областей, ускоряется пока во многом благодаря тесному взаимодействию пользователей, инженеров и производственников в рамках цикла инновации, который, в свою, очередь, способствует росту спроса. Когда речь идет о проблемах оборудования для ИИ, то чаще всего имеются ввиду ограничения технологий и способы их преодоления [1], но еще есть и проблемы, обусловленные рынком, — текущие структурные особенности мировой полупроводниковой индустрии создали помехи процессу непрерывной инновации в сфере искусственного интеллекта.
В марте 2021 года Комиссия США по вопросам национальной безопасности и искусственного интеллекта (NSCAI) подготовила отчет о конкурентоспособности страны в сфере ИИ. Помимо прочего его авторы пришли к выводу о том, что для выхода в лидеры в области ИИ стране необходимо быть лидером и в области микроэлектроники. «Но, несмотря на опыт инновации США в этой сфере, страна ограничена в возможностях в связи с нехваткой заводов по выпуску полупроводниковых устройств, расположенных на ее территории, особенно самых современных», — говорится в [2]. При этом самые сложные из существующих сегодня систем ИИ работают на чипах нового поколения, а былое лидерство США в области полупроводников пошатнулось, причем как раз в тот самый период, когда интерес к ИИ оказался на пике. Этот факт может иметь стратегические последствия как для самих США, так и для развития инфраструктуры ИИ в целом, учитывая что сегодня лишь ограниченное число передовых полупроводниковых производств определяет эволюцию чипов для ИИ, а, следовательно, масштабы и темпы инновации в этой сфере.
Чипы для ИИ
Искусственный интеллект развивается благодаря алгоритмам, оборудованию, данным и профессионалам в этой области — научное сообщество разрабатывает вычислительные методы и теоремы в области ИИ, на базе которых создают прогнозные модели. Оборудование, на котором работают системы ИИ, строится на основе серийных и специализированных интегральных схем. Данные, структурированные и нет, используются для обучения алгоритмов, чтобы придавать им способность делать выводы.
Алгоритмы в области ИИ развиваются еще с 1980-х годов — были опубликованы первые работы по глубоким нейросетям, была создана теоретическая базы для поддержки прогресса в сфере ИИ, который можно наблюдать и сегодня [3]. Однако и оборудование, и работа с обучающими данными долгое время отставали — дальше теории дело не шло ввиду отсутствия качественных данных, размеченных и представленных в машиночитаемых форматах. К тому же в то время не было доступных по цене компьютерных мощностей, поэтому с созданными вычислительными методами работали лишь в лабораториях, госструктурах и корпорациях, которые могли себе позволить оплату соответствующей аппаратной инфраструктуры. Все это привело к периодическим «зимам искусственного интеллекта», на врем которых интерес к ИИ и финансирование разработок падали из-за несоответствия ожиданий и реальности.
Наблюдаемый сегодня энтузиазм по поводу ИИ можно объяснить одновременным бурным развитием оборудования и увеличением объемов доступных для обучения данных. Однако узкие места в цепочке поставок оборудования для ИИ и экосистеме полупроводниковой индустрии угрожают стать сдерживающими факторами на пути дальнейшего прогресса. Хрупкость цепочки поставок полупроводников, концентрация передовых производств на Тайване, преимущественное использование чипов ограниченного круга тамошних производителей в системах ИИ, отставание от закона Мура — все указывает на то, что из всех детерминант конкурентоспособности в мире ИИ ситуация с оборудованием может стать тормозом прогресса.
Полупроводники как двигатель ИИ
Возросший интерес к ИИ в основном касается подмножества его алгоритмов — машинного обучения и глубоких нейросетей. Средства машинного обучения — разновидность систем ИИ, которые путем обучения строят модель на основе данных, позволяющую в дальнейшем обрабатывать новые данные, делая на их основе умозаключения или прогнозы. Глубинные нейросети привлекают большое внимание ввиду достижений в области компьютерного зрения (в том числе, в системах обработки медицинских снимков) и лингвистических системах (машинный перевод, распознавание речи и др.). Эффективность решения подобных задач зависит от оборудования, способного «на лету» выполнять соответствующие функции: чипы, специально оптимизированные для обучения, чипы, предназначенные для генерации умозаключений (инференс). В первом случае важнее точность, во втором — гибкость. В целом, алгоритмы ИИ могут выполняться и на любых микропроцессорах, но большинство моделей машинного обучения требуют специализированных чипов с соответствующими характеристиками быстродействия и эффективности. Традиционные центральные процессоры созданы для решения широкого круга вычислительных задач, но в режиме последовательного выполнения, а для задач ИИ чаще используются другие виды чипов: видеопроцессоры, программируемые логические матрицы (FPGA) и специализированные интегральные схемы. Каждый вид чипов — это компромисс между быстродействием, эффективностью, точностью и гибкостью (см. Таблицу 1) и каждый оптимален для своих видов задач, а универсальных чипов ИИ пока не существует.
Графические процессоры, поначалу шире всего применявшиеся в игровых консолях и специализированных компьютерах, с недавнего времени стали активно использоваться и в задачах обучения моделей ИИ. Чипы этого вида экономично и с высокой точностью выполняют параллельные вычисления, что делает их оптимальными для итеративного обучения алгоритмов на размеченных данных. Изобретенные еще в 1980-х годах FPGA обеспечивают больше гибкости, чем другие виды чипов — их можно настраивать в зависимости от рабочей нагрузки, что требуется для инференса, для которого важны эффективность и возможность произвольной настройки. Специализированные интегральные схемы — это чипы, разработанные для эффективного выполнения конкретных алгоритмов. В зависимости от реализованных проектировщиками функций, такие чипы могут решать задачи обучения или формирования умозаключений, но не будучи универсальными, по мере развития алгоритмов они теряют свою актуальность.
Компании, работающие в сфере ИИ, активно сейчас стремятся заполучить конкурентное преимущество за счет применения все более совершенного оборудования, а производители полупроводников, среди которых сегодня почти нет явных лидеров в области ИИ, ведут между собой конкурентную борьбу, стараясь по доступной цене обеспечить максимальную производительность оборудования. В целом подобные процессы способствуют прогрессу — производители чипов повышают их мощность, увеличивая число транзисторов и внедряя более совершенные техпроцессы; создатели оборудования для ИИ пользуются новыми технологиями и проектируют чипы, более эффективно выполняющие вычисления, необходимые для задач машинного обучения; ведущие разработчики систем ИИ предпочитают специализированные чипы, выпускаемые по самым новым технологиям, так как на обучение сложного алгоритма могут уйти месяцы машинного времени, а обойтись такой проект может в десятки миллионов.
Ввиду высокой стоимости производства полупроводников разработчики средств ИИ сосредоточили усилия на совершенствовании алгоритмов, данных и подготовке специалистов. Ни одна из ведущих компаний, занимающихся исследованиями в сфере ИИ, сама не производит оборудование — выпуск выполняется контрактными производителями микросхем по схеме аутсорсинга. При этом новейшие специализированные чипы для ИИ — ключ к созданию экономически эффективных масштабируемых систем. Именно поэтому компании, работающие в сфере ИИ, стараются получить доступ к самым современным микропроцессорам. Однако после 65 с лишним лет прогресса, происходившего относительно предсказуемыми темпами, прекратил действовать закон масштабирования Деннарда — при уменьшении размеров транзистора и повышении тактовой частоты процессоров больше не удается пропорционально повышать их производительность, а США утратили лидерство в сфере производства полупроводников. Как следствие, появились риски для дальнейшего развития решений ИИ.
Кто создает лучшие чипы для ИИ?
Цепочка поставок полупроводников — неотъемлемая часть глобальной цепочки добавленной стоимости систем ИИ. Обучающие алгоритмы, разработанные, например, в канадском университете, могут работать на платформе, разработанной китайской технологической компанией, в которой используются набор данных, составленный французскими исследователями с помощью серверов на чипах, которые спроектировали в США и изготовили на Тайване, а затем протестировали и смонтировали в корпус на японском оборудовании во Вьетнаме. Когда полупроводниковая отрасль достигла зрелости, глобализация привела к тому, что у крупнейших участников цепочка поставок может охватывать более полутора десятков тысяч поставщиков и сотню стран. Глобализация цепочки ценности способствует инновации и снижению цен, но требует компромиссов и изобилует узкими местами.
После былого лидерства в области микроэлектроники США примерно 90% всего серийного производства передовых интегральных схем сейчас сосредоточено в странах Восточной Азии. Для выполнения сложных алгоритмов ИИ требуется современное оборудование и лидерство американских компаний по разработке систем ИИ зависит от зарубежных полупроводниковых производств, подверженным случайной или преднамеренной дестабилизации.
Рис. 1. Экосистема индустрии полупроводников |
Цепочку поставок полупроводников можно приблизительно разделить на три блока процессов: проектирование, производство, аутсорсинговая сборка и тестирование чипов (outsourced, semiconductor, assembly, test, OSAT). Внутри каждого блока имеются сегменты продуктов и услуг, востребованных полупроводниковой экосистемой в целом (рис. 1). Проектировщики процессоров покупают по лицензии готовые блоки («IP-ядра»), производители чипов — производственное оборудование, а поставщики услуг OSAT — специализированные компоненты, необходимые для подготовки чипов к их встраиванию в готовые продукты. Американские компании сохраняют пока лидерство в сфере проектирования чипов всех типов, но конкурентоспособность США в сфере производства полупроводников упала: если в 1990 году на долю этой страны приходилось 40% всех производственных мощностей мира, то сегодня — лишь 11%. При этом на рынке OSAT доля американских компаний менее 5%. Большая часть этого сектора несколько десятков лет назад была передана на аутсорсинг в Юго-Восточную Азию ввиду низкой стоимости оплаты труда и близости к центрам выпуска электроники. Американские компании все еще лидируют в некоторых сегментах: САПР электроники, контрольно-измерительное оборудование и установки для травления. При этом на фоне глобализации цепочки поставок полупроводников утрата лидерства США в области полупроводникового производства малозаметна (рис. 2).
Рис. 2. Доля компаний США в глобальной цепочке ценности полупроводников |
Экосистема индустрии полупроводников требует больших затрат и характеризуется высоким уровнем инноваций и консолидации, глобализацией и взаимозависимостями. Затраты на создание новой системы на кристалле для флагманского смартфона, включая специализированные блоки обработки мультимедиа либо поддержки новой технологии связи могут легко превысить 1 млрд долл. Еще в 2018 году компания Nvidia обнародовала оценку, согласно которой проектирование новой на тот момент системы на кристалле потребовало 8 тыс. человеко-лет. Проектирование даже не самого новейшего чипа с использованием значительной части уже готовых разработок может обойтись в десятки или сотни миллионов. А что касается изготовления, то в зависимости от типа интегральных схем технологический процесс может содержать от 400 до 1400 этапов, большая часть из которых реализуется на фабрике со стоимостью строительства свыше 15 млрд долл.
Рис. 3. Число производителей передовых чипов в годы создания новых технологических процессов |
Именно из-за этих колоссальных затрат отрасль оказалась сильно консолидированной на уровне компаний и географии. Полупроводниковая экосистема состоит из небольшого количества крупных компаний, расположенных главным образом в США, Европе, Японии, Южной Корее, Китае и на Тайване, которые господствуют практически в каждом звене цепочки поставок. На долю единственного региона приходится 65% и более глобального объема продаж свыше 50 товаров и услуг, входящих в глобальную цепочку поставок полупроводниковых устройств. Количество компаний, способных выпускать чипы по новейшим технологиям, от поколения к поколению неизменно сокращалось и сейчас достигло всего двух, причем обе находятся вне США (рис. 3). Фактически, единственная тайваньская компания по состоянию на 2021 год отвечала за 92% объема производства самых передовых чипов. Вместе с тем, сложные цепочки поставок, необходимые для обеспечения выпуска передовых чипов для систем ИИ, все еще сосредоточены в США и в небольшом числе других стран.
Лидерство в сфере аппаратных ускорителей
В США нет производителей полупроводников, лидирующих в сфере ИИ, и отсутствуют компании, специализирующиеся на ИИ, которые бы лидировали на полупроводниковом рынке. Как следствие, компании по разработке систем ИИ ведут конкурентную борьбу за доступ к самому современному производству полупроводников и используют новейшие разработки в сфере оборудования в своих проектах. Фактически, лидерам сегмента ИИ приходится бороться за мощности, принадлежащие одной из немногочисленных компаний, располагающих новейшими техпроцессами. Многие из чипов для ИИ, включая Google Tensor Processing Unit, Cerebra Wafer Scale Engine и Nvidia A100, выпускаются тайваньской компанией TSMC. С одной стороны, американские компании лидируют в сфере проектирования специализированных чипов для задач ИИ, с другой, отсутствие производственных мощностей в США создает риск для цепочки поставок.
Утрату лидерства в сфере производства полупроводников и влияние этого факта на разработку чипов для ИИ можно наглядно проиллюстрировать на примере проектов Intel по разработке таких интегральных схем. В 2019 году корпорация за 2 млрд долл. приобрела производителя чипов для систем ИИ компанию Habana Labs, после этого ввод новых технологических процессов Intel начал отставать от графика. В частности, коммерческий запуск техпроцессов 10 и 7 нм задержался на несколько лет. В то же время TSMC и Samsung продолжали успешно наращивать коммерческое производство 7-нанометровых чипов. Хотя Intel располагает 15 заводами по выпуску пластин в 10 странах, Habana Labs пришлось наладить партнерство с TSMC, чтобы воспользоваться самым современным из доступных производственных процессов и обеспечить конкурентоспособность своих чипов для ИИ. По сути, это равноценно признанию бывшей полупроводниковой компании № 1 в том, что она уже неспособна удовлетворять свои производственные потребности. В таблице 2 перечислены ускорители для решения задач ИИ, разработанные американскими компаниями, и производители чипов, с которыми они сотрудничают.
На производственные мощности Тайваня полагается сегодня вся индустрия полупроводников, а не только разработчики ускорителей для ИИ. Недавно правительство США провело исследование, посвященное рискам цепочки поставок полупроводников. Вывод — производство современных чипов осуществляется в основном на Тайване, а по более устоявшимся технологиям процессоры выпускаются там же, а также в Южной Корее и Китае. В ходе исследования были выявлены риски, связанные с географическим сосредоточением передовых производств: хрупкость цепочек поставки, возможность подрыва работы цепочек поставки со злым умыслом, геополитические факторы.
Доступ к передовым производствам — узкое место
Помимо стратегического риска для американских разработчиков систем ИИ сосредоточение передовых полупроводниковых производств в Азии сдерживает инновации для стартапов, работающих в сфере ИИ, фактически определяющих масштаб и темпы прогресса в этой области. Сейчас проектированием ускорителей ИИ занимаются примерно 225 компаний, которые привлекли около более 20 млрд долл., хотя на долю десяти из них приходится 61% этой суммы, причем несколько из них либо уже поглощены, либо стали открытыми акционерными обществами. Большинство стартапов, занимающихся аппаратным обеспечением для задач ИИ, имеют головной офис в США (85) и Китае (75), остальные — в Великобритании (10), Франции (9) и Израиле (8). При этом такие стартапы — ничтожно малая часть общей экосистемы молодых компаний, работающих в сфере ИИ — на долю стартапов, разрабатывающих аппаратные ускорители ИИ, пришлось всего 3% всех венчурных инвестиций, сделанных за период с 2017-го по 2021 год. Стартапы такого рода из США не привлекательны для частных инвесторов из-за высокой стоимости организации производства разработанных ими чипов. По данным DARPA, в период с 2012-го по 2017 год все американские стартапы по разработке чипов вообще не получали венчурного финансирования ввиду того, что изготовление первых работоспособных прототипов микропроцессоров обходилось дороже 20 млн долл.
В экосистему разработчиков ускорителей для ИИ входят компании, занимающиеся проектированием заказных интегральных схем, графических процессоров и FPGA, оптимизированных для различных задач. Однако в мире производителей, чьими услугами пользуются такие стартапы, аналогичное многообразие отсутствует. Большинство из них предпочитает сотрудничать с TSMC, причем когда им удается заключить с ней контракт, следующие раунды венчурного финансирования для них обычно увеличиваются. В таблице 3 приведен перечень стартапов, разрабатывающих аппаратные решения для ИИ, составленный по данным аналитиков Credit Suisse. Для семерых из них отсутствуют сведения о выбранном производителе и техпроцессе, но 11 из 16 остальных в качестве поставщика производственных услуг выбрали именно TSMC. Единственный контрактный производитель, работающий с более чем одним клиентов из числа стартапов, специализирующихся на чипах для приложений ИИ, — это GlobalFoundries. Стартапы, пользующиеся услугами TSMC, в совокупности привлекли финансирование на сумму 4,065 млрд долл., а тройка клиентов GlobalFoundries — лишь 500 млн.
По сути, TSMC играет сегодня роль «создателя королей» в мире стартапов, разрабатывающих ускорители для ИИ: лучшие выпускают свои продукты на мощностях TSMC, а остальные пользуются услугами всех других. При этом у TSMC высокие тарифы, а компания работает только по схеме контрактного производства, соглашаясь сотрудничать лишь с платежеспособными, в момент заключения контракта, стартапами. При этом им приходится конкурировать за мощности TSMC с «тяжеловесами» типа Nvidia, AMD и Apple. Примечательно, что TSMC не заключает контракты исходя из технических достоинств чипа, созданного стартапом, а значит, кто-то из создателей перспективных изделий лишается доступа к лучшему производству, поскольку не может заплатить.
Вместе с тем, многие стартапы в сфере ИИ, работающие с TSMC, применяют устаревшие техпроцессы — только четыре из 11 стартапов воспользовались процессом 7 нм, тогда как остальные выпускали свои чипы по технологиям 16 и 28 нм, доступным и у других контрактников, включая китайскую компанию SMIC (Semiconductor Manufacturing International Corporation) , тайваньскую UMC и американскую GlobalFoundries. Получается, что стартапы сознательное выбирают TSMC не только по техническим соображениям, но и ради положительного влияния ее имени на репутацию.
Алгоритмы против оборудования
Достижения в области алгоритмов компенсируют относительное отсутствие новаций в сфере чипов для ИИ и сокращение числа производств, способных выпускать микросхемы по новейшим технологиям. Исследователи отмечают, что наблюдаемый сегодня рост применения глубинных нейросетей обусловлен именно достижениями в области алгоритмов и сетевых архитектур, а также, конечно, доступностью огромных объемов данных и созданием все более мощных компьютеров [1]. При этом разработка ускорителей для ИИ идет медленнее по сравнению с остальными базовыми сегментами ИТ-индустрии. По данным проекта OpenAI, благодаря усовершенствованию алгоритмов ИИ сегодня для того, чтобы обучить нейронную сеть до уровня AlexNet, первой сверточной нейросети на GPU, которой удалось выиграть в 2012 году конкурс систем распознавания больших изображений, сейчас достаточно в 44 раза меньше вычислительной мощности. Для сравнения, по закону Мура стоимость процессоров за аналогичный период снизилась бы в 11 раз.
Предыдущие публикации, посвященные проблемам оборудования для систем ИИ, в основном были посвящены обсуждению технических вопросов. Например, в 2018 году авторы публикации в Nature сетовали на то, что темпы роста производительности графических процессоров, FPGA и заказных интегральных схем недостаточны для обеспечения потребностей растущих в размерах глубинных нейронных сетей [1]. С тех пор наблюдался поразительный прогресс в сфере алгоритмов и оборудования ИИ, даже несмотря на то, что задачи ИИ требуют все более мощного аппаратного обеспечения. По данным Стэнфордского университета (отчет AI Index Report), если в 2018 году на обучение нейросети с помощью базы размеченных визуальных данных ImageNet требовалось 6,2 мин, то в 2020-м — 47 с. При этом объем оборудования, необходимого для достижения этого результата, резко вырос — с 640 ускорителей до 4096. В среднем, по данным отчета OpenAI от 2018 года, объем вычислительных ресурсов, используемых для обучения нейросетей удваивается каждые три месяца — видно, что производство аппаратного обеспечения для задач ИИ создает риск дальнейшему прогрессу в этой сфере. Для устранения узких мест аппаратного обеспечения был предложен ряд технических решений, направленных на обеспечение более тесной связи между памятью и процессором. В частности, выдвигались идеи использования резистивной памяти и объединения механизмов обработки в памяти и цифровой обработки сигнала. Но все подобные решения касаются технологий, но проблема остается — чипы для всех новых решений в сфере ИИ выпускаются ограниченным числом компаний.
***
Чем больше мощностей компания TSMC уделяет стартапам, разрабатывающим ускорители для ИИ, тем быстрее прогресс в экосистеме соответствующего аппаратного обеспечения. Однако, тот факт, что TSMC находится на Тайване, означает стратегический риск, наличие которого уже осознают как в правительствах разных стран, так и в компаниях, в том числе и в самой TSMC. Из-за хронического дефицита полупроводников и сосредоточения передовых производств на острове у покупателей современных чипов, особенно из области потребительской электроники и автомобилестроения, возникают сложности. Как следствие, напрашивается вывод о необходимости анализа устойчивости всей глобальной цепочки поставок полупроводников, об увеличении объема локального производства и о географической диверсификации контрактов на поставку услуг выпуска чипов. Правительство США уже назвало стратегическим приоритетом налаживание локального производства новейших чипов и даже в ЕС рассматривают возможность принятия адекватных мер по возвращению хотя бы части звеньев цепочки поставок на территорию своего региона. Поднебесная, между тем, продолжает наращивать усилия по формированию собственной полупроводниковой экосистемы, хотя при этом правительства США, Европы и Японии пытаются договориться с TSMC о строительстве новых заводов или расширении имеющихся мощностей и последняя объявила о расширении своей фабрики в Китае и строительстве завода в штате Аризона.
Литература
1. Does AI have a hardware problem? Nature Electron., vol. 1, p. 205, Apr. 2018. URL: https://www.nature.com/articles/s41928-018-0068-2, doi: 10.1038/s41928-018-0068-2.
2. The final report. National Security Commission on Artificial Intelligence, Washington, DC, USA, Mar. 2021.URL: https://www.nscai.gov/2021-final-report.
3. Y. Le Cun et al., Backpropagation applied to handwritten zip code recognition. Neural Comput., vol. 1, no. 4, pp. 541–551, Dec. 1989, doi: 10.1162/neco.1989.1.4.541.
Джон Вервей (john.verwey@pnnl.gov) — консультант, Тихоокеанская северозападная национальная лаборатория (США).
John VerWey, The Other Artificial Intelligence Hardware Problem. IEEE Computer, January 2022, IEEE Computer Society. All rights reserved. Reprinted with permission.