На международной выставке потребительской электроники CES специалисты компании Nvidia представили концепцию «физического ИИ» — систем, обещающих революцию в области автоматизации промышленности. В компании физический ИИ определяют, как системы, способные управлять гуманоидными роботами, различным промышленным оборудованием и целыми заводами. Как объясняют в Nvidia, большие языковые модели работают в одномерном пространстве, предсказывая следующую букву или слово, модели для синтеза изображений и видео — в двумерном, так как прогнозируют следующий пиксел, а для физического ИИ нужны модели, способные воспринимать и интерпретировать трехмерный мир.
В компании уверены, что ее разработки подтолкнут к новой волне инновации в мире физического ИИ, которая приведет к появлению миллиардов физических и виртуальных роботов, в том числе выполняющих агентские функции, гуманоидных роботов-универсалов и беспилотных транспортных средств.
С этой целью в Nvidia создали «решение на трех компьютерах»: в него входят серверы Nvidia DGX для обучения систем ИИ в центрах обработки данных; платформа Nvidia OVX с графической системой Nvidia Omniverse для симуляций и синтеза данных и бортовой компьютер Nvidia AGX для оперативной обработки информации датчиков беспилотного автомобиля.
Ключевой компонент решения — Nvidia Cosmos, набор фундаментальных генеративных моделей (world foundation model, WFM), способных симулировать реальные среды и прогнозировать результаты на основе текстовых и визуальных данных. Такие модели обещают облегчить дорогостоящий и затратный по времени процесс обучения моделей ИИ для роботов, который требует сбора колоссального количества реальных данных. Модели Cosmos смогут автоматически синтезировать нужные для обучения объемы фотореалистичных видеозаписей, соответствующих законам физики, обещают в компании.
Как объясняют в Nvidia, модели Cosmos специально созданы для НИОКР в области физического ИИ и могут создавать видеозаписи на основе различных входных данных — текстов, изображений, видео и информации с датчиков, которыми оснащены роботы. Модели планируется предлагать по открытой лицензии, которая даст разработчикам право дополнять их собственными наборами данных, например видеозаписями поездок беспилотных автомобилей или действий роботов на складе.
Основатель и генеральный директор Nvidia Дженсен Хуанг уточнил, что с помощью моделей Cosmos можно будет находить в видеоданных конкретные учебные сценарии, например, заснеженный участок дороги или переполнение склада. Кроме того, они позволят симулировать «мультивселенные» — прогнозировать все мыслимые исходы каких-либо ситуаций и выбирать лучший, предлагая оптимальный путь к нему.
В компании также объявили о расширении экосистемы решений в области агентского ИИ. Представлено семейство больших языковых моделей Nemotron, которые при работе на оборудовании Nvidia обеспечивают высокую производительность и снижение вычислительных затрат для агентских систем, использующих несколько больших языковых моделей одновременно.
Представлены новые шаблоны агентских систем: агент, способный превращать доклады и финансовые отчеты в формате PDF в интерактивные подкасты, и агент для анализа видеоданных с функциями интерактивного поиска, формирования краткого содержания и создания отчетов.
Партнеры Nvidia тоже представили ряд шаблонов, в том числе агентов для создания отчетов с возможностью поиска подходящей по теме информации в Интернете, для ведения исследовательского блога, для содействия в итеративной разработке и отладке систем ИИ, для управления ростом выручки от продажи потребительских товаров и услуг, для помощи в проведении клинических исследований и ряд других.