Компании, пытающиеся внедрять генеративный искусственный интеллект, сталкиваются сегодня с серьезными трудностями. При использовании коммерческих платформ, например OpenAI, им приходится отправлять данные в облако, что может приводить к дополнительным затратам и противоречить нормативным требованиям. При выборе же моделей подобных Llama 2 нужно хорошо разбираться в особенностях их тонкой настройки и сопряжения с векторными базами данных.
Компания VMware в сотрудничестве с Nvidia пытается решить эти вопросы, предлагая полностью интегрированную и готовую к применению платформу генеративного искусственного интеллекта, которую предприятия смогут запускать локально, на объектах колокации и в частных облаках. Платформа будет включать в себя Llama 2 или другие большие языковые модели (LLM) на выбор, а также векторную базу данных для передачи актуальной бизнес-информации в LLM. Продукт VMware Private AI Foundation, созданный на базе VMware Cloud Foundation, содержит программное обеспечение для поддержки искусственного интеллекта и средства Nvidia, предназначенные для ускорения вычислений. Спрос на платформы такого рода сейчас огромен. Согласно исследованию Lucidworks, 96% руководителей, принимающих решения в области искусственного интеллекта, отдают предпочтение инвестициям в генеративный ИИ, а 93% компаний планируют в следующем году увеличить свои расходы на ИИ.
Однако неопределенность нормативно-правовой базы и постоянно вносимые в нее изменения порождают серьезные риски. По результатам недавнего опроса KPMG, важность эффективного управления рисками отмечают 77% руководителей. Речь в первую очередь идет о защите персональных данных и вопросах конфиденциальности (63%), а также об укреплении кибербезопасности (62%). Существенным подспорьем в решении указанных задач мог бы стать запуск LLM в локальных или других средах, контролируемых предприятием. Особенно важное значение это имеет для жестко регулируемых государственного и финансового секторов. На конференции VMware Explore 2023 компании Nvidia и VMware продемонстрировали возможность использования своих инструментов для загрузки бесплатных LLM с открытым кодом, их настройки и развертывания систем генеративного ИИ в средах VMware. Однако клиенты получат доступ к VMware Private AI Foundation лишь в начале следующего года.
Как работает VMware Private AI Foundation
В компании VMware полагают, что предприятия начнут увеличивать интенсивность использования систем искусственного интеллекта нового поколения при обработке своих данных, не перенося их в общедоступные облачные сервисы. Размещая модели наподобие Llama 2 в своих ЦОД, оптимизируя и настраивая их, они выдвигают новые предложения, повышая тем самым свою конкурентоспособность. Однако, в процессе самостоятельного решения соответствующих задач, им трудно интегрировать аппаратные и программные компоненты с необходимыми приложениями и инструментами. VMware Private AI Foundation содержит полный набор всех требуемых для этого решений. В качестве базовой модели предлагаются Llama 2, Falcon или собственная разработка Nvidia NeMo. Проектирование на основе существующих моделей, как правило, оказывается более эффективным, чем создание новых базовых моделей с нуля.
После того как модели отлажены, нужно найти способ предоставления им актуальной информации без переобучения. Обычно это делается с помощью векторных баз данных. В VMware Private AI Foundation встроена векторная база данных PostgreSQL с расширением PGVector. Кроме того, VMware проделала большую работу по оптимизации производительности. Мощности одного графического процессора зачастую оказывается недостаточно, а предлагаемая система позволяет масштабировать ресурсы до 16 графических процессоров. Хранилище также оптимизировано, в результате чего графический процессор может обращаться к нему напрямую, минуя центральный процессор. Клиентам, которые не хотят ждать следующего года, доступны референсные архитектуры. Но полностью интегрированный продукт появится только в начале 2024 года.
Тонкая настройка LLM
Потенциал генеративного искусственного интеллекта феноменален. Ожидается, что в ближайшие десять лет он найдет отражение во всех аспектах нашей жизни. Основная же сложность сегодня заключается в том, что готовым моделям известны лишь те данные, на которых они были обучены. Поэтому необходимо проводить настройку модели в соответствии с конкретной бизнес-информацией. При создании модели с 40 млрд параметров процедура тонкой настройки на восьми графических процессорах занимает всего восемь часов. Платформа поддерживает чип A100, впервые представленный в 2020 году, H100, выпущенный в 2022 году, и новый чип L40S, который поступит в продажу в следующем году. L40S обеспечивает увеличение производительности генеративного вывода в 1,2 раза и рост производительности обучения в 1,7 раза выше по сравнению с A100.
Что представляет собой Llama 2?
VMware Private AI Foundation поддерживает разные модели генеративного ИИ, но наибольшей популярностью сегодня пользуется Llama2. Модель Llama 2, бесплатная в том числе и для коммерческого использования, была выпущена компанией Meta (признана экстремистской и запрещена в России. — Прим. ред.) в июле. Поставщикам, которые обслуживают более 700 млн активных пользователей в месяц, необходимо будет подать заявку на получение лицензии. Сегодня почти все большие языковые модели, входящие в число лидеров, являются вариантами Llama 2. Предприятия могут загружать их, выполнять тонкую настройку, проводить дополнительное обучение и предоставлять им доступ к собственным данным в режиме реального времени. Llama 2 выпускается в трех вариантах, позволяя компаниям оптимизировать производительность в зависимости от требований к оборудованию.
Поддержку Llama 2 предлагает сегодня не только VMware. Компания AWS объявила о заключении соответствующего соглашения с Meta, а Microsoft поддерживает эту модель в среде Azure. IBM планирует предоставлять доступ к Llama 2 в рамках своей платформы Watsonx.