В Сбербанке разработали, внедрили и развивают платформу управления данными для обучения генеративного ИИ – семейства фундаментальных моделей GigaChat, Kandinsky, GigaCode и др. О ходе этого проекта и его роли для бизнеса Сбера рассказывает Андрей Евтихов, управляющий директор блока Технологическое развитие Сбербанка и номинант на премию Data Award.

- Каков функционал и задачи созданной платформы?

Ключевой задачей платформы является формирование актуальных и полных массивов данных для обучения всей линейки фундаментальных моделей ИИ Сбера (GigaChat, GigaVision, GigaAudio, Kandinsky, GigaCode). Платформа предоставляет командам аналитиков полный спектр возможностей для управления данными. Это включает сбор данных из открытых источников, пакетную загрузку больших массивов данных от партнеров, извлечение метаданных из сырых массивов информации, быстрый полнотекстовой поиск по массивам данных для обучения, автоматизированную оценку уникальности данных, фильтрацию массивов данных, обработку видео-, аудиоданных и изображений с использованием больших кластеров графических ускорителей.

- Откуда берете данные и какие?

Платформа собирает данные всех модальностей: текст, видео, аудио, изображения, код. В качестве источников используются публично доступные данные на онлайн-ресурсах компаний и организаций, веб-архивы, открытые репозитории кода, открытые датасеты для обучения ИИ.

Также ведется активная работа с партнерами, предоставляющими высокачественные датасеты по отдельным доменам знаний.

- На каких технологиях построена платформа?

Платформа реализована на технологическом стеке партнера Сбера компании Cloud.ru. Компоненты платформы используют широкий спектр предоставляемых партнером решений. Например, Cloud.ru Advanced – объектные хранилища, системы управления очередями сообщений, MPP-хранилища данных и др. Cloud.ru Evolution – виртуальная инфраструктура для развертывания приложений. Также используется Cloud.ru ML Space – кластеры GPU-ускорителей для процессинга неструктурированных данных.

- Что получилось особенно удачно?

Нам удалось объединить в одном решении инструменты и готовые компоненты, обеспечивающие полный цикл подготовки данных для обучения фундаментальных моделей ИИ – от сбора исходных данных до формирования готовых датасетов, непосредственно используемых в процесс обучения моделей.

- Какие результаты уже достигнуты?

По итогам 2024 года сформированы сверхбольшие постоянно обновляемые массивы данных для всей линейки фундаментальных моделей ИИ «Сбера». Общий размер массивов данных для обучения составляет десятки петабайт и включает в себя несколько миллионов часов видео, миллиарды высококачественных изображений и десятки миллиардов строк кода. Массивы данных растут на несколько петабайт каждый месяц. Достигнутые показатели позволяют создавать фундаментальные модели ИИ, не уступающие возможностям моделей от ведущих мировых ИИ-провайдеров.

- В чем роль проекта для бизнеса компании и в целом отрасли данных?

Платформа является одним из ключевых компонентов ИИ-ландшафта «Сбера», обеспечивающего реализацию стратегии по трансформации в человекоцентричную компанию. ИИ-трансформация компании уже стала ведущим фактором повышения эффективности внутренних процессов компании, роста удовлетворенности клиентов и создания новых продуктов.

Успешная разработка и внедрение платформы обеспечило динамичное развитие ИИ-моделей и их вывод на рынок в качестве B2B-сервисов.

Собственные массивы данных для обучения передовых фундаментальных моделей является необходимым условием национального технологического суверенитета в условиях динамичного развития индустрии ИИ.

- Каковы направления развития платформы?

В планах на 2025 год – обеспечить формирование массивов данных для обучения фундаментальных моделей ИИ, превосходящих «старшие» модели от ведущих мировых технологических компаний (OpenAI, Anthropic, Mistral, Google). Для этого запланирован рост размеров массива данных более чем в 5 раз, внедрение новых инструментов обработки и управления качеством данных.