VS Robotics разработала on-premise решение Elementary для разметки мультимодальных данных, используемых в обучении моделей ИИ, с функционалом предразметки и автоматизации разметки. Платформа, развертываемая во внутреннем контуре компании, позволяет ускорить обучение моделей и улучшить их качество. О создании решения рассказывает Максим Колосков, генеральный директор VS Robotics и номинант на премию Data Award.

- Как появилось решение Elementary для разметки мультимодальных данных?

Одна из наших флагманских разработок – речевой робот, который требует постоянного развития и обучения. Это стало отправной точкой для разработки программного обеспечения, способного эффективно размечать данные. Сначала мы использовали его для внутренних нужд, а затем начали сотрудничать с известными русскоязычными нейросетями, помогая им в разметке данных. Постепенно, когда мы убедились в надежности и гибкости нашего продукта, мы начали предлагать его на внешнем рынке, понимая, что у многих компаний схожие потребности.

- Какие задачи оно решает?

Наша платформа, которую мы поставляем в закрытый контур компании-заказчика, позволяет создавать проекты по разметке данных в различных форматах: аудио, видео, текст и изображения. Эти данные используются для формирования датасетов, которые, в свою очередь, применяются для обучения моделей искусственного интеллекта. Среди наших клиентов – компании, занимающиеся разработкой чат-ботов, голосовых помощников, систем машинного зрения и ИИ-агентов. Внедрение нашего решения помогает им эффективно управлять процессом разметки и получать высококачественные данные для своих моделей.

- Каковы ключевые возможности решения?

Платформа работает в полностью закрытом контуре, что обеспечивает безопасность и конфиденциальность данных. Она поддерживает разметку любых типов данных, будь то текст, аудио, видео или изображения. Пользователи могут создавать проекты как визуально через удобный редактор, так и с помощью JSON, что особенно удобно для технических специалистов. Кроме того, платформа позволяет эффективно управлять распределенными командами, что делает процесс разметки данных более гибким и продуктивным.

- На каких технологиях реализовано?

Мы используем PHP для бэкенда, Vue для фронтенда и PostgreSQL для хранения данных. Этот технологический стек позволяет нам создавать надежное и масштабируемое решение, которое может адаптироваться под нужды различных компаний.

- В чем «фишка» решения?

Главная особенность нашей платформы заключается в том, что она может быть установлена в закрытый контур компании, что обеспечивает полную конфиденциальность размечаемых данных. Это особенно важно для компаний, работающих с чувствительной информацией. Кроме того, возможность разметки любых типов данных в рамках одного ПО значительно сокращает затраты на инфраструктуру и упрощает процесс управления данными.

- Каков портрет типичного заказчика?

Типичный заказчик – это CDO, руководитель по ИИ или ML, а также руководитель разметки данных из департамента ИИ, ML-отдела, ИТ-подразделения. Наши клиенты работают в банках, ИТ-компаниях, промышленности и ретейле, занимаясь развитием чат-ботов, настройкой голосовых помощников и внедрением машинного зрения. В этих сферах качественные дата-сеты играют ключевую роль для корректной работы моделей ИИ.

- Какие результаты могут достигаться?

С помощью нашего решения компании могут значительно ускорить процесс получения работоспособных моделей ИИ, которые они используют в своей повседневной деятельности. Это позволяет быстрее автоматизировать внутренние процессы и повысить их качество, что в конечном итоге приводит к улучшению эффективности работы компании.

По данным, полученным при внедрении решения, наши клиенты значительно сокращают издержки на обучении ИИ и получают экономию по ряду статей. Так, увеличение эффективности работы разметчиков позволяет отказываться от значительного масштабирования команды разметки и получить экономию до 25% на оплате труда. Решение также помогает до 50% сокращать ФОТ команд управления – благодаря возможности настраивать эффективное управление распределенных команд, требуется меньше сотрудников для их контроля и координации.

Достигается экономия до 30% на инфраструктуре и DevOps при поддержке решения – используя платформу, можно делать всю разметку в рамках одного ПО, нет необходимости разворачивать и поддерживать работу нескольких различных решений

Кроме того, при использовании встроенных механизмов авторазметки наши клиенты достигают увеличение скорости разметки на ряде проектов до 10 раз, особенно в сфере обучения машинного зрения. А с качеством данных более чем в 95%, получаемым при правильной настройке проектов разметки и модерации, практически исключается необходимость дополнительных этапов доразметки. Это позволяет сразу же использовать данные для обучения моделей ИИ.

- Каковы достигнутые успехи на рынке?

Сегодня нашим решением активно пользуются представители практически всех сфер бизнеса. Например, в банках, страховых компаниях и электронной торговле с учетом специфики их работы и нацеленности на повышение скорости работы с клиентами и снижения затрат на массовый персонал есть два основных направления использования разметки – это разработка чат-ботов и голосовых помощников.

Основные приоритеты для промышленных, производственных компаний и ретейла – разработка решений для машинного зрения, которое так же помогает ускорить работу и снять нагрузку с людей. Целевой результат для промышленного и производственного секторов – автоматизация в процессах охраны труда, контроль соответствия требованиям экипировки и защитного снаряжения сотрудников с помощью камер. Еще одна сфера применения машинного зрения – это контроль качества на конвейерах. Ретейлеры также с помощью камер отслеживают состояние товарных полок, тем самым автоматизируя и ускоряя сбор информации по наличию товара, его местоположению, контролируют корректность ценников.

Есть и компании, которые внедряют решение в работу отдельных департаментов. Так, наши LLM-модели помогают юристам одного из заказчиков на основе ранее заключенных договоров генерировать шаблоны новых. В данном случае используется open source модель, которая стоит в закрытом контуре компании, сохраняя полную конфиденциальность договорных отношений клиента. Модель дообучена на данных компании, что позволяет составлять договоры с учетом специфики компании.

- В чем роль продукта для рынка?

Наша платформа помогает компаниям быстрее и качественнее внедрять ИИ-решения в повседневную деятельность. Мы стремимся сделать процесс разметки данных более эффективным и доступным, что способствует развитию и внедрению инновационных технологий в различных отраслях.

- В каком направлении будет развиваться Elementary?

Мы планируем автоматизировать процесс разметки данных, чтобы уменьшить количество задействованных людей и перейти от разметки к валидации результатов, полученных с помощью авторазметки. Также мы будем двигаться в сторону автоматизации создания ИИ-агентов, что позволит нашим клиентам еще больше оптимизировать свои процессы и улучшить качество работы моделей ИИ.