В VS Robotics создали Agent.Elementary – автономный исследовательский агент на базе генеративного ИИ. Он обрабатывает заданные потоки данных, суммаризует их, дедублицирует, выбирает самое интересное за день, после чего собирает аналитический дайджест, который отправляет в телеграм-бот. О реализации проекта рассказывает Дмитрий Антипов, руководитель разработки VS Robotics и номинант на премию Data Award.
- Почему компании потребовалось создание исследовательского агента?
VS Robotics занимается подготовкой данных для ИИ, мы разрабатываем систему LLM-разметки и автоматической разметки нейронными сетями Elementary. Нам важно отслеживать новости и исследовать новые работы с целью повышения эффективности обработки данных.
В условиях огромного роста научных публикаций специалисты физически не способны отслеживать их. Созданный агент старается выделить самое важное, подсветить, на что именно стоит обратить внимание или найти интересные наработки во всем потоке данных. Он не сможет заменить исследователей, но помогает делать их работу более эффективной.
- Что представляет собой созданное решение?
Автономный исследовательский агент на базе генеративного ИИ от VS Robotics обрабатывает заданные потоки данных, суммаризует их, дедублицирует, выбирает самое интересное за день, после чего собирает автоматический аналитический дайджест. Результат отправляется в телеграм-бот.
- Какие данные охватывает агент?
Мы отслеживаем научные публикации с платформы Hugging Face (Papers of the day), часть статей с ArXiv (по ключевым вхождениям слов), открытые материалы ведущих конференций по ИИ (NeurIPS, ICML, ICLR). Потенциально это могут быть любые потоки данных.
- Что стало причиной реализации Agent.Elementary? Какие бизнес-задачи он решает?
К идее создания проекта привело сочетание нескольких факторов, которые сошлись по времени в единой точке. Первая причина: рынок ИИ развивается стремительными темпами, и для того, чтобы оставаться в тренде последних технологий, необходимо тратить немалое количество времени и усилий на исследования и научные работы во множестве областей – компьютерном зрении, LLM, ASR/TTS и многих других. Вторым фактором стало то, что сами технологии доросли до того уровня, когда можно попробовать автоматизировать такую исследовательскую работу с достаточно высоким уровнем качества.
Главная бизнес-задача, которую решает агент – быть в курсе происходящего на рынке технологий ИИ, адаптироваться под изменения и принимать более взвешенные решения о технологиях.
- На каких платформах реализован проект?
Используем LLM Mistral – при необходимости локального использования, или GPT-4o для более глубокого анализа содержания. В качестве базы данных применяем SQLite для хранения структурированных данных. Сам агент написан на Python с использованием фреймворка LangChain.
- Что получилось особенно удачно?
Во-первых, автономность: система накопления и уведомления не требует участия человека. Во-вторых, специализация – агент охватывает только ИИ-статьи и специализируется именно на них. Наконец, адаптивность: агент устойчив к потоку данных.
- Какие результаты достигнуты?
Достигнуто заметное освобождение времени исследователей за счет формирования общего дайджеста. Кроме того, стоит отметить более точечное слежение за интересными темами исследований.
И самое главное, при современных скоростях изменений в отраслях, связанных с ИИ, ключевым параметром становится скорость получения и проверки гипотез, которые затем тестируются и самые успешные внедряются в коммерческие версии продуктов. И здесь мы получили прирост с одной-двух гипотез в неделю при использовании только человеческих усилий до восьми-десяти при автоматизации процесса.
- А что говорят пользователи? Агент оправдывает ожидания?
Главными потребителями результата работы являются технические ML-специалисты, для которых любое снижение временных затрат на рутинные задачи и перенаправление ресурса с более простой работы на более глубокую является весомым преимуществом, поэтому отклик позитивный. Агент выступает первым фильтром по исследованию потока научных данных и в целом оправдывает возложенные на него ожидания с той поправкой, что специфика науки такова, что желание уместить развернутое исследование в несколько кратких и емких строк его резюме приводит к поиску тонкого компромисса между краткостью и неизбежной потерей качества. Такой компромисс может быть индивидуален у каждого инженера.
- Пытались ли оценить финансовый эффект от этой экономии?
Именно исследовательская работа по изучению научных работ слабо поддается прямой финансовой оцифровке, но непрямых финансовых эффектов здесь два. Снижение трудозатрат текущих инженеров на генерацию новой гипотезы позволяет эффективнее использовать потенциал текущих сотрудников. А повышение эффективности работы текущих сотрудников избавляет от необходимости поиска дополнительных инженеров на рынке. Стоимость только подбора одного человека достигает нескольких сотен тысяч рублей без учета дальнейших выплат заработной платы. А таких людей нужны десятки, и тут только экономия на поиске начинает достигать миллионов рублей.
- Есть ли у проекта дальнейшие планы и перспективы?
Проект существует в качестве успешно пройденного пилота и обрастает полезной функциональностью по мере его использования и поступлению обратной связи. Как мы уже упоминали, одним из важных направлений для развития является гипер-персонализация: несмотря на схожесть самого процесса, Computer Vision инженер и LLM-инженер обращают внимание на разные вещи и читают немного разные статьи, поэтому одной из задач агента будет подстройка под конкретный запрос или под конкретные предпочтения пользователя.
Потенциальная гипер-персонализация подразумевает не только подстройку под технических специалистов, но и вообще под кого угодно – например, под бизнес-подразделения или высший менеджмент компании. Главное преимущество больших языковых моделей и агентов в том, что они могут очень адаптивно подстраиваться под потребности и понятный язык конкретного пользователя. Например, при идентичном процессе анализа работ, агент может рассылать технический дайджест за день для ML-специалистов, а раз в неделю – более бизнесовый дайджест для всех желающих в компании. Все это с одинаковым техническим исполнением внутри, но разной последующей реализацией при помощи естественного языка.