Подписи к графикам, объясняющие сложные тенденции и закономерности, помогают читателю понять и запомнить представленные данные. А для людей с нарушениями зрения информация в подписи часто является единственным способом понять график.
Однако написание содержательных подписей — трудоемкий процесс. Методы автоматического добавления подписей могут облегчить эту задачу, однако они обычно плохо справляются с изложением когнитивных особенностей, которые формируют дополнительный контекст.
В Массачусетском технологическом институте разработали специальный дата-сет для улучшения систем автоматического добавления подписей. Используя этот инструмент, исследователи могли обучить построенную ими модель изменять уровень сложности и тип содержимого в подписи к графику в зависимости от потребностей пользователей.
Обнаружилось, что модели, обученные с использованием данного дата-сета, как правило создавали подписи, которые были точными, семантически богатыми и адекватно описывали тенденции данных и сложные закономерности. Количественный и качественный анализ показал, что справлялись со своей задачей более эффективно, чем другие системы автоматического добавления подписей.
Дата-сет VisText предложен в качестве самостоятельного инструмента, которым можно пользоваться при работе над задачей автоматического добавления подписей к графикам.
Создатели VisText вдохновлялись предыдущими работами, авторы которых обнаружили, что пользователи с хорошим зрением и слепые или слабовидящие имеют разные предпочтения относительно содержания подписи.
Разработка систем автоматического добавления подписей — непростая задача. Существующие методы на основе машинного обучения часто пытаются описывать график так же, как они описывают изображение, но люди — и модели — интерпретируют естественные изображения иначе, чем мы читаем графики. Другие методы полностью игнорируют визуальное содержимое и описывают график, опираясь на таблице данных, по которой график построен. Однако такие таблицы часто оказываются не доступны после публикации графиков.
VisText представляет графики в виде сценовых графов, которые содержат все данные графика, а также включают дополнительный контекст. Это позволяет использовать максимум информации, а все возможности современных больших языковых моделей для формирования подписей.
Исследователи составили дата-сет, который содержит более 12 тыс. графиков — каждый представлен в виде таблицы данных, изображения и сценового графа — а также соответствующих подписей. Для каждого графика есть две отдельные подписи: «низкоуровневая», которая описывает построение графика (например, его диапазоны осей), и «высокоуровневая», которая описывает взаимосвязи в данных и сложные тенденции.
Низкоуровневые подписи были созданы автоматически, а высокоуровневые — с помощью людей.
После сбора изображений графиков и подписей исследователи использовали VisText для обучения пяти моделей машинного обучения на базе GPT-3.5 для генерации подписей. Исследователи обнаружили, что их модели с VisText генерировали подписи, которые были более точными и семантически богатыми по сравнению с другими методами автоматического добавления подписей.
Они также провели пользовательские эксперименты, чтобы оценить качество и полезность подписей. Участникам показывали графики с автоматически созданными подписями, а затем они должны были ответить на вопросы, чтобы оценить свою способность понять и запомнить данные. Результаты показали, что подписи, созданные с помощью VisText, помогли улучшить понимание данных.
Как полагают исследователи, VisText представляет собой значимый шаг вперед в развитии автоматических систем добавления подписей к графикам, которые могут помочь исследователям, журналистам и другим пользователям создавать более информативные и доступные визуализации данных.