Визуальный анализ данных из СМИ

Благодаря ежегодному тридцатипроцентному росту общей емкости систем хранения данных, а также увеличению пропускной способности сетей и вычислительной мощи процессоров в последнее десятилетие появилась возможность собирать, передавать и обрабатывать беспрецедентные объемы данных. В результате возникли новационные программные системы коммерческого, научного и государственного применения, которые анализируют Большие Данные и извлекают из них ценные сведения, помогающие в принятии решений в системах анализа взаимоотношений с клиентами, при работе на финансовых рынках, в оценке демографических сведений и данных компьютерного моделирования.

Пользователи социальных СМИ генерируют всевозможные формы, как правило, неструктурированного контента: видео, изображения, текст, данные геолокации и т. п. — который можно использовать для многих целей. Коммерческие компании могут оптимизировать свои бизнес-процессы, политики — выявлять тенденции общественного мнения, медики — проводить мониторинг вспышек инфекционных заболеваний и координировать спасательные операции после стихийных бедствий. Богатую пищу для исследований социальные СМИ дают социологам и культурологам. Однако использование таких данных создает немало сложностей: данные огромны по объему и обычно передаются высокочастотными потоками; они многоформатны и нередко неоднозначны по содержанию, которое сильно зависит от контекста и пользователей; шаблоны общения внутри различных видов социальных СМИ и в Интернете в целом постоянно меняются.

Традиционные технологии позволяют решить некоторые задачи, возникающие при обработке и анализе больших наборов неструктурированных данных, — например, системы обнаружения знаний, действующие по принципу машинного обучения, автоматически распознают закономерности, которые можно описать алгоритмически. Средства интерактивной визуализации, в свою очередь, преобразуют сложные данные в наглядные образы, позволяющие пользователю выявлять примечательные связи. Относительно новая дисциплина — визуальный анализ — объединяет преимущества двух этих подходов, позволяя лучше разбираться в Больших Данных. Механизмы обнаружения знаний уменьшают путем фильтрации объемы сырых данных, а средства интерактивной визуализации затем упрощают работу аналитиков. На примере визуального анализа данных из социальных СМИ можно увидеть многочисленные преимущества такого интегрированного подхода.

Данные из социальных СМИ

Под социальными СМИ понимаются все виды сервисов, с помощью которых взаимодействуют группы пользователей, генерируя информацию, обмениваясь ею и дополняя ее в рамках сетевых распределенных параллельных процессов. Популярные примеры: Twitter — текстовые сообщения, блоги и дискуссионные форумы — комментарии и мнения, Flickr — фотоснимки, Youtube — видео, OpenStreetMap — геопространственные данные. Общая черта всех этих сервисов заключается в возможности для пользователей образовывать группы по интересам или налаживать иные виды социальных связей (например, авторы-читатели в Twitter).

Социальные СМИ генерируют колоссальные объемы данных, которые могут содержать ценную во многих отношениях информацию. Более того, доступ к этим данным может получить любой, что позволяет создавать приложения совершенно новых типов. Исследователи могут пользоваться данными социальных СМИ для ознакомления с мнениями о новых товарах и услугах, слежения за тенденциями моды и культуры, фиксации негативных реакций на предписанные лекарства и слежения за эпидемиями инфекционных заболеваний, выявления фактов мошенничества и иных видов криминальной деятельности, выяснения откликов публики о политическом кандидате или законопроекте, распознавания дефектов автомобилей, изучения покупательских привычек различных демографических групп и т. д. Однако обрабатывать все многообразие форматов социальных данных непросто — например, сообщения в Twitter очень короткие, что затрудняет их контекстный анализ. К тому же социальные СМИ обычно развиваются динамически, порождая новые языковые формы: сленг, аббревиатуры и т. д. — которые трудно обрабатывать с помощью существующих методов анализа текста. Затрудняет оценку содержания и «семантический разрыв» — различия между описаниями одного и того же предмета на разных языках. Типы данных чаще всего смешанные, что еще больше усложняет обработку. Например, многие сообщения в Twitter и посты в форумах помимо текста содержат гиперссылки на веб-контент, геолокационную информацию и отметки даты. Кроме того, в связи с огромными объемами данных, генерируемых социальными СМИ, необходимы высокопроизводительные методы их поточной обработки.

Вместе эти трудности делают пока нереализуемым комплексный автоматизированный анализ данных социальных СМИ, и проводить исследования можно только с участием пользователя. Визуальные репрезентации удобны, когда нужно получить первичный обзор данных, позволяющий аналитику найти и изучить примечательные аспекты. Наглядные репрезентации взаимного влияния и зависимостей различных анализируемых параметров помогают повысить результативность анализа — например, за счет устранения неоднозначностей при распознавании текста или образа либо за счет ограничения пространственно-временных рамок анализа.

Визуализация данных социальных СМИ

Рост объемов данных социальных СМИ и появляющиеся в связи с этим возможности вызвали бурное развитие визуальной аналитики — созданы многочисленные системы, извлекающие ценную информацию из потоков данных социальных СМИ. Эта информация коррелируется с текстовыми, геолокационными и другими контекстными данными, а результаты представляются в виде всевозможных наглядных интерактивных отображений.

Рис. 1. Прототипы систем визуальной аналитики данных социальных СМИ: а — LeadLine; б — SensePlace2; в — «визуальный обратный канал» комбинирует текст, прикрепленные изображения и ники авторов, взятые из Twitter; г — древовидная репрезентация дискуссий может помочь исследователям в анализе чатов в социальных СМИ

Система LeadLine (рис. 1, а) обрабатывая текст, извлекает из потоков данных социальных СМИ события и классифицирует их по темам, персоналиям, местонахождению и времени (в данном примере речь идет о событиях, касающихся нынешнего американского президента). Система отображает результаты в виде графика, на котором связанные события отмечены цветными «взрывами».

Система SensePlace2 (рис. 1, б) создана по результатам анализа требований сотрудников спасательных организаций. Она обеспечивает ситуационную осведомленность, предоставляя инструмент мониторинга геолокационных данных из Twitter о стихийных бедствиях и пандемиях. На приведенной иллюстрации отслеживается фиктивная вспышка лихорадки денге на северо-западе США.

На рис. 1, в показан «визуальный обратный канал», комбинирующий текст, прикрепленные изображения и ники авторов в Twitter. Система позволяет визуально исследовать развитие онлайн-дискуссий о крупных событиях, таких как выступления политиков, стихийные бедствия и спортивные состязания, с помощью: графика «потоков тем»; «спирали имен», перечисляющей участников дискуссии и их действия; перечня постов и облака популярных снимков, отсортированных по размеру. Контент социальных СМИ генерируется в рамках непрерывного процесса общения между участниками сообщества. Помочь исследователям в анализе таких дискуссий могут их древовидные репрезентации (рис. 1, г).

Далее приведен анализ ряда способов визуального анализа данных социальных СМИ, в том числе снимков, лент новостей и сообщений микроблогов с данными геолокации.

Коллективные наборы снимков

Сайты социальных СМИ наподобие Flickr и Panoramio дают пользователям всего мира возможность делиться изображениями, в результате формируются обширные репозитории снимков. Flickr, например, объявил, что в августе 2011 года число загруженных в сервис снимков превысило 6 млрд и что ежедневно в нем появляется больше 1,4 млн новых общедоступных изображений. В таких снимках нередко содержится информация о времени и месте (либо в пользовательских аннотациях, либо в форме внедренных отметок о времени и метаданных GPS). Эти сведения позволяют выяснить закономерности распределения точек съемки и предпочтений пользователей, в том числе в зависимости от времени. Средства визуальной аналитики позволяют задавать различные параметры для исследования — например, можно выяснить самые посещаемые туристами места в определенном районе, исходя из количества сделанных снимков.

Исследователи из Боннского университета и Университета Констанца изучали коллекцию из примерно 600 тыс. снимков Panoramio, сделанных в Германии между 2005 и 2009 годами. На рис. 2, а показана «тепловая» карта распределения снимков в центральном Берлине, составленная по методу ядерной оценки плотности. Красные и белые области отмечают места с большим числом снимков, например Бранденбургские ворота и здание Рейхстага. Этот несложный визуальный анализ будет полезным, скажем, для учреждений, отвечающих за развитие туризма и планирование города.

Рис. 2. Применение визуального анализа к снимкам центрального Берлина из социальных сетей: а — «тепловая» карта распределения снимков, полученная методом оценки плотности ядра (красные и белые области обозначают места с большим числом снимков, то есть самые популярные достопримечательности); б — карта маршрутов, по которым ходят фотографы, составленная методом кластерного анализа траектории (стрелки обозначают направление и мощность потока)

Пользуясь метками времени снимков, можно распознавать маршруты, по которым перемещаются фотографы, а по набору всех маршрутов можно выделить наиболее заметные потоки методом кластерного анализа траектории. На рис. 2, б показана карта Берлина, по которой можно легко выяснить самые популярные маршруты между достопримечательностями. Заметно, что основной поток на севере движется в обоих направлениях, тогда как южный главным образом идет с запада на восток. Информация такого рода будет ценной для прогнозирования пробок и планирования улучшений сети дорог.

Все эти результаты основаны исключительно на содержащихся в снимках метаданных, а если воспользоваться средствами распознавания образов, то можно провести более широкий анализ — например, для выяснения закономерностей погоды, а также присутствия автомобилей, групп людей и других объектов на снимках.

Потоки новостей

Масса информации представлена в текстовой форме — во всем мире газеты, журналы, информационные агентства и т. д. ежедневно публикуют десятки тысяч новостных сообщений. Они могут содержать сведения, представляющие интерес для широкой аудитории (например, о политических событиях) либо для более узкой (например, отчет о финансовых показателях какой-либо коммерческой компании). В блогах организаций и людей обычно публикуются тексты, написанные менее официальным языком. Объем опубликованного текстового контента в WWW огромен и постоянно растет, в связи с чем аналитикам становится все труднее следить за массой информационных поводов и событий. На помощь приходят системы автоматизированной обработки текстов, которые в последние годы сделали большие шаги вперед — например, появились новые методы, позволяющие находить документы похожего содержания, извлекать имена людей и названия мест, группировать документы по темам. При совместном применении этих методов с интерактивной визуализацией можно отслеживать изменения тематики потоков текста в зависимости от времени. Такую систему разработали в Университете Констанца — сначала она группирует документы из потока новостей на основе сходства содержания, а затем определяет самые важные темы. Результаты система отображает в виде столбцов с перечнями ключевых слов, отражающих содержание главных новостей за конкретный день.

Со временем распределение тем новостей или блогов меняется: какая-то тема может освещаться шире, порождать подтемы либо, наоборот, исчезать из виду, уступая место новым. Система регистрирует эту эволюцию и с помощью наглядного представления в виде древовидной структуры показывает потоки появляющихся, исчезающих, объединяющихся и ветвящихся тем.

Рис. 3. Отображение потока новостей в виде древовидной структуры: а — ключевые слова в столбцах отмечают главные темы новостей каждого дня, прозрачные полосы соединений обозначают появление, исчезновение, объединение и разделение тем со временем; б — дополнительные подробности по выбранной теме

На рис. 3, а показан поток главных тем новостей за четыре дня в начале 2011 года. В центре внимания тогда находилось протестное движение против президента Египта Мубарака. Как видно из двух столбцов слева, новости в первые два дня касались обсуждения возможного нового президента Омара Сулеймана и протестов на площади Тахрир в Каире. В третий день освещение этих событий в новостях объединилось, и со временем два информационных повода стали тесно связанными. Параллельно развивались другие крупные события: Кубок мира по крикету и слушания по делу об экстрадиции Джулиана Ассанджа.

В качестве ключевых система отбирает только слова, значение которых можно однозначно интерпретировать. Как показано на рис. 3, б, пользователь может выбрать тему для более подробного изучения — система отобразит заголовки, сводку и наиболее популярные URL источников новости.

Сообщения микроблогов с позиционированием

В Twitter и других сервисах микроблогов ежедневно публикуются миллионы сообщений. В связи с появлением во многих странах практически повсеместного мобильного доступа к Сети и доступностью недорогих приемников GPS все больше сообщений микроблогов сопровождаются отметками места, которые можно анализировать наряду с текстовым содержанием.

В 2011 году в рамках конкурса IEEE VAST Challenge, проходившего на конференции по визуальной аналитике, исследовательским командам дали задание проанализировать около миллиона сообщений Twitter с отметками местонахождения, чтобы охарактеризовать эпидемию гриппоподобного заболевания в фиктивном городе Вастополисе. Команда Университета Констанца разработала интерактивную систему, фильтрующую данные по месту и времени. Исследователи смогли отследить развитие эпидемии, руководствуясь изменениями в количестве сообщений, поступающих из городских больниц.

Рис. 4. Применение визуальной аналитики для исследования георазмеченных сообщений микроблогов о фиктивной вспышке эпидемии: а — облака слов с интерактивной фильтрацией позволяют выяснить примечательные закономерности; б — система ScatterBlog комбинирует облака слов с традиционной картой; в — механизм автоматического распознавания аномалий сравнивает содержание и частоту сообщений с историческими данными, чтобы выделить потенциально важные закономерности

На рис. 4, а показан интерфейс системы, точками отображаются сообщения на карте. Изучение содержания сообщений с помощью словесных облаков позволило выяснить главные ключевые слова, относящиеся к симптомам заболевания. В Штутгартском университете, в свою очередь, создали систему ScatterBlog (рис. 4, б), которая накладывает главные ключевые слова на обычную географическую карту.

В системе, созданной в Университете Констанца, также есть средства автоматизированного анализа. Как показано на рис. 4, в, механизм распознавания аномалий сравнивает содержание и частоту сообщений с историческими данными для выделения потенциально важных закономерностей. Но, как правило, чтобы определить явления, действительно представляющие интерес, нужны отклики реальных пользователей. Автоматизированный анализ успешно справляется с распознаванием аномалий, но анализ их первопричин выполняет человек.

Что дальше?

Сегодня визуальная аналитика — это одно из передовых направлений исследований. Объединение интерактивной визуализации с автоматизированным анализом данных открывает новые возможности. Применение данной методологии для анализа больших объемов сложных данных, генерируемых социальными СМИ, способно принести пользу во многих предметных областях, но есть и трудности. Разработчикам систем визуальной аналитики нужно добиться удачного баланса между автоматизированным анализом и интерактивными исследованиями, выполняемыми вручную. Нынешние системы часто слишком фокусируются лишь на одном из этих аспектов, но во многих случаях это не лучшее распределение работы между компьютером и человеком, чей творческий подход и способность подмечать важное пока еще превосходят машинные. Чтобы решать реальные задачи, нужно обеспечить более гармоничный процесс взаимодействия пользователя и компьютера, позволяющий максимально задействовать аналитические способности людей и машин. Компьютер мог бы, например, автоматически предлагать оптимальные методы ручного анализа и формы наглядного представления данных.

Кроме того, для визуальной аналитики нужна более четкая таксономия. Пространство проектирования нынешних систем строится по упрощенной модели, состоящей из пяти параметров: требования к приложению, типы данных, а также методы визуализации, добычи данных и взаимодействия с пользователем. Исследователи только недавно начали делать попытки составления более четких классификаций. Например, была предложена классификация средств визуализации по типам данных и решаемым задачам. Но в этой области нужны дальнейшие исследования. Подробные таксономии и отклики о приложениях помогут разработчикам средств визуальной аналитики лучше моделировать функциональные зависимости между различными параметрами.

***

Возможности извлечения полезных знаний из данных социальных СМИ пока используются лишь минимально. Достижения в области обработки естественного языка и извлечения информации позволят задействовать более крупные потоки данных, распознавать специфическую для того или иного сообщества терминологию и объединять разные типы данных — например, связи между пользовательскими профилями, внедренные или указанные по ссылке данные мультимедиа и актуальные новости. В то же время прогресс в области визуализации данных сделает проще мониторинг и исследование информации из социальных СМИ — автоматизированные системы смогут динамически подстраиваться в зависимости от знаний и умений аналитиков.

У визуального анализа социальных СМИ масса потенциальных применений. Такие системы, например, могли бы помогать спасателям следить за ситуацией, оптимально распределять ресурсы и координировать действия. Международная спасательная операция, последовавшая за землетрясением на Гаити в 2010 году, стала первой серьезно полагавшейся на социальные СМИ: с помощью Twitter осуществлялись планирование и мониторинг спасательных работ, а участники проекта OpenStreetMap в считанные дни составили карту повреждений инфраструктуры острова, оказав неоценимую поддержку спасателям. С появлением более совершенных средств визуальной аналитики специалисты и все желающие смогут пользоваться данными социальных СМИ как для помощи при стихийных бедствиях, так и для решения многих других задач.

Тобиас Шрек, Даниэль Кейм ({ tobias.schreck , daniel.keim }@uni-konstanz.de) — преподаватели визуальной аналитики, Университет Констанца (ФРГ).