По оценкам аналитиков, объемы созданных во всем мире данных уже измеряются единицами зеттабайт и ежегодно удваиваются, однако 80% этих данных — неструктурированные. Источники таких данных столь же разнообразны, как и их типы: сайты, социальные сети, корпоративные порталы, архивные хранилища, системы видеонаблюдения, системы аудиоконференций и т. п. Еще в 1998 году аналитики из Merrill Lynch высказали предположение, что 80–90% информации, потенциально полезной для бизнеса, может быть извлечено именно из неструктурированных данных.
В какой бы области ни функционировала компания, ее руководство постоянно сталкивается с необходимостью принятия решений. Понятно, что чем более взвешенными и правильными они будут, тем успешнее будет компания. Решение может быть основано на многих факторах: собственном опыте, интуиции, советах «извне», но в любом случае оно должно приниматься после предварительного анализа исходных данных, предполагающего «просев» больших массивов различных сведений путем применения методов классификации, категоризации и моделирования с целью обнаружения скрытых закономерностей. Одним из условий для успешного «просева» является большое количество сырых данных, и с этой точки зрения именно неструктурированные данные оказываются наиболее перспективным источником.
Но анализ неструктурированной информации крайне сложен и требует применения комплексных, интеллектуальных инструментов. Традиционные методы анализа, такие как категоризация и кластеризация, используемые при анализе таблиц из баз данных, с неструктурированными данными работают плохо либо не работают вообще. Причиной тому является многообразие и сложность естественного языка — одна и та же мысль может быть выражена совершенно разными словами, хотя суть остается одинаковой.
Одним из инструментов анализа неструктурированных данных является программный комплекс HP Autonomy, включающий в себя набор коннекторов для сбора данных из различных источников (текстовые файлы различных форматов, веб-страницы, аудио- и видеопотоки, почтовые сообщения), центральный аналитический движок Intelligent Data Operating Layer (IDOL), набор веб-интерфейсов визуализации результатов анализа и инструментарий для проведения дополнительного глубинного анализа.
Рис. 1. Распараллеливание в Autonomy |
Аналитический комплекс, построенный на базе HP Autonomy, может иметь в своем составе множество серверов IDOL для горизонтального масштабирования с целью обработки больших объемов данных. Серверы объединяются между собой при помощи сервисов DIH (Distributed Index Handler) и DAH (Distributed Action Handler), отвечающих за организацию параллельной работы с индексами и обработку запросов сразу несколькими серверами IDOL (рис. 1). Информация поступает к серверам IDOL через множество готовых коннекторов (более 500) или созданных для подключения к узкоспециализированным системам. Коннекторы помещают контент в хранилище CFS (Connection Framework Server), где производится индексирование его в формат XML или IDX для дальнейшей обработки серверами IDOL (рис. 2.). Результаты анализа сохраняются в формате xml и могут затем использоваться для отображения выводов или более глубокого анализа.
Рис. 2. Технологическая цепочка Autonomy |
Отличительной особенностью IDOL является то, что он пытается «понять» смысл данных, используя для этого метод Байесовского вывода и теорию информации Клода Шеннона совместно с традиционными подходами к анализу. В свое время Шеннон предположил, что естественные языки имеют высокий уровень избыточности содержимого, не имеющего отношения к смыслу доносимой информации, как, например, при разговоре двух людей в шумном помещении. Несмотря на то что часть слов теряется, смысл сказанного все равно понятен собеседникам, и это можно использовать при извлечении сути документов из ненужных и избыточных слов. Байесовская теория заключается в расчете вероятности события с учетом статистики его совершения в прошлом и в IDOL применяется для определения категории документов, исходя из статистического анализа встречающихся в документе слов. Совместное использование этих подходов позволяет серверам IDOL классифицировать и анализировать содержимое документов.
Сегодня именно неструктурированные данные потенциально имеют наибольшую ценность в качестве источников новых знаний, и чем больше таких данных имеется для анализа, тем точнее результаты. С этой точки зрения интересна возможность использования для анализа одновременно нескольких дополняющих друг друга источников данных, например внутреннего корпоративного портала и социальных сетей. Корреляция поиска или анализа информации из разных источников может натолкнуть на новые выводы, выявить скрытые тенденции или причинно-следственные связи.
Способность Autonomy «понимать» смысл текста может служить основой для автоматизации работы контактных центров, например на первой линии поддержки. Подобное решение реализовано в одной бюджетной организации в Турции, где недостаток квалифицированного мультиязычного персонала компенсировался автоматизированным комплексом, автоматически обрабатывающим поступающий от абонента по электронной почте запрос, который категоризировался системой Autonomy, оценивавшей проблему. Если запрос был типовым, то на него автоматически готовился ответ и пересылался абоненту, в противном случае запрос пересылался на вторую линию поддержки.
К числу классических задач бизнес-анализа относится оценка причин оттока клиентов (customer churn), например от оператора связи. Обычно задача сводится к статистическому анализу данных об использовании абонентом услуг оператора: общий объем разговоров, число мгновенных сообщений, работа с Интернетом, число обращений в службу поддержки и, главное, отказался или нет данный абонент от тех или иных услуг оператора. Анализ позволяет составить некий профиль абонента, который с большей вероятностью откажется от услуг оператора, — скажем, абоненты, разговаривающие по телефону более одного часа в день и обратившиеся в службу поддержки более трех раз в месяц, откажутся от услуг оператора с вероятностью в 90%. Система Autonomy позволяет добавить в анализируемые данные еще и содержание разговоров абонента со службой поддержки, что привносит оценку личности абонента (спокойный, агрессивный и т. д.) для еще более точного определения вероятности отказа от услуг оператора. Подобный анализ может быть использован также для подготовки сценариев общения операторов с абонентами и для составления программ их тренинга.
Способность Autonomy «понимать» смысл обрабатываемой информации нашла свое применение в электронной торговле — интернет-магазины получили возможность отслеживать отзывы о продаваемых продуктах через сайты или социальные сети. Алгоритмы, заложенные в основу системы, позволяют оценивать эмоциональный окрас отзыва, оставленного относительно того или иного товара, — агрегируя результаты анализа и предоставляя их в графическом виде, можно получить общую картину продаж и качества товаров. Графической интерпретацией анализа может быть, например, пузырьковая диаграмма, в которой каждому «пузырьку» соответствует товар или группа товаров, его размер определяет число отзывов, а цвет — превалирование положительных или отрицательных отзывов. Дальнейший углубленный анализ каждого «пузырька» позволит более точно выяснить причины негативных отзывов. Знания, полученные в ходе анализа, могут быть использованы для планирования ассортимента и объемов закупок.
В современном мире репутация компании так же важна для ее успеха, как и удачная стратегия развития и хорошие квартальные отчеты, поэтому особое значение приобретает процесс постоянного мониторинга СМИ. Для этого в составе продукта HP Autonomy предусмотрены агенты — модули программы, «обученные» просматривать источники данных, например новостные сайты, и находить страницы и публикации, соответствующие определенной тематике. Такие обучаемые агенты при правильных настройках могут достаточно точно определять страницы, имеющие отношение к интересующей теме, и отсекать страницы, содержащие те же ключевые слова, но относящиеся к другим предметным областям. Процесс базового обучения агента достаточно прост — ему задаются источники поиска информации и основные ключевые слова для поиска. Агент производит поиск и возвращает все страницы, соответствующие запросу, разбитые по категориям. Категории создаются на основе «понимания» смысла страниц. Аналитику остается выбрать корректные категории и отсечь некорректные, после чего повторить поиск. Когда процесс обучения будет закончен, агент будет с определенной периодичностью просматривать сайт и возвращать новые новостные публикации, если таковые найдутся. Один движок IDOL может иметь множество агентов, которые по одним и тем же критериям будут просматривать сайты в поисках публикаций. Причем возможен также кросс-языковой поиск, что позволяет осуществлять поиск и корреляцию публикаций с зарубежными сайтами. Публикации, найденные всеми агентами, будут анализироваться одним общим движком, что позволит иметь целостную картину по публикациям, полученным с разных сайтов. Результаты могут быть агрегированы и представлены в графическом виде.
Другой вид аналитики — внутренние расследования (Early Case Assessment) — заключается в поиске и защите от удаления документов, имеющих отношение к расследуемому инциденту. Система анализа неструктурированных данных подключается к разным корпоративным источникам (почтовые серверы, корпоративные порталы, записи телефонных и видеоконференций) и проводит сбор данных, приводя их к единому внутреннему формату, при необходимости используя конвертеры, такие как системы распознавания голоса. После преобразования производится первичная индексация всего полученного контента. Далее аналитик вводит первичный запрос для поиска информации по интересующему инциденту. Помимо вывода результатов, касающихся напрямую итогов поиска, Autonomy также выводит рекомендации по новым запросам (Query Expansion List), которые могут расширить знания об интересующей аналитика теме.
Документы, заинтересовавшие аналитика, могут быть защищены от удаления — помещены в репозиторий (Legal Hold) до окончания расследования. Помимо собственно поиска документов, Autonomy может выстраивать взаимосвязи между ними. Так, при нахождении письма, содержащего интересующую информацию, можно проследить, кому оно было отправлено. Также можно отслеживать и отображать в графическом виде историю переписки для выявления групп пользователей, проводивших обсуждение на определенную тему, которая может отличаться от явно указанной в заголовке письма или вступительных фразах его тела, — систему интересует именно смысл переписки.
***
Комплексные системы анализа неструктурированных данных могут стать эффективным инструментом практически при любом сценарии использования. Главными критериями успешной работы аналитической системы являются наличие больших объемов данных и достаточное число специалистов, способных правильно сформировать запросы к системе и интерпретировать результаты.
Антон Иванов (aivanov@i-teco.ru) — начальник отдела компании «Ай-Теко» (Москва).