Почти во всех компаниях сколько-нибудь значимым исследованиям подвергаются лишь структурированные данные. Однако подавляющее большинство корпоративных данных составляет неструктурированный контент.
Наиболее «продвинутыми» с точки зрения использования в своем бизнесе неструктурированных данных являются три отрасли: телекоммуникационный и финансовый сектора, а также розничная торговля. Общим у них является огромное число клиентов, поведение которых, в целях повышения прибыльности бизнеса, следует отслеживать и предсказывать.
Следует отметить, что анализ неструктурированного контента является одной из составных частей проблемы Больших Данных.
«Большие данные — это не только большие возможности, но и большая проблема. Чтобы научиться с ними работать, требуется огромное количество усилий», — констатировал Алексей Евтушенко, директор по ИТ банка «Хоум Кредит», на конференции Data Science 2012. По его словам, данные о поведении клиентов черпаются как из каналов самообслуживания и АБС, так и из внешних источников — баз данных, социальных сетей, форумов, сайтов партнеров.
90% обрабатываемых банками данных поступают именно из АБС и каналов самообслуживания. Возможно, это не полностью отражает реальную ценность внутренних источников данных по сравнению с внешней информацией, но работать с ними проще: информация из них структурирована.
Интернет же представляет собой в чистом виде Большие Данные, со всеми их атрибутами — в том числе разнообразием форматов, скоростью изменения и огромными объемами.
Кто раньше научится извлекать из этих данных максимальную пользу, тот получит огромное преимущество над остальными.
«До определенного времени на многие источники данных просто не обращали внимания, поэтому и про их анализ речи не шло», Максим Романенко, независимый эксперт в области интернет-маркетинга |
Однако для этого требуется совместная работа ИТ и бизнеса, сопровождаемая значительными инвестициями. Необходимо не просто приобретение специализированных решений. Для команды аналитиков требуются специалисты, объединяющие профессиональные знания из многих областей — как бизнеса, так и математических дисциплин. Типичной является ситуация, когда аналитики, получая данные, не в полной мере осознают, как их можно использовать. Бизнес, со своей стороны, далеко не всегда понимает возможности анализа данных и не способен поставить задачу специалистам по анализу.
«Самое большое богатство компании — это данные, которые она собирает о клиентах и окружающем мире. А самый большой секрет заключается в том, как она эти данные использует», — подчеркивает Денис Ирз, директор департамента новых технологий и проектов московского филиала «МегаФона». Очевидно, выделить из залежей пустой породы золотые крупицы — ключ к успеху для многих компаний.
Например, для телеком-оператора крайне важно не только оценивать прибыльность клиентов, что достаточно просто сделать. Более сложной задачей становится отслеживание взаимосвязей между абонентами и выявление персон, влияющих на принятие решений группой других людей. С большой вероятностью такими людьми могут оказаться главы семей или лидеры неформальных коллективов. Именно таким людям следует уделять повышенное внимание: ведь в случае их ухода за ними с высокой вероятностью последует вся группа.
Кроме того, работать с клиентами, зная лишь среднее значение вероятности покупки, крайне неэффективно. Необходимо выделять наиболее лояльных из них, готовность которых к покупкам гораздо выше, и склонять к приобретению услуг.
«Лаборатория «Инвитро» принадлежит не только к здравоохранению, но и ретейлу, объединяя их проблемы», — отмечает Павел Литвинов, генеральный директор «Инвитро — информационные технологии». В частности, для нее крайне важен мониторинг общественного мнения, касающийся качества оказываемых услуг — к этому обязывает слоган «Качество у нас в крови», используемый компанией в маркетинговых целях.
С точки же зрения ценности клиентов ситуация во многом похожа на телеком, где существуют «узловые», наиболее ценные, клиенты. Разница лишь в деталях: как показывает практика, в семье за здоровье отвечает женщина.
Эволюция анализа
«Анализ неструктурированных данных — тема, которая, несмотря на давнюю историю, для многих организаций пока еще в новинку», — считает Дмитрий Романов, директор по развитию технологий информационного менеджмента компании «АйТи». Можно сказать, что сейчас эта тема открывается заново. В последние несколько лет интерес к ней возродился. Если традиционный BI — числовая аналитика — это уже достаточно продвинутая технология, имеющая множество примеров успешной реализации, то анализ неструктурированной информации идет с задержкой в 5–10 лет.
«Разделение данных на структурированные и неструктурированные — это чисто технический подход», — подчеркивает Максим Романенко, независимый эксперт в области интернет-маркетинга. Структурированные данные проще. Это цифры, которые укладываются в формулы и легко могут быть обработаны математически. Но большая часть данных об окружающем мире — неструктурированные.
Кроме того, схемы их обработки сходны: в большинстве случаев мы сталкиваемся с тем, что, хотя компании и начинают анализировать неструктурированные данные, они все равно пытаются привести их к структурированной форме. Так или иначе, весь анализ сводится к математическим (например, процентным) величинам.
Типичный пример неструктурированной информации — сообщения в социальных сетях. Широко используется анализ такой информации на предмет личного отношения пользователей к какой-либо компании или продукту. При этом обычно приходится иметь дело с «грязной» текстовой информацией. Раньше она не подвергалась машинному анализу, но с развитием ИТ-систем это сделать гораздо проще: появились алгоритмы, позволяющие извлекать из текста ценную информацию.
«Это, скорее, эволюция, расширение спектра данных, подвергающихся повседневному анализу», — говорит Романенко. Анализ стал доступнее, теперь он не является таким уж трудоемким. Многие компании, почувствовавшие необходимость в таком расширении, уже достаточно давно применяют соответствующие алгоритмы.
При всем этом большинство корпоративных структур по-прежнему гораздо более серьезно относятся к анализу структурированных данных — финансовой информации, производственных данных. Во-первых, это зарекомендовавшие себя методы, во-вторых, они намного проще. Для анализа же неструктурированных данных требуется создание новых метрик эффективности и осознание новых возможностей их монетизации.
Тем не менее оба вида данных скоро перестанут разделяться в общественном сознании и будут рассматриваться в одном ключе. Это лишь дело времени, так как большинство технологических вопросов уже решено.
В чем причина отставания? По мнению Романова, главная причина в том, что организации лишь сейчас прошли этап первичного накопления неструктурированной информации. Большинство из них внедрили системы электронного документооборота, у них есть электронная почта, активно создаются электронные архивы. Как следствие, в компаниях появилось большое количество неструктурированного контента. Появляются и возможности решать многие проблемы, стоящие перед организацией, путем анализа этой информации.
Простейший пример — корпоративная поисковая система, построенная над электронным архивом. Компании начинают применять различные средства для поиска нужной информации в собственных хранилищах.
Есть и множество других задач, например, связанных с извлечением информации из имеющихся источников неструктурированных данных. При этом источники могут иметь самую разную природу, быть как внутренними, так и внешними.
Применяя подобные средства, компании могут отслеживать поведение своих контрагентов, понимать тенденции рынка, решать задачи, связанные с маркетингом, отслеживать торговые площадки. Множество подобных задач стало возможно решать лишь в последние годы, когда появились достаточно продвинутые технологии и примеры решения подобных задач.
«До определенного времени на многие источники просто не обращали внимания, поэтому и про их анализ речи не шло», — отмечает Романенко.
В 90-х годах Интернет был не таким уж и значительным ресурсом, теперь же его значимость неимоверно выросла.
При отсутствии соответствующих задач не развивались ни дисциплины анализа, ни технологии, не говоря уже о том, что определенные задачи считались невыполнимыми. Например, сейчас одним из распространенных видов анализа является анализ живой речи «на лету». Тем не менее даже среди тех компаний, кто признает важность анализа внешней среды и взаимодействия с ней, подавляющее большинство ограничиваются усилиями сотрудников служб PR и маркетинга, пытающихся отслеживать общее настроение клиентов и управлять им. Настроение таких компаний можно назвать выжидательным: они ждут прорывных результатов от кого-либо из игроков рынка и готовы скопировать удачную практику.
Внешнее и внутреннее
Эффективность внутренних и внешних источников неструктурированных данных сильно зависит от деятельности организации и имеющихся информационных ресурсов. Например, для консалтинговых компаний или тех организаций, для которых знания сотрудников представляют один из основных активов, гораздо важнее внутренние информационные ресурсы. В торговых компаниях или банках приоритет, конечно же, выше у внешних источников.
Действительно, если компания производит и продает потребительские товары, то ей важен широкий спектр данных, начиная от восприятия маркетинга и заканчивая проблемами пользователей, чтобы более точно выяснить источники возникающих проблем.
«Ярким примером возможностей комплексного подхода является анализ продаж», — утверждает Романенко. Здесь многие данные являются структурированными, но их совмещение с неструктурированными данными из социальных сетей проливает новый свет на деятельность компании. Даже если продажи сохраняются на прежнем уровне, компания может упускать значительную часть рынка из-за того, что не прислушивается к покупателям, говорящим о недоработках продукта.
Но несмотря на то что компании все больше внимания уделяют неструктурированным данным, новостей о реализованных проектах на рынке практически нет. О чем это говорит — о том, что внедренных систем просто нет, либо компании не торопятся их афишировать?
«Ряд аналитических задач решается и достаточно широко распространен в нашей стране. В частности, можно говорить об анализе внутренних информационных потоков для задач информационной безопасности», — поясняет Романов. Это большой спектр задач, связанных с защитой от утечек (DLP). Такие проекты руководством не афишируются. Сотрудникам организации далеко не всегда нужно знать, что за их действиями следят.
Еще один фактор заключается в том, что таких проектов действительно относительно мало. Тому несколько причин. Современные корпоративные платформы, обеспечивающие поиск информации, и приложения, построенные на их основе, достаточно дороги. Между тем в Интернете поиск абсолютно бесплатен. Когда выясняется, что на создание аналогичной системы для поиска по корпоративным ресурсам может потребоваться несколько сотен тысяч долларов, возникает психологическое отторжение.
Наконец, еще одна особенность: у приложений такого рода очень широк спектр задач по сравнению с числовой аналитикой. Происходит размывание задач, они решаются в рамках смежных проектов и других систем.
«Компании начинают понимать, что выделять анализ неструктурированных данных в отдельные проекты просто нецелесообразно», — согласен Романенко. Это должно быть частью общей политики анализа данных, доступных как извне, так и внутри. Таким образом, очень часто речь идет о проектах по развитию уже существующих систем.
Испугать или обрадовать?
Одним из интересных направлений обработки неструктурированной информации является анализ речи. Использование подобных систем в нынешнем году начали наиболее прогрессивные контакт-центры. Их задачи примерно одинаковы — определение эмоционального состояния клиентов, а вот цели могут быть различными, в зависимости от сферы деятельности предприятия.
Компания «Национальная служба взыскания» внедрила систему записи и аналитики речи Verint Speech Analytics. Решение позволяет анализировать содержание разговоров операторов, выделяя полезную информацию, в том числе их эмоциональную окраску.
Качественной работе операторов компания уделяет большое внимание, стараясь сократить число неэффективных звонков. Как утверждает ее руководство, в результате внедрения системы объем не приносящих прибыли вызовов удалось снизить на 9%. Остается только догадываться, какие доводы должен использовать оператор, чтобы система, проанализировав голос собеседника, признала его работу «качественной».
Аналогичная по функционалу система, разработанная «Центром речевых технологий», используется в аутсорсинговом контакт-центре «Телеком-Экспресс». Получаемые показатели, во-первых, позволяют отслеживать тематику звонков, а во-вторых — применяются для автоматической оценки качества работы операторов и степени удовлетворенности абонентов. Аналитика формируется в автоматическом режиме, что особенно ценно: это означает ее невысокую себестоимость.
Для выявления проблем применяется лексико-семантический анализ: определяется, прозвучали ли в ходе разговора ожидаемые слова и не произносились ли те фразы, которых в диалоге быть не должно.
Другое дело, что есть много спорных вопросов, касающихся политики безопасности. Даже анонимное отслеживание каких-то данных через источники, по которым можно найти их автора, может создать проблемы — законодательство разных стран относится к этому по-разному. Многие международные компании ограничены с этой точки зрения — вполне легальные в одной стране процессы могут быть признаны незаконными в другой.
Отдельную категорию аналитических систем, о внедрении которых не распространяются, составляют средства бизнес-разведки. «Интерес к таким решениям на рынке существует, причем достаточно большой. Компании используют и информационную разведку, и даже контрразведку», — утверждает Романов. Часто подобные задачи решают путем привлечения сервисных компаний, которые, например, подсчитывают индексы информационного благоприятствования компаний и отдельных персон в Интернете, отслеживая количество и тональность упоминаний во внешней среде.
Такие системы бывают и внутренними, но надо понимать, что это удовольствие — не из дешевых. Отслеживание интернет-пространства, даже в ограниченном объеме, — весьма затратная вещь и не каждой компании по силам.
Компромиссным с этой точки зрения подходом являются использование дешевых ресурсов и ограниченный объем объектов мониторинга.
«Использование ручного труда вполне имеет право на существование. Как обычно, вопрос в том, насколько
в долгосрочной перспективе такие инвестиции принесут пользу», — констатирует Романенко.
Если проект одноразовый, использование недорогих ресурсов вполне может быть оправданным. Конечно, получаемые при этом возможности тоже будут ограниченными.
Если же анализ данных включен в долгосрочные планы, а масштабы собираемой информации велики, то необходимые ресурсы будут сопоставимы по стоимости с внедрением ИТ-системы. При этом по скорости получения результатов и качеству анализа ИТ дают фору ручной обработке.
«Двумя студентами, отслеживающими определенные ресурсы, не обойдешься», — предупреждает Романов. Например, в компании «Медиалогия», которая не только является разработчиком одноименного решения, но и предоставляет рынку аутсорсинговые услуги, работают несколько сотен человек. Информационную поддержку крупной распределенной компании обеспечить непросто: есть региональная пресса, специализированные издания, социальные сети. Отследить их вручную практически невозможно.
Анализ потоков
Если посмотреть на деятельность современной организации, то можно увидеть, что все виды взаимодействий между людьми оставляют «следы», когда те перезваниваются, пишут письма, взаимодействуют в рамках корпоративных систем. Все факты передачи информации фиксируются, и, анализируя информационные потоки, можно выяснить, как взаимодействуют сотрудники. Это дает возможность решать массу задач, связанных с совершенствованием бизнес-процессов и управления в целом, с нахождением узких мест и информационных разрывов. Таким образом, менеджмент в постиндустриальную эпоху, в условиях экономики знаний может и должен быть представлен как точная наука.
«Мы получаем возможность взглянуть на деятельность организации «сверху», понять, как она устроена, какая преобладает корпоративная культура. Эти возможности отсутствовали раньше», — говорит Романов.
Один из первых программных продуктов, созданных «АйТи» совместно с ВШЭ, — система поиска экспертов. Благодаря анализу информационного контента она позволяет строить профили компетенций сотрудников и находить по запросу людей, релевантных заданной тематике.
Следствием является решение ряда практических задач. Типичной для крупных компаний является картина, когда люди, работающие в соседних комнатах, не представляют, чем занимаются их соседи. Из-за этого масса знаний пропадает — они оказываются неиспользуемыми, а многие работы приходится делать каждый раз заново. Поиск экспертов позволяет сократить время на обнаружение нужной информации или путей решения задач.
Кроме того, анализ обмена информацией выявляет информационные разрывы бизнес-процессов — места, где теряется информация. Не меньшую проблему представляют сотрудники, к которым, наоборот, сходится слишком много информационных потоков: такая перегруженность может вести к неэффективности, хотя об этом никто не подозревает.
Рыболовный имидж
Примером комплексного решения аналитических проблем является cитуационный центр, построенный Росрыболовством. В отличие от большинства подобных центров, он не только отображает информацию и обеспечивает удаленное взаимодействие, но еще моделирует и анализирует ситуации. Автоматизированные средства обеспечивают сбор и консолидацию как структурированной, так и неструктурированной (текстовой и аудиовизуальной) информации из внутренних и внешних источников.
Неструктурированная информация используется для мониторинга освещения в СМИ повседневной деятельности Росрыболовства и возникающих нештатных ситуаций.
Ее обработка заключается в классификации, кластеризации и формировании показателей упоминаемости объектов или персон, а также в оценке тональности высказываний. Полученные от поисковых систем данные обрабатываются с помощью синтаксического и семантического анализа, а затем категоризируются по нескольким десяткам тематических рубрик.
Функциональные возможности ситуационного центра были использованы для контроля ситуации, возникшей вокруг потенциально возможного радиоактивного заражения рыбопродукции после катастрофы на АЭС «Фукусима-1». Мониторинг и анализ неструктурированной информации производились также при рассмотрении различных аспектов введения платы за любительскую рыбную ловлю — в частности, при освещении этой темы в СМИ.