Евгений Олейник: «Структурировать данные нужно в тех случаях, когда пользователь хочет ознакомиться с документами или наборами данных» |
Многие представители российских компаний даже не представляют, какую пользу могли бы получить их организации от Больших Данных. Более того, подавляющее их большинство пока не видит Больших Данных у себя внутри и не рассматривает возможность анализировать такие данные из внешних источников. О возможностях технологий Больших Данных и потенциале их применения в бизнесе в ходе конференции Big Data 2013 рассказал Евгений Олейник, руководитель департамента HP Autonomy в Центральной и Восточной Европе.
- Работа с какой категорией Больших Данных преобладает в данный момент — с большими массивами данных, с потоками данных, которые надо обрабатывать быстро, или с данными, которые характеризуются большим разнообразием форматов и источников?
На данном этапе рынок требует применения комбинированного подхода: нужно уметь консолидировать данные из разных источников и осуществлять анализ сразу по всем источникам, которые отслеживаются, причем очень оперативно — зачастую в реальном времени. Приведу пример — обеспечение общественной безопасности. Здесь применим комбинированный подход – анализ данных соцсетей и систем видеонаблюдения по городу. На основе полученных данных устанавливаем место проведения акций и примерное количество людей. Не секрет, что среди спортивных болельщиков встречаются и хулиганы. Зачастую они договариваются о своих акциях, используя возможности Интернета. Если отслеживать и анализировать поток данных из соцсетей в реальном времени, то можно предотвратить запланированные сходки. Такой метод можно также использовать для отслеживания и поиска преступников — здесь комбинированный подход заключается в консолидации информации из розыскной базы данных, фотографий, записей камер видеонаблюдения и общения в соцсетях.
Другой пример — компания выводит на потребительский рынок новый продукт. Ей важно проанализировать первые отзывы потенциальных клиентов и при необходимости как можно быстрее внести изменения либо в сам продукт, либо в маркетинговую кампанию по его выводу. Для этого нужно оперативно, фактически в режиме реального времени, отслеживать и анализировать данные, начиная с письменных и электронных обращений (например, заявлений в банк), отзывов в соцсетях и заканчивая записями разговоров в контакт-центрах (например, когда звонят недовольные качеством продукта клиенты).
- Какие подразделения коммерческих предприятий и организаций могли бы получить пользу от сбора, хранения и анализа неструктурированных Больших Данных?
Это могут быть службы безопасности. Их методы получения пользы — анализ записей с камер видеонаблюдения на предмет правонарушений, анализ общения работников компании в соцсетях на предмет утечки конфиденциальной информации и контроль за соблюдением политик безопасности компании. Это юридические и аудиторские подразделения. Их метод — анализ всей корпоративной переписки и документации для предоставления в суд, а также для проведения внутрикорпоративных расследований и аудита. Для отделов маркетинга методы получения пользы — анализ мнений в соцсетях, многоканальная аналитика (сразу по всем каналам взаимодействия компании с клиентами), сбор и анализ информации из медиаисточников о ценности бренда. Для аналитических отделов — сбор статистики из хранилищ документов, соцсетей и новостных источников.
Приведу пример для аналитического отдела страховой компании. На текущий момент для оценки стоимости страховых пакетов используется статистика из структурированных источников: количество страховых случаев, стоимость и тип страхуемого имущества и т. д. На мой взгляд, более эффективно использовать комбинированный подход для оценки стоимости страховки (структурированные и неструктурированные источники). Можно добавить в «профиль» клиентов параметры, собранные из соцсетей и новостных источников. Например, склонен ли тот или иной клиент к риску, как часто попадает в различные происшествия, какова вероятность природных и техногенных катастроф в местах, где он проживает или часто бывает, и т. д. Основываясь на совокупности всех собранных параметров, можно предложить клиентам максимально персонифицированные страховые пакеты. Уверен, это конкурентное преимущество для страховой компании.
- Неструктурированных данных много, однако лишь очень малая их часть представляет реальную ценность для бизнеса. С помощью каких методов можно выделить ценные данные из больших массивов и неструктурированных потоков?
Вендоры используют различные методики. Наша платформа Intelligent Data Operating Layer позволяет анализировать огромные массивы неструктурированных и структурированных данных из внутренних и внешних источников, вычленять в каждом документе основные идеи, понятия, сущности и устанавливать связи между ними. В результате получаются семантические сети. Их преимущество в том, что они позволяют искать документы с учетом ассоциативных связей между объектами, которые содержатся в описаниях. Например, если описать в поисковике на основе IDOL понятие яблока, но не упоминать само слово «яблоко», можно найти все статьи о яблоках.
- Есть ли смысл бороться с разреженностью неструктурированных Больших Данных, пытаясь повысить их содержательность, информативность? Может ли здесь помочь преобразование их в структурированные данные?
Существуют разные ответы на этот вопрос. Подход HP Autonomy следующий: во-первых, необходимо сохранить первичные данные как есть. Во-вторых, мы считаем, что переводить все неструктурированные Большие Данные в структурированные не нужно — это слишком масштабная задача. Наша основная идея — получить все необходимые данные, загрузить их в системы хранения, при необходимости сжать, затем проиндексировать и выявить все интересующие бизнес-заказчиков ассоциативные связи. После этого можно реализовать практически любой бизнес-сценарий.
- В каких случаях есть смысл преобразовывать Большие Данные из неструктурированных в структурированные, чтобы их дальнейшая обработка принесла существенную пользу бизнесу?
Структурировать данные нужно в тех случаях, когда пользователь хочет ознакомиться с документами или наборами данных. Например, проводя расследование утечек конфиденциальных данных, можно выделить подмножество документов из потока неструктурированных данных, которые имеют отношение к расследованию, после чего уже структурированные данные можно проанализировать более внимательно вручную, чтобы понять, содержится ли в этих данных утечка.
- Как будет маняться архитектура информационных систем предприятий по мере проникновения в них технологий Больших Данных?
Уже скоро системы будут строиться с учетом сбора неструктурированных данных и извлечения из них коммерческой пользы. Как следствие, традиционные базы данных со структурированной информацией отойдут на второй план.