Хотя Большие Данные — достаточно молодая концепция, бизнес уже ощутил реальную пользу от ее использования. Особенно востребованы соответствующие инструменты в телеком-секторе: в информационных системах операторов связи велика доля неструктурированных и разнородных данных, поступающих от оборудования, из контакт-центров, служб по работе с клиентами, социальных сетей и т. д. Но для того чтобы технологии Больших Данных заработали в полную силу, заказчикам нужно иначе взглянуть на ИТ-инфраструктуру.

Феномен Больших Данных зародился в недрах интернет-гигантов — Google, Yahoo, Facebook и других. В какой-то момент они столкнулись с тем, что использование традиционных СХД и «классических» реляционных СУБД обходится слишком дорого, если данные достигают некоего критического объема. Фактически эти компании разработали новые технологии, которые получили известность под «зонтичным» названием Hadoop. В их основе лежит парадигма MapReduce: масштабная вычислительная задача разбивается на множество одинаковых элементарных заданий, и каждый узел кластера Hadoop (отдельный компьютер или виртуальная машина) оперирует небольшой порцией данных. Результаты выполнения мини-заданий сводятся в конечный ответ на изначально поставленную общую задачу. Быстрое выполнение этих «мозаичных» операций обеспечивает распределенная файловая система (Hadoop Distributed File System, HDFS), предназначенная для отказоустойчивого хранения «разреженных» данных.

Сейчас новая парадигма активно развивается на Западе и скоро получит распространение и в нашей стране, поскольку объемы данных растут экспоненциально, а обрабатывать их необходимо все быстрее. В значительной степени популярность MapReduce, в том числе и среди телеком-операторов, объясняется тем, что предполагается применение стандартной вычислительной архитектуры на базе серверов x86. Раньше, чтобы обеспечить работу, например, биллинговой системы, операторам связи приходилось приобретать дорогие аппаратные решения и затем тратиться на их поддержку. Используя «бюджетные» решения, можно значительно снизить стоимость владения информационными системами.

Еще одно преимущество парадигмы MapReduce — возможность разделить «сырые» и «отфильтрованные» данные. Технологии Больших Данных позволяют создать надстройку над корпоративным хранилищем данных — Hadoop-модуль, который собирает все данные оператора, в том числе необработанные. При этом в хранилище, работающее на базе реляционной СУБД, попадает агрегированная информация. Этот вариант позволяет собирать и хранить первичные данные централизованно, требуя меньших затрат как на приобретение, так и на последующую эксплуатацию и поддержку (см. рисунок).

В целом эта схема достаточно универсальна, она широко используется в крупных компаниях самых разных отраслей. И есть все основания полагать, что уже скоро подобная связка «разреженного» хранилища на Hadoop и хранилища данных на базе реляционной СУБД станет стандартом де-факто.

Зачем нужны Большие Данные?

Возникает логичный вопрос: в каких бизнес-процессах или блоках операционной деятельности востребованы Большие Данные в телекоме?

Таких блоков несколько. В частности, телекоммуникационное оборудование, используемое для передачи трафика, генерирует большой трафик: у крупных операторов уровня «большой тройки» или «Ростелекома» он исчисляется десятками гигабайт в день. Другой блок — учетные информационные системы: ERP, CRM, биллинг, «личный кабинет». Третий блок — все системы, связанные с данными из Интернета (социальные сети) и контакт-центра (Call Detail Record, CDR), а также с IP-телефонией и пр.

Для решения каких бизнес-задач телеком-операторов можно использовать технологии Больших Данных? Рассмотрим для примера подразделение маркетинга. Повышение эффективности маркетинговых кампаний за счет точного позиционирования (таргетирование) основано на индивидуальном подходе к абоненту. Для осуществления таких кампаний нужна детальная сегментация клиентской базы, поскольку любая крупная компания несет значительные расходы на маркетинг. Оптимизировать их, повысить их отдачу как раз помогают Большие Данные: можно тщательно проанализировать сведения о клиентах, а также неструктурированную информацию из Интернета, в частности из социальных сетей. Когда оператор сумеет консолидировать информацию из учетных систем и Интернета, он получит более ясную картину клиентской базы, решив тем самым поставленную задачу.

Другой пример — борьба с мошенничеством. Для выявления незаконных операций «на лету» необходимо научить системы распознавать их, то есть определить шаблоны подозрительного поведения или правила, которые позволяют его идентифицировать. Сформировать такие шаблоны и правила удается благодаря анализу данных, накопленных за большой промежуток времени, хотя бы за несколько лет, — чем шире исследуемая выборка, тем значимее результат. В качестве инструмента анализа вновь выступают технологии Больших Данных.

Еще одна важная задача — управление обслуживанием и ремонтом сетевого оборудования. Значительная его часть расположена вдали от офисов, тем не менее системы мониторинга позволяют собирать о нем подробные данные. Анализируя их, можно заранее прогнозировать возникновение сбоев и планировать ремонт и замену аппаратуры. Осуществляя эти работы по мере фактического износа, а не на основе предложенного поставщиками графика (как правило, в его основе лежит корыстный интерес), операторы связи могут ощутимо сэкономить.

Рисунок
Сбор, хранение и аналитическая обработка данных телеком-оператора с использованием технологий Больших Данных

От консерватизма — к инновациям

Наша компания неоднократно убеждалась, что понимание Больших Данных уже есть. Проблема в том, что компании, в том числе телеком-операторы, не доверяют этим технологиям, их способности успешно справиться с недавно возникшими задачами. Многие по-прежнему считают, что реляционным СУБД под силу любые виды хранения и анализа данных, сколь бы огромными они ни были. Между тем в мире генерируется все больше информации, преимущественно неструктурированной, и стандартные подходы ее обработки уже не годятся.

В первую очередь руководителям и ИТ-менеджерам нужно поменять взгляд на принципы построения информационных систем. Другими словами, главные изменения должны произойти в сознании — остальное приложится.

Сотовые операторы поверят в возможности и достоинства Больших Данных, когда «пощупают» их, опробуют на практике. Сейчас значительная доля информации рассеивается, уходит в никуда. Когда игроки телеком-индустрии убедятся, что хранение и анализ огромных массивов разнородных данных принесет им хорошие дивиденды, инвестиции не заставят себя ждать. Ведь тот, кто применит инструментарий Больших Данных раньше других, получит ощутимое конкурентное преимущество.

Дмитрий Красилов, руководитель центра решений систем управления данными «Энвижн Груп»;

dkrasilov@nvg.ru