Вопросы реального времени
Как предсказывают в Gartner, всего через пару лет, к 2016 году, 70% наиболее продвинутых предприятий будут управлять бизнес-процессами с использованием так называемого экстремального взаимодействия на основе анализа данных в реальном времени.
При этом основной методикой станет интеллектуальное ведение бизнеса, когда информационные системы смогут распознавать рабочие взаимодействия и ситуации, в которых они происходят. В зависимости от ситуации можно автоматически или по требованию применять аналитику, позволяющую спрогнозировать результаты возможных изменений. В итоге радикально улучшится контроль работы организации и ускорится принятие решений. Как уверены аналитики, практически в любом бизнесе есть хотя бы одна область, в которой стоит применять аналитические сервисы реального времени.
Основной темой практически всех выступлений на форуме Big Data 2014 стал анализ данных в реальном времени. Это отнюдь не случайно: именно данная концепция является актуальной для многих отраслей, позволяя решить массу задач — от взаимодействия с клиентами до повышения операционной эффективности.
«Зачем нужна аналитика в реальном времени? В первую очередь это сокращение рисков в условиях быстро меняющегося рынка и повышение адекватности принимаемых решений», — уверен Сергей Знаменский, ведущий консультант по продуктам HP. Сейчас уже успело накопиться довольно много примеров эффективного использования заказчиками таких систем. К ним относятся разработчики онлайн-игр и владельцы крупных сайтов, анализирующие буквально каждый клик, сделанный клиентами, банки, применяющие системы обнаружения мошенничества, операторы связи, отслеживающие использование сетевых ресурсов.
«Все возрастающий поток разрозненных данных, поступающих из различных источников, требует принципиально нового подхода в обработке и анализе», — говорит Эрнест Сюч, директор по развитию компании «Индасофт». Традиционные системы аналитики предполагают значительную задержку во времени для накопления статистики и выявления тенденций, тогда как запросы современной автоматизации бизнес-процессов предъявляют требования мгновенного анализа и даже опережающего прогнозирования. Для решения поставленных задач гораздо эффективней использовать методы и алгоритмы анализа Больших Данных, особенно в области автоматизации процессов управления производствами с высокой себестоимостью выпускаемой продукции.
Умеренный оптимизм высказывает Ольга Горчинская, директор по исследовательским проектам компании «ФОРС». По ее мнению, сейчас к Большим Данным наблюдается скорее интерес, если не сказать «любопытство», чем реальная востребованность, поэтому ждать революционных изменений не стоит. В частности, компании реализовали далеко не все внутренние возможности по использованию корпоративных данных, чтобы заниматься внешними источниками.
«В обозримом будущем системы, работающие с Большими Данными, будут сосуществовать в корпоративном ландшафте с традиционными решениями», — полагает Илья Гершанов, руководитель направления «Большие Данные» компании Informatica. Таким образом, отказываться от созданной инфраструктуры и делать ставку только на Большие Данные не стоит.
Технологии, собирающиеся под брендом Big Data, переживают этапы жизненного цикла, традиционные для всех ИТ-решений. Уже есть многочисленные поставщики и первые успешные проекты. В ближайшем же будущем ожидаются консолидация рынка, появление разочарованных заказчиков и негативных публикаций; при этом технология будет внедрена у 5% потенциальных пользователей. Лишь за этим пойдет планомерное развитие рынка. Основные проблемы будущих проектов будут связаны с недооценкой рисков.
«Действительно, аналитика реального времени — очень актуальная тема, но нельзя воспринимать ее как замену традиционных систем; скорее, это их серьезное дополнение», — согласен Сергей Кузнецов, директор по технологиям дивизиона бизнес-решений IBS. В первую очередь речь идет о системах — мониторах событий реального времени и системах быстрого принятия решений на основе информации последнего момента, где решение «здесь и сейчас» критично для бизнеса.
«О замене традиционных средств вычислений речи не идет: аналитика реального времени — дело дорогостоящее и имеет четко очерченные границы использования», — подчеркивает Михаил Рыбаков, директор пресс-службы Intel в России. Требуется, чтобы процессоры работали с данными непосредственно в оперативной памяти, а не обращались бы за их очередной порцией во внешнее хранилище. Такой подход позволяет в 1,5 тыс. раз повысить скорость вычислений. Для этого требуется, чтобы процессор умел напрямую обращаться к возможно большему объему памяти. Такие решения есть, но их цена заметно выше, чем у традиционных серверных процессоров, и их нельзя рассматривать как решения для «общего случая» — они могут использоваться только как инструмент для критически важных задач.
Вопросы экономической эффективности зачастую заставляют компании обращаться к облачным решениям на мощностях внешнего поставщика. Однако, по мнению Александра Ермакова, ведущего консультанта EMC Pivotal, существует и еще один сценарий: рано или поздно инфраструктура Больших Данных, развиваясь, становится весьма сложной. Облако представляет собой яркий пример ухода от финансовых и технических проблем, порождая модель BigData-as-a-Service.
«Вопрос реального времени всегда относителен. Понятие Real-Time у каждой компании свое: для кого-то это, например, 5–10 минут, а для кого-то — микросекунды», — резюмирует Петр Борисов, руководитель направления Big Data компании DIS. Дело зависит прежде всего от конкретных бизнес-задач и от того, как традиционно решались эти задачи. Если раньше сотовый оператор строил аналитику по биллинговым данным в течение суток, то сегодня технологии Больших Данных помогают им получать такую аналитику с задержкой в несколько минут. Учитывая объем данных, можно сказать, что это уже задача класса Real-Time.
В вытеснение традиционных систем Борисов тоже не верит. Скорее можно говорить о дополнении технологического стека и о расширении возможностей, а не о замене. Технологии, которые принято относить к классу Big Data (например, Hadoop), изначально и не были призваны заменить традиционные решения. Ни у кого, скажем, не возникает идеи построить на Hadoop транзакционную систему.
Что имеем — не храним?
Как отмечает Сергей Лихарев, руководитель по развитию бизнеса IBM Big Data, практически во всех отраслях наблюдается смещение парадигмы работы с данными. Данных становится больше, чем человек способен обработать, они требуют различных подходов, неизвестных заранее и зависящих от типа данных. Наконец, пользователи не желают ждать и требуют мгновенного ответа на свои запросы.
Когда ценность данных неочевидна, необходимость их обработки, очистки и хранения тоже вызывает сомнения, поэтому особую важность и приобретает обработка данных в реальном времени, в момент их поступления. С точки зрения подхода к сбору и хранению данных компании делятся на три лагеря.
«Гипотеза о том, что все компании должны начать собирать и хранить все, что попало под руку, а потом искать в этом золотое зерно, скорее всего, неверна — как минимум для значительной части компаний», — считает Кузнецов. Надо учитывать много параметров — например, скорость деградации данных и изменения целевого объекта, поэтому единого ответа быть не может. Стоит задуматься, что имеет смысл хранить и как долго. А еще лучше построить стратегию управления таким активом, как данные.
Борисов также подчеркивает, что все зависит от задач, которые ставит в данный момент перед собой организация. Действительно, не всегда стоит пытаться охватить необъятное. «Ставя перед собой конкретные задачи, компания старается решить их максимально эффективно и в заданные сроки.
С этой точки зрения хранение и обработка избыточных данных, никак не связанных с целями текущего проекта, — непозволительная роскошь, за которую приходится платить неоправданно высокую цену», — говорит он.
Однако совсем другое дело, если изначально идет речь о проекте, целями которого являются анализ дополнительных источников данных и получение новых знаний. В начале такого проекта часто неизвестно, какие знания и как именно будут получены, а также как они будут использоваться. В огромном потоке неструктурированной и «грязной» информации периодически встречаются ценные крупицы. Научившись находить их, можно извлечь огромную пользу. Сегодня технологии позволяют организовать сбор, хранение и анализ практически любых объемов данных, и это открывает новые возможности.
«Искусственное обеднение такого значимого ресурса, как информация, представляется малоэффективным», — полагает Сюч. Совершенно очевидно, что концепция Big Data предполагает многократную обработку данных и извлечение полезной информации исходя из поставленных бизнес-целей. Вовлечение дополнительных и, возможно, прежде не востребованных данных в новых итерациях анализа повышает ценность и достоверность получаемых результатов.
Как констатирует Сергей Сызько, архитектор решений NetApp, им приходится поддерживать своими решениями любой выбор философии хранения, не примыкая ни к одному из лагерей. Таким образом, отдельную категорию составляют поставщики инфраструктурных решений для проектов Больших Данных, для которых ключевым фактором успеха является нейтралитет.