Рост объема и разнообразия данных, а также требований к скорости их обработки ни у кого, вероятно, не вызывает сомнений. Осмысление этой тенденции, получившей в 2008 году название «Большие Данные», приобрело в последнее время преимущественно технологический характер. Об этом свидетельствует, например, форум Big Data 2012, организованный издательством «Открытые системы».
Безусловно, в популяризации тематики Больших Данных просматриваются маркетинговые интересы производителей ПО и аппаратных решений. Вместе с тем в тени остаются многие методологические вопросы — в частности, о сбалансированных подходах к накоплению и обработке данных с учетом теоретических результатов в той или иной предметной области. Без их решения организации рискуют не только совершить необоснованные затраты, но и ухудшить качество принятия решений.
Издержки как стимул развития
Во многих областях человеческой деятельности ощущается недостаток теоретических знаний, считает Борис Славин, член правления Российского союза ИТ-директоров, директор по исследованиям и инновациям компании «АйТи». На первый план вышли практические задачи, и методологическим вопросам стали уделять меньше внимания. В результате нередко новые технологии возникают до того, как формируется понимание их актуальности и необходимости. Это свойственно и проблеме Больших Данных: системы, которые позволяют работать с ними, начали появляться не потому, что это требовалось для решения каких-либо практических задач, а потому что появились возможности снизить стоимость хранения данных.
Однако это не означает, что от использования подобных технологий следует отказываться. Снижение стоимости решения ключевой проблемы сразу порождает цепочку инноваций. В частности, как только стоимость хранения снизилась, возникли системы хранения нового поколения, позволяющие хранить большие объемы данных за меньшие деньги. Затем вскоре появились инструменты, которые давали возможность обрабатывать эти объемы и использовать результаты на практике в различных областях.
«Никакие объемы данных не могут заменить аналитика», Борис Славин, директор по исследованиям и инновациям компании «АйТи» |
Методологический разрыв
Многие ощущают отставание методологии от требований практики и ищут пути выхода из этой ситуации. Например, организация изучает поведение потребителей, чтобы сформировать маркетинговую политику. Она может пригласить высококвалифицированного маркетолога, который, исходя из своего опыта и знания общей теории, укажет организации, что именно ей необходимо измерить и хранить, чтобы правильно спланировать свою деятельность. Если такого аналитика найти сложно или он слишком дорог, можно попытаться компенсировать недостатки теоретической базы накоплением большого объема «сырых» данных и обнаружить в этом объеме скрытые закономерности с помощью формальных процедур. «Так поступают преимущественно «недалекие» руководители, — отмечает Славин. — Никакие объемы данных не могут заменить аналитика». На сегодняшний день только человек (в данном случае — аналитик) способен уменьшить наше незнание предметной области, извлекая информацию из данных. Тот, кто пытается обойтись услугами информационных систем, теряет ее. Без аналитика данные — бесполезная груда байтов.
Славин вспоминает: в свое время, анализируя данные о продажах крупной розничной компании, торгующей бытовой техникой, он обнаружил ярко выраженные сезонные колебания. Сезонность была выявлена посредством стандартных автоматизированных инструментов анализа временных рядов. Однако это явление было трудно объяснить применительно к данному сегменту рынка. Дополнительная обработка данных не внесла ясности. Прорыв наметился, когда Славину пришла в голову мысль сопоставить сезонную волну с динамикой выплаты заработной платы (эти данные публикует Госкомстат). Было обнаружено полное согласование этих кривых. Например, в декабре, когда выплачивается много бонусов, наблюдается подъем продаж, а в мае, который имеет меньше рабочих дней, то есть заработок может быть меньше, наблюдается некоторый спад. Таким образом, не сами данные, а креативное решение позволило аналитикам извлечь полезную информацию из накопленных данных, объяснить важную для этой организации тенденцию, которую можно было использовать при планировании маркетинговой политики.
Когда количество не переходит в качество
Не следует противопоставлять интуитивную, креативную деятельность аналитика и необходимый для его работы анализ данных. Его результаты — это своего рода «топливо» интуиции. Аналитическая работа идет всегда, но она может быть не столь заметна и проходить в голове специалиста без привлечения сложных информационных систем. Большие Данные могут быть полезны при условии, что они будут структурированы так, чтобы аналитик мог с ними работать. В противном случае они могут даже сыграть негативную роль. Известно, что если необходимо «спрятать» полезную информацию от человека, ее можно скрыть в большом потоке неструктурированных данных, и человек будет дезориентирован, «утонет» в этом потоке.
Например, одной из проблем управления организацией в наше время является бурный рост количества факторов, которые необходимо учитывать. В результате модели становится практически невозможно воспринимать, и даже при наличии хорошего интеллектуального инструмента обработки Больших Данных человек может оказаться не в состоянии воспользоваться результатами его применения. Чтобы избежать этого, необходимо приложить дополнительные усилия.
Структурирование данных — одна из наиболее актуальных и перспективных задач, ее решение во многом стимулирует дешевое накопление больших объемов данных. Мы видим, что именно сейчас наблюдается подъем в области BI, растет спрос на эти инструменты, в частности для работы с неструктурированными данными.
Еще один стимул развития технологий работы с Большими Данными — это рост актуальности систем средней сложности. К ним, например, можно отнести систему, элементами которой являются клиенты телекоммуникационной компании. Необходимость работать с системами этого класса порождает наиболее существенные проблемы. С одной стороны, они содержат слишком много элементов, чтобы можно было работать с каждым индивидуально. С другой — они не так велики, чтобы использовать для их описания и выработки решения упрощающие предположения, в частности переходить к усредненным величинам без потери точности. В актуальных для бизнеса системах так поступать нельзя. Влияние отдельного элемента или отдельной группы элементов на поведение системы может быть слишком велико, и усреднение не позволит его обнаружить и использовать. К тому же индивидуальное воздействие на каждый элемент системы может сделать решение задачи управления неоправданно дорогим.
«Используя те или иные методы обработки данных, мы должны вооружиться либо беззаветной верой в них, либо глубоким знанием границ их применимости», Валерий Артемьев, советник директора Центра информационных технологий Банка России |
Аппетит приходит во время еды
Справедливо поставить вопрос: насколько актуально использование подхода Больших Данных для решения той или иной задачи? Например, крупные розничные организации, в частности телекоммуникационные или финансовые, не принимают непрерывно значимые решения по каждому из своих клиентов индивидуально — необходимость индивидуально работать с ними возникает только при обнаружении аномальных явлений. В то же время многие организации используют правила работы с клиентами, основанные на обработке осуществленных ранее транзакций, скажем, предлагают им товары, которые обычно приобретают с купленным ими товаром. Правила обычно основаны на использовании упомянутых выше упрощающих предположений (например, о неизменности частот совершения событий) и ориентированы не на конкретного покупателя, а на определенные подмножества клиентов. Чтобы поддерживать актуальность правил, нет необходимости хранить все исходные данные — достаточно корректировать выявленные тенденции и структуры по мере поступления новых данных. Кроме того, как показывает практика, тенденции оказываются не очень сложными. В частности, анализ сезонности, упомянутый выше, был проведен 15 лет назад, когда проблема Больших Данных серьезно не обсуждалась.
Впрочем, все это — первый этап работы с данными. Возможность структурировать большие объемы данных позволяет аналитикам извлечь из них гораздо больше информации, чем на основе упрощающих предположений прошлых периодов, например, полученных благодаря действию закона больших чисел. Появляется возможность существенно повысить уровень детализации моделей систем и включить в рассмотрение те самые системы средней сложности, о которых шла речь выше. Ярким примером являются социальные сети, в которых, конечно, на основе автоматических (иначе это будет нерентабельно) процедур информация доставляется каждому индивидуально.
Принятие решений при управлении системами средней сложности становится возможным только при наличии инструментов обработки неструктурированных данных — интеллектуальных систем. Это подтверждается опытом социальных сетей. «Мы впервые оказались в ситуации, когда технологии «для досуга» обогнали технологии «для бизнеса», — отмечает Славин. — Яркий пример — планшетные компьютеры, появившиеся изначально как средство развлечения».
Скорость обработки
Значительное внимание в проблематике Больших Данных уделяется скорости их обработки. Характерный пример — глобальные игровые системы в реальном времени, когда необходимо одновременно генерировать условия игры для сотен тысяч пользователей. Что касается предприятия или организации, то здесь требуемая скорость обработки данных определяется инерционностью оргструктуры, скоростью ее реакции на внешние воздействия. Если не учитывать это обстоятельство, можно потратить средства на приобретение избыточного функционала, и тогда информационная система будет порождать результаты со скоростью гораздо более высокой, чем скорость принятия решений в организации.
Кроме того, чем выше уровень принятия решений, тем меньше требования к скорости обработки данных. Например, стратегические решения обычно принимаются не чаще, чем один раз в год. Однако на нижних уровнях управления нередко требуется высокая скорость реакции. В частности, в банках стараются отслеживать аномальные транзакции, например по одной кредитной карте, совершенные в находящихся на значительном удалении друг от друга точках за короткий промежуток времени. Выявление таких ситуаций требует почти мгновенной реакции. Аналогичная ситуация возникает в производстве на MES-уровне — например, практически мгновенно должно быть принято решение о выключении производственного агрегата, если значения каких-то его параметров превысили критические уровни.
Все ли данные нам нужны?
По мнению Валерия Артемьева, советника директора Центра информационных технологий Банка России, обсуждая вопросы бизнес-аналитики Больших Данных, необходимо отделить проблемы, связанные со структурированными и неструктурированными данными. Кстати, часто понятие Big Data связывается именно с внешними неструктурированными данными.
Чем больше историческая глубина и детализация структурированных массивов, помещаемых, например, в хранилище, тем больше может быть разночтений в «сырых» данных. В этом случае необходимо прилагать больше усилий для обеспечения требуемого их качества, возрастает трудоемкость предварительной обработки.
Необходимый объем структурированных данных определяется потребностями анализа, уверен Артемьев. Скажем, на требуемую историческую глубину влияет необходимость учета достаточного количества периодов временного ряда для прогнозирования. В случаях, когда возникает потребность повторно использовать все накопленные структурированные данные для построения, допустим, альтернативных моделей, имеет смысл хранить весь их объем.
Возникающие естественным образом массивы структурированных данных существенно зависят от сегмента рынка и конкретной организации. Так, в Банке России объем создаваемого корпоративного хранилища данных оценивается в 10 Тбайт, основная их часть — это платежи. Большие объемы можно встретить в телекоме и крупной рознице, где проводится анализ каждого звонка или чека.
Необходимо трезво оценивать необходимость увеличения размерности, то есть количества источников данных и хранения большого количества самих данных. Исторические данные, безусловно, устаревают и теряют актуальность, поскольку меняются тенденции, которые этим данным соответствуют. Имеет ли смысл накапливать информацию по каждому клиенту, как это делают, например, телекоммуникационные компании?
Когда принимаются решения в области маркетинговой политики, организации прибегают к усреднениям, идентифицируют устойчивые структуры и тенденции. Следует также понимать, что число учитываемых факторов ограничивается размерностью методов анализа и моделей и возможностями интерпретировать полученные результаты.
Иная ситуация складывается при использовании неструктурированных данных. Их объем внутри организации обычно в пять-шесть раз превышает объем структурированных. Одним из важных внешних источников неструктурированных данных является Интернет. Размер внешних неструктурированных данных, попадающих в поле зрения организации, может быть просто громадным. Артемьев говорит: «Соотношение брутто и нетто объемов информации здесь может составлять несколько порядков». А значит, обращение к ним оправданно только при условии, что эффект от принимаемых на основе их анализа решений существенно перекрывает затраты на извлечение из них крупиц ценной информации. Что касается качества данных из Интернета, то оно изначально и не предполагается высоким.
Не всегда огромные объемы внешних неструктурированных данных необходимо хранить и обрабатывать у себя, считает Артемьев. Хранению подлежат результаты анализа — крупицы извлеченной информации и связанный с ними контекст. Причины — во многом экономические.
Как открыть «черный ящик»?
Во многих случаях стремление провести детальный анализ по каждому из клиентов вызвано желанием выявить ассоциативные связи при покупке товаров и услуг. Однако полезность этого анализа для бизнеса, по мнению Артемьева, вызывает большие сомнения. Это объясняется, в частности, тем, что для решения каждой конкретной задачи нередко существует большое разнообразие методов анализа данных, и эти методы часто дают различные результаты, которые даже трудно сравнивать. Простейший пример — кластеризация, где результат может очень сильно зависеть от условий проведения расчетов.
Артемьев скептически относится к методам анализа данных, основанных на идее «черного ящика». Необходимо обязательно привлекать знания из предметной области, а также интуицию. Однако с ростом размерности задачи анализа и по мере увеличения числа факторов человек теряет возможность воспринимать результаты анализа, тогда и появляется потребность в разнообразных методах анализа больших объемов данных, которые либо позволяют сократить размерность, оставив в задаче только значимые факторы, либо выполняют всю обработку данных.
Знания или вера
Для каждого метода анализа предметной области существует верхняя граница точности данных, при ее превышении результат ухудшается. Скажем, попытка уточнить доход респондентов при проведении маркетинговых обследований только увеличит «уровень шума» в ответах, поскольку респонденты, как правило, не могут или не хотят приводить точные цифры. Мы сможем получить информации не больше, чем если бы мы просто попросили оценить уровень дохода как «низкий», «средний» и «высокий». Аналогичным образом «механическое» увеличение количества данных может привести к тому, что полезная информация будет скрыта во множестве чисто случайных событий.
«Используя те или иные методы обработки данных, мы должны вооружиться либо беззаветной верой в них, либо глубоким знанием границ их применимости», — отмечает Артемьев. Например, в зависимости от теоретических предположений можно получить очень широкий спектр прогнозов одной и той же величины.
Для повышения точности описания необходимо привлекать все больше факторов, но эти факторы все менее формализованы. Может сложиться ситуация, когда модель системы интуитивно понятна, но нет возможности дать ее формальное описание, поскольку погрешность этого описания, определяемая свойствами данных, будет очень велика. Кроме того, во многих случаях очень сложно проверить начальные теоретические предположения, на основе которых строилась модель. Многие модели справедливы только при условии, что начальные предположения не нарушаются слишком сильно. Как только возникают периоды нестабильности, кризисы, модели быстро теряют адекватность. Например, после кризиса произошло резкое возрастание эластичности спроса по цене, в результате чего маркетинговые модели докризисного периода потеряли свою адекватность.
«Объективного критерия адекватности моделей, скорее всего, не существует, — полагает Артемьев. — Справедливость моделей есть результат признания со стороны сообщества специалистов в той или иной области». Примером может служить модель оттока клиентов у сотовых операторов.
Аналитики нового времени
Наращивание числа источников информации ухудшает возможность восприятия человеком результатов анализа полученных из них данных. Ранней реакцией на это явление были попытки агрегировать данные, представить их, например, в виде панелей управления.
Информационная система вряд ли сможет заменить человека, поскольку многие аналитические методы приводят к результатам, которые можно неоднозначно интерпретировать, говорит Артемьев. Возможно, человека можно будет удалить из процессов обработки данных как элемент, потенциально оказывающий деструктивное влияние на результаты, если эти процессы строго формализованы и обладают кредитом доверия потребителей результатов анализа. В процессах принятия решений большой размерности, когда необходимо охватить множество объектов управления (например, тысячи клиентов компании или пользователей глобальной игры), человек в силу физиологических особенностей становится «слабым звеном». Обойтись без него можно в ситуациях, когда последствия его ошибочных решений не очень велики, например в той же глобальной игре.
Возникает парадоксальная ситуация: с одной стороны, существуют мощные инструменты хранения и анализа больших объемов данных, с другой — решения на основе результатов этой обработки должен принимать человек, поскольку только он обладает способностью порождать новую информацию. Но в силу особенностей своего восприятия он не в состоянии охватить все результаты обработки. Традиционным подходом к решению этой проблемы является формирование многоуровневых KPI. Однако создание подобных агрегированных метрик само по себе представляет проблему. В результате на фоне Больших Данных образуется заметный разрыв между информационными технологиями и технологиями управления организациями. Необходимо разрабатывать интерфейс между человеком и современными системами обработки данных — между сознанием человека и Большими Данными. При этом движение должно быть встречным: нужно разрабатывать технологическую компоненту взаимодействия и одновременно готовить специалистов к этому взаимодействию, подбирать аналитиков с соответствующими способностями и развивать их.
Data Mining может рассматриваться как методология анализа данных для подобного рода специалистов, в частности для представителей бизнеса. В этом случае методы анализа привязываются к решению конкретных задач, а интерфейсы адаптируются к возможностям и подготовке пользователей. Чисто технические вопросы и математические проблемы должны быть скрыты от них и решены заранее прикладными математиками. По этому пути идут многие разработчики. Что касается подготовки специалистов, то важно научить их быстро подбирать наилучшие решения поставленной задачи из числа известных.
Еще одну интересную возможность предоставляет визуальная разведка данных (visual data mining, VDM) — отображение и поиск закономерностей в многомерных Больших Данных. Однако нужно готовить специалистов к тому, чтобы воспользоваться этими технологиями.
Решение по стыковке аналитических систем и человека должно находиться в предметной области: чтобы аналитик правильно интерпретировал представляемые ему агрегаты, он должен быть специалистом в той области, из которой поступают данные.