Большие Данные (Big Data) заслуженно называют (или с помпой провозглашают) ключевым стратегическим бизнес-активом будущего. А значит, проявление начальством интереса к указанной теме всего лишь вопрос времени. И естественно, ему важно знать ваше мнение.
Конечно, у большинства ИТ-служб определенный опыт управления большими объемами данных уже есть, однако концепция Больших Данных существенно отличается от технологий хранилищ данных, добычи данных и бизнес-анализа, с которыми мы имели дело до сих пор.
Сегодня данные накапливаются и меняются гораздо быстрее, чем раньше. Большая их часть представлена в неструктурированном и необработанном виде (иногда их называют «серыми данными»).
Блоги, социальные сети, машинные датчики и информация, привязанная к конкретному местоположению, образуют целую новую вселенную неструктурированных данных.
«Мы собирали данные долгое время, однако наши возможности были весьма ограниченны — информация исправно поступала к нам в достаточно большом объеме, но с ней мало что можно было сделать, — отметил Пол Густафсон, директор технологических программ Leading Edge Forum компании Computer Sciences. — Данные архивировались и моделировались применительно к различным бизнес-процессам, но базовых знаний для предприятия в целом не формировалось. Суть реформ заключается в том, чтобы от сбора информации перейти к организации необходимых связей».
В отчете, опубликованном McKinsey Global Institute в мае 2011 года, говорится, что анализ данных, характеризующих качество обслуживания и процентное соотношение случаев успешного излечения пациентов, а также описывающих историю их болезни, должен способствовать повышению эффективности здравоохранения в США. Реализация подобных инициатив, связанных с обработкой Больших Данных, могла бы ежегодно приносить отрасли более 300 млрд долл. В отчете McKinsey утверждается, что эффективный анализ Больших Данных в перспективе способен увеличить среднюю маржу предприятий розничной торговли более чем на 60%.
И НА ПЕРЕДНЕМ КРАЕ РЕВОЛЮЦИИ ДАННЫХ НАХОДЯТСЯ ИТ
«Сегодня перед вами открывается возможность войти в кабинет генерального директора со словами: «Я могу изменить этот бизнес и сделать так, что всю необходимую информацию вы будете получать буквально за несколько секунд. Причем затраты на это будут совершенно несопоставимы с теми средствами, которые пришлось бы потратить на решение аналогичной задачи пять лет назад»», — отметил Эрик Уильямс, ИТ-директор компании Catalina Marketing.
Уильямс знает, что говорит: Catalina поддерживает базу данных о лояльности клиентов объемом 2,5 петабайта. Туда занесены данные о 190 млн покупателей в США, собранные крупнейшими розничными сетями. А эта информация, в свою очередь, используется для формирования премиальных купонов, выдаваемых клиентам на основании истории их покупок.
«Представители ИТ-служб всегда говорят о своем желании стать ближе к бизнесу, а Большие Данные открывают прекрасную возможность претворить это желание в жизнь», — подчеркнул Уильямс.
ПРЕОДОЛЕНИЕ БАРЬЕРОВ БОЛЬШИХ ДАННЫХ
Технологии Больших Данных находятся пока на начальном этапе своего развития и еще не достигли уровня зрелости тех корпоративных продуктов, к которым ИТ-менеджеры уже успели привыкнуть.
Многие развивающиеся продукты Больших Данных уходят своими корнями в технологии с открытым кодом. «Но несмотря на то что сегодня клиентам доступны их коммерческие дистрибутивы, многим из этих продуктов не хватает доступной и грамотной консультационной линии и экосистемы технической поддержки», — указал Маркус Коллинз, научный директор компании Gartner.
Сотрудники большинства ИТ-служб не имеют достаточного опыта работы с технологиями Больших Данных. До сих пор их усилия были направлены на создание и поддержку традиционных структурированных хранилищ данных.
«Для того чтобы Большие Данные прижились в ИТ-службах и на предприятиях в целом, нужны серьезные сдвиги как с точки зрения культуры, так и в части традиционных методов управления информацией», — считает Марк Бейер, вице-президент Gartner по исследованиям, связанным с управлением информацией.
Предусмотрительным ИТ-лидерам следует начинать готовиться к переменам заранее, продумывая план проведения преобразований в организации.
Вот пять основных моментов, которые необходимо учесть ИТ-менеджерам при закладке надежного фундамента для строительства Больших Данных в будущем.
1. Проведите инвентаризацию своих данных
Почти каждая организация имеет потенциальный доступ к устойчивому потоку неструктурированных данных. Организация тянет за собой огромный информационный шлейф, но из этого еще не следует, что бизнес должен сохранять и анализировать каждый байт.
«В условиях роста популярности концепции Больших Данных люди ощущают искусственную необходимость разобраться в них, откуда бы они ни поступали, будь то блоги или датчики, — отметил Нил Рейден, вице-президент и главный аналитик компании Constellation Research. — В какой-то степени их беспокойство обусловлено активностью поставщиков и консультантов, которые настойчиво говорят о наступлении нового значительного этапа в корпоративных ИТ. Инициатива исходит от людей, стремящихся извлечь из технологий коммерческую выгоду».
Грамотные ИТ-менеджеры будут сопротивляться попыткам втянуть их в этот водоворот и начнут выполнять роль фильтра, помогающего оценить, какие данные полезны для организации, а какие нет.
Хорошую службу могли бы сослужить оценка объема хранимых внутренних данных и определение внешних источников, заполняющих имеющиеся пробелы в знаниях и помогающих по-другому взглянуть на бизнес.
При оценке масштабов данных ИТ-службе следует ориентироваться на результативные проекты с четко поставленной целью, которые противопоставляются комплексным проектам больших данных. «Не надо тратить несколько миллионов долларов ради того, чтобы запустить проект и посмотреть, что из этого получится», — заметил Рейден.
2. Погружение в данные определяется потребностями бизнеса
Нельзя не напомнить, что идея сплочения ИТ и бизнеса имеет важнейшее значение для реализации инициатив, связанных с обработкой больших и изменчивых данных.
Многие из первоначальных возможностей, открывшихся с появлением Больших Данных, были вне сферы деятельности ИТ-службы. Маркетинг, например, уже давно интегрирован в информационные потоки социальных сетей, что помогает бизнесу лучше понять потребности клиентов и покупательские тенденции.
Представители бизнеса, по-видимому, понимают, какие перспективы перед ними открываются, но ответственность за правильную организацию обмена данными и их объединение — важную составную часть Больших Данных — несет ИТ-служба.
«О том, чтобы отстраниться от ИТ-службы и предоставить ей возможность заниматься своими делами, речи не идет, — заметил Дэйв Пэттон, аналитик отраслей управления информацией в компании PricewaterhouseCoopers. — Трудно говорить о каком-то успехе, если инициатива не привязана к целям бизнеса».
На начальном этапе реализации проектов, связанных с Большими Данными, Уильямс рекомендует бизнес-менеджерам объединить свои усилия с группой, занимающейся финансовым планированием и аналитикой. А она, в свою очередь, предоставит им деловой сценарий и экономическое обоснование инвестиций в информационную архитектуру.
Бизнес должен выявлять области, в которых проникновение в суть обещает дополнительные ценности — например, путем анализа характера заполнения покупательской корзины и предлагаемых продуктов можно прогнозировать последующие покупки клиента. Люди, занимающиеся финансовым анализом и планированием, должны оценить предполагаемые результаты с точки зрения повышения эффективности и увеличения объемов продаж.
3. Переоценка инфраструктуры и архитектуры данных
Большие Данные, как правило, требуют внесения серьезных изменений в инфраструктуру серверов и систем хранения, а также в архитектуру информационного управления. ИТ-менеджеры должны быть готовы расширять ИТ-платформу с учетом постоянного роста объемов как структурированных, так и неструктурированных данных.
«Сегодня на большинстве предприятий используются разнородные, не связанные друг с другом системы для расчета зарплаты, управления клиентами и маркетинга, — отметил Анджул Бхамбри, вице-президент корпорации IBM по продуктам Больших Данных. — ИТ-руководителям нужна стратегия объединения этих разрозненных систем в единый комплекс. Ведь для ответов на интересующие нас вопросы потребуется проанализировать все указанные системы».
Конечно, не каждая система потребует интеграции; подходы будут различаться в зависимости от величины компании, стоящих перед бизнесом задач и требований, предъявляемых к данным. Но конечная цель в любом случае заключается в том, чтобы создать архитектуру управления информацией, которая обеспечивала бы циркуляцию потоков данных между системами. Для создания этого фундамента компании, помимо всего прочего, задействуют связующее ПО, сервис-ориентированную архитектуру (SOA) и средства интеграции бизнес-процессов.
А между тем традиционные архитектуры хранилищ данных подвергаются все более серьезной критике. По словам Бейера, около 85% существующих в настоящее время хранилищ данных к 2015 году в той или иной мере перестанут отвечать требованиям, предъявляемым к расширенному управлению данными.
Вместе с тем о полном отказе от них речи не идет. Существующие хранилища можно расширять и модифицировать, оснащая их встроенными функциями обработки данных.
«В прошлом основное внимание создателей информационных хранилищ было сосредоточено на характере формируемых репозитариев и их правильном размещении, — пояснил Бейер. — Сегодня основная идея заключается в том, что хранилища данных должны сочетать новые и уже существующие репозитарии, механизмы обработки данных и сервисы их доставки».
4. Изучение технологий
Мир Больших Данных вобрал в себя обширный список новых аббревиатур и технологий.
Основного внимания здесь заслуживают технологии с открытым кодом (Hadoop, MapReduce и NoSQL), которые помогают Web-гигантам, к числу которых в первую очередь относятся Google и Facebook, наполнять и перемешивать свои резервуары с Большими Данными. Многие из этих технологий, несмотря на наличие коммерческих версий, не отличаются достаточной зрелостью и требуют наличия специалистов, обладающих весьма специфичными навыками.
ИТ-группам нужно быть также готовыми к развитию других технологий: встроенных в базы данных аналитических средств (in-database analytics), систем колоночного хранения (columnar databases) и программно-аппаратных комплексов для хранения данных (data warehouse appliances).
Руководителям и специалистам ИТ-служб нужно по крайней мере иметь представление об этих новых инструментах, с тем чтобы ориентироваться в ситуации и принимать правильные решения при дальнейшем движении вперед.
5. Подготовка к набору и переобучению персонала
Большинство ИТ-служб ощущают острую нехватку специалистов. Дефицит экспертов по Hadoop, аналитиков данных и других грамотных профессионалов приводит к возникновению кадровых брешей, закрыть которые пока некем.
По прогнозам компании McKinsey, к 2018 году в США возникнет дополнительная потребность в 140–190 тыс. специалистов в области статистических методов и технологий информационного анализа. Растет популярность модной ныне роли «аналитика данных».
Кроме того, понадобится еще почти 1,5 млн технических и бизнес-менеджеров, имеющих достаточно хорошую подготовку в области технологий обработки данных и владеющих методами упреждающего и статистического анализа.
Специалисты по традиционным хранилищам данных и бизнес-анализу, имеющиеся в распоряжении ИТ-служб, должны пройти необходимую переподготовку.
И наконец, помимо традиционных навыков управления информацией и формирования структуры баз данных, новые профессионалы в области Больших Данных должны хорошо ориентироваться в семантическом анализе и математических дисциплинах, знать новые инструменты упреждающего анализа и платформы управления данными.
«Не факт, что в перспективе создавать базы данных будут те же самые люди, которые занимались этим в прошлом, — заметил Уильямс. — При решении подобных задач не стоит недооценивать сложности, с которыми придется столкнуться».
Для некоторых компаний (особенно тех, что находятся в провинции) подбор персонала превращается в серьезную проблему. «Большие Данные определенно требуют другого мышления и знаний в целом ряде областей, — пояснил Рик Кауэн, ИТ-директор компании True Textiles, занимающейся производством материалов для внутренней отделки. — Найти и удержать грамотных специалистов, способных помочь бизнесу развиваться в постоянно меняющихся условиях, предприятиям средней величины будет довольно сложно. Для того чтобы справиться с этими трудностями, мы уже начали готовить у себя программистов и аналитиков баз данных, которые будут владеть самыми передовыми технологиями».
ИТ-руководители должны меняться и сами. «Если прежде лучшие технические лидеры совмещали функции информационного библиотекаря и инженера по инфраструктуре, то ИТ-менеджер будущего должен сочетать в себе аналитика данных и инженера бизнес-процессов, — подчеркнул Бейер. — ИТ-директора прошлых поколений привыкли управлять инфраструктурой на основе набора инструкций, полученного от руководства. На смену им придут ИТ-директора, умеющие открывать новые возможности и делать ставку на инновационные методы использования информации. Это неизбежно».