Большие Данные и средства их анализа способны изменить сложившиеся условия игры, предоставив информацию, которая поможет отбросить конкурентов, сгенерировать дополнительные доходы из новых источников и улучшить обслуживание клиентов.
Вместе с тем инициативы, связанные с анализом Больших Данных, могут обернуться грандиозными провалами, которые приведут к растратам денег и времени, не говоря уже о потере талантливых технических специалистов, оказавшихся жертвами просчетов руководства.
Как избежать провалов, связанных с Большими Данными? Некоторые рекомендации очевидны и касаются основ управления: заручитесь поддержкой людей из числа высшего руководства, обеспечьте достаточное финансирование всех необходимых технологических нововведений, привлеките экспертов и организуйте качественное обучение на местах. Если не решить эти основополагающие вопросы, все остальное уже не имеет значения.
Но предположим, что все основные условия соблюдены. В этом случае успех будет зависеть от того, насколько качественно решаются технические задачи анализа Больших Данных. Перечислим, что можно сделать для успеха таких проектов.
1. Тщательно выбирайте инструменты анализа Больших Данных
Многие технологические провалы объясняются тем, что компании покупают и внедряют продукты, не слишком подходящие для тех задач, которые они пытаются решить. При описании своих продуктов все поставщики с удовольствием оперируют терминами «Большие Данные» и «передовые аналитические средства», пытаясь извлечь выгоду из модных словечек.
Однако продукты существенно различаются не только по качеству и эффективности, но и по своему предназначению. Поэтому, даже если вы выбираете неплохой с технической точки зрения продукт, он может не вписаться в те задачи, которые вам необходимо решить.
Есть базовые моменты, которые присущи почти всем инициативам, связанным с анализом Больших Данных. Они касаются, например, преобразования данных и архитектуры хранения. Вместе с тем в направлении анализа Больших Данных существует множество различных ниш, и конкретные продукты следует подбирать для ниш, соответствующих вашей технологической стратегии. К этим нишам относятся процессный анализ, прогнозная аналитика, решения, работающие в реальном времени, искусственный интеллект и инструментальные панели для бизнес-анализа.
Прежде чем принять решение о покупке любых продуктов для анализа Больших Данных или платформ хранения, необходимо оценить, какие конкретные задачи стоят перед бизнесом, и выбирать продукты, позволяющие эффективно решать именно эти конкретные вопросы.
«Можно, скажем, выбрать когнитивные продукты Больших Данных – например, средства искусственного интеллекта, – для анализа неструктурированной информации, поскольку обрабатывать большие объемы данных в этом случае очень сложно, – указал руководитель направления Больших Данных в телекоммуникационной компании Vodafone Исраэль Экспозито. – Но не использовать когнитивные инструменты для структурированных и стандартизированных данных. Лучше внедрить какой-нибудь из продуктов, выполняющих качественный анализ и стоящих дешевле. Перед выбором окончательного варианта для рабочей среды имеет смысл проверить принятую концепцию по крайней мере на двух продуктах. А выбранный продукт должен быть интегрирован с вашей корпоративной платформой».
Любой аналитический инструмент для Больших Данных требует разработки модели данных в базовой системе управления предприятием. Это самая важная часть проекта. Здесь необходимо обеспечить тесное взаимодействие системных интеграторов и экспертов основных подразделений. Выделите необходимое время и решите соответствующие вопросы в первую очередь.
Важно помнить, что данные должны быть постоянно доступны и переведены на язык бизнеса, с тем чтобы пользователи четко понимали выходную информацию и могли использовать ее для реализации новых возможностей и улучшения процессов.
2. Убедитесь в том, что инструменты просты в использовании
Большие Данные и современные аналитические средства очень сложны. Продукты же, с помощью которых бизнес-клиенты осуществляют доступ к данным и их анализ, напротив, должны быть простыми в использовании.
Выберите простые и эффективные инструменты для групп Data Discovery, а также для проведения анализа и визуализации.
«Для регистратора доменов GoDaddy поиск правильного сочетания инструментов вылился в очень сложную задачу, поскольку они должны были обеспечивать быструю визуализацию и вместе с тем глубокий анализ, – отметила идеолог направления инструментов бизнес-анализа корпоративных данных компании Шерон Грейвс. – В итоге GoDaddy все же удалось найти продукты, которые помогали бизнес-пользователям легко находить нужные им данные и создавать их визуальное представление. Благодаря этому удалось высвободить ресурсы аналитиков для решения более сложных задач».
Нельзя предоставлять инструменты уровня программиста бизнес-пользователям, не имеющим технической подготовки. Они вызывают у них отторжение и желание вернуться к своим предыдущим инструментам, которые уже не подходят для решения стоящих перед ними задач.
3. Согласуйте проект – и данные – с актуальными потребностями бизнеса
«Еще одна причина провала усилий аналитиков Больших Данных заключается в том, что они начинают искать решение проблемы, которой на самом деле не существует, – указал главный научный сотрудник Лаборатории глобальных данных поставщика информационных услуг Experian Шанджи Сюн. – Вот почему прежде всего нужно очертить круг проблем и потребностей бизнеса, с тем чтобы правильно сформулировать аналитические задачи».
Ключевым условием здесь является привлечение к проекту, уже на начальном этапе, экспертов в предметной области, имеющих хорошую аналитическую подготовку. Совместно с исследователями данных они должны определить существующие проблемы.
Вот пример из собственной практики Experian. При разработке аналитических решений для борьбы с мошенничеством и подменой личности задача, с одной стороны, заключалась в оценке легитимности сочетания персональной идентификационной информации (имен, адресов и т. д.) с номерами социального страхования. А с другой – в оценке того, действительно ли клиент, обратившийся с заявкой на получение кредита, является тем, за кого себя выдает. Возможно, требовалось решить обе эти задачи.
«Первая задача связана с проблемой искусственной, синтезированной личности и требует построения аналитической модели, оценивающей риски создания искусственной личности на потребительском или уровне персональной идентификационной информации, – пояснил Сюн. – Вторая задача – это выявление мошенничества с приложениями, поэтому критерии оценки рисков необходимо закладывать на уровне приложений. В Experian должны были понять, что это разные проблемы (хотя изначально и могло показаться, что проблема одна, только сформулирована по-разному), и создать правильные модели и аналитические средства для их решения.
Когда набор персональной идентификационной информации с заявкой на получение кредита представляется в две финансовые организации, обычным требованием является сводная оценка рисков, а для оценки мошенничества в приложении этого обычно не требуется.
Для проведения бизнес-анализа и выдачи точных прогнозов нужно, чтобы правильные алгоритмы применялись к правильным данным. Сбор и включение релевантных наборов данных в процесс моделирования почти всегда важнее тонкой настройки алгоритмов машинного обучения, поэтому главным приоритетом должно стать повышение качества данных.
4 . Выстраивайте озера данных и не экономьте на пропускной способности
Большие Данные, как следует из названия этого термина, подразумевают наличие огромных объемов информации. В прошлом лишь очень немногие организации могли позволить себе хранить такие объемы, а возможности для их анализа имелись у еще меньшего числа. Но сегодня высокопроизводительные технологии хранения и крупномасштабная параллельная обработка данных получили повсеместное распространение как в облаке, так и в системах, развертываемых непосредственно на территории предприятий.
Однако одного лишь хранения еще недостаточно. Нужны средства управления различными типами данных, вписывающиеся в вашу концепцию анализа Больших Данных. Гениальное изобретение Apache Hadoop позволило хранить и получать представления огромных наборов разнотипных данных. Такие хранилища часто называют озерами данных. В озере данных находятся данные множества различных типов, поступающие из разных источников.
«Однако озеро данных не должно превращаться в свалку, – указал руководитель направления исследования компьютерных технологий Университета штата Аризона Джей Этчингс. – Необходимо найти разумные способы агрегирования данных и расширения их атрибутов. Данные могут быть разобщенными, но преобразование их для последующего анализа с помощью MapReduce и Apache Spark следует выполнять только с надежно выстроенной архитектурой».
При создании озера данных процессы поглощения, индексации и нормализации должны быть хорошо спланированными компонентами стратегии Больших Данных. Без четкого понимания и выраженной концепции большинство инициатив, требующих интенсивной обработки данных, обречено на провал.
Жизненно важное значение имеет и наличие достаточной пропускной способности. В противном случае данные из различных источников просто не попадут в озеро данных достаточно быстро, для того чтобы быть полезными бизнес-пользователям. Чтобы эффективно оперировать масштабными ресурсами данных, требуются не только быстрые диски, которые способны выполнять миллионы операций ввода-вывода в секунду, но и взаимосвязанные узлы и модули обработки, получающие доступ к данным по мере их генерирования.
Скорость особенно важна для выполнения анализа в реальном времени. И в этом смысле системы Больших Данных унаследовали тенденции маршрутизации трафика от социальных сетей. Так что выстраивайте свои озера данных на базе самых быстрых соединений.
5. Обеспечьте безопасность всех аспектов Больших Данных
Высокий уровень гетерогенности компонентов вычислительной инфраструктуры существенно увеличил возможности организации в части быстрого извлечения из данных полезной информации. Но здесь есть и обратная сторона. Системы стали слишком сложными с точки зрения управления и обеспечения безопасности. Огромные объемы информации и важность большинства систем анализа Больших Данных не позволяют заранее принимать меры по обеспечению их безопасности, что впоследствии может привести к серьезным неприятностям.
Большая часть собираемых, хранимых, анализируемых и используемых компаниями данных представляет собой информацию их клиентов, в том числе персональную и идентификационную. Если такие данные попадут в чужие руки, результаты будут вполне предсказуемы: судебные иски и возможные штрафы со стороны регуляторов приведут к финансовым потерям, повредят бренду и деловой репутации, а также вызовут недовольство клиентов.
Меры безопасности должны предусматривать развертывание основных корпоративных инструментов, обеспечивающих шифрование, когда это возможно, управление идентификацией и доступом, а также сетевую безопасность. Кроме того, они должны включать применение политик и обучение правильному доступу к данным и их использованию.
6. Сделайте управление данными и их качеством своим главным приоритетом
Обеспечение хорошего управления данными и их качеством должно стать неотъемлемой составляющей всех проектов анализа Больших Данных – в противном случае вероятность неудачи сильно возрастет.
Необходимо гарантировать актуальность, точность и своевременность доставки данных. В рамках инициативы Больших Данных компания GoDaddy организовала рассылку менеджерам уведомлений о задержках или аварийном завершении процедур обновления данных. В GoDaddy реализована также проверка ключевых показателей качества данных с рассылкой предупреждений в том случае, если эти показатели не соответствуют ожидаемым.
Эффективность управления данными и их качеством во многом зависит от подбора опытных профессионалов, в том числе директора по управлению данными и других руководителей, которые будут курировать эту область. С учетом стратегической важности соответствующих инициатив предприятия испытывают сегодня реальную потребность в выстраивании эффективных политик и процедур управления принадлежащими им данными.
– Bob Violino. How to avoid big data analytics failures. InfoWorld. August 7, 2017