«В 2015 году сценарии использования Больших Данных будут расширяться, – отметил Джон Шредер, основатель и генеральный директор компании MapR, выпускающей коммерческие дистрибутивы Hadoop. – В этом году организации начнут переходить от пакетной обработки Больших Данных к их использованию в реальном времени. Нынешние лидеры отрасли и люди, претендующие на роль лидеров в ближайшем будущем, добились существенных успехов в деле интеграции новых платформ Больших данных в аналитические системы, которые смогут обрабатывать информацию 'на лету' и оперативно реагировать на изменения в бизнесе».
По мнению Шредера, в 2015 году будут доминировать пять основных тенденций.
1. Быстрая актуализация данных
Потребность в быстрой актуализации данных является одним из главных источников развития технологий Больших Данных. Процессы в унаследованных СУБД и хранилищах данных выполняются слишком медленно, они недостаточно гибкие и не устраивают бизнес. В 2015 году быстроте актуализации данных в организациях будет уделяться еще больше внимания, а акценты начнут смещаться от сбора информации и управления данными к более активному их использованию.
«Унаследованные СУБД и хранилища данных обходятся дорого, а решать задачи обобщения и структуризации данных приходится с привлечением квалифицированных администраторов баз данных, – отметил Шредер. – Необходимость привлекать администраторов баз данных приводит к задержкам в доступе к новым источникам данных и созданию жестких структур, которые с трудом поддаются изменению. Унаследованные базы данных не обладают достаточной гибкостью, чтобы удовлетворить потребности большинства современных организаций. Первоначальные проекты Больших Данных были ориентированы на создание хранилищ для определенных информационных источников. Вместо наращивания объемов данных, находящихся в их распоряжении, предприятия начнут больше заниматься оценкой их актуальности и повышением оперативности получения требуемой информации. Какими возможностями анализа данных и выполнения операций, связанных с их обработкой, располагает организация? Насколько быстро обновляется информация при изменении предпочтений клиентов, рыночных условий, конкурентных действий и особенностей операций? От ответов на эти вопросы будут зависеть объемы инвестиций и масштабы проектов Больших Данных в 2015 году».
2. Переход от озер данных к платформам обработки данных
В определенной степени 2014 год можно считать годом концентраторов, или озер данных (data lake) – репозиториев, где необработанные данные хранятся в исходном формате: структурированном, неструктурированном или полуструктурированном, в готовности к использованию. Ценность озер данных определяется наличием масштабируемой инфраструктуры, весьма эффективной с экономической точки зрения благодаря низкой стоимости хранения терабайта данных, и возможностью оперативно реагировать на изменение ситуации.
В 2015 году озера данных продолжат развиваться. Появятся новые технологии, которые ускорят обработку хранящихся там данных и выполнение различных операций над ними. Это не только будет способствовать повышению эффективности, но и создаст единую точку управления и единую точку безопасности.
«В 2015 году озера данных будут совершенствоваться по мере перехода от пакетной обработки к обработке в режиме реального времени и интеграции файловых ресурсов, Hadoop и баз данных в платформы масштабной обработки, – указал Шредер. – Другими словами, речь идет не о создании в озерах данных крупномасштабных хранилищ, поддерживающих сложные запросы и большие отчеты, а об обеспечении непрерывного доступа к обработке событий и данных в реальном времени с целью оперативного получения самой свежей информации и мгновенного принятия необходимых мер».
3. Самообслуживание
Постоянное совершенствование инструментов и сервисов Больших Данных означает, что в 2015 году технические средства перестанут быть узким местом при организации доступа бизнес-пользователей и аналитиков к нужной им информации.
«В 2015 году начнут внедряться технологии, позволяющие бизнес-пользователям самостоятельно обращаться к интересующим их данным, – отметил Шредер. – Системы самообслуживания помогут разработчикам и аналитикам изучать данные напрямую. Прежде создание централизованных структур данных считалось возможным лишь при участии ИТ-служб. Это был очень долгий и дорогостоящий процесс. Платформа Hadoop позволила предприятиям в некоторых сценариях получать удобный доступ к структурам данных при выполнении операций чтения. Передовые организации будут осуществлять привязку данных в процессе своей деятельности и смогут получать информацию не только из централизованной структуры. Самообслуживание такого рода поможет им использовать новые источники данных и своевременно реагировать на появляющиеся возможности и возникающие угрозы».
4. Консолидация поставщиков Hadoop и новые бизнес-модели
В начале 2013 года в Intel представили собственный дистрибутив Hadoop, отличающийся от всех остальных тем, что он поддерживался непосредственно аппаратными средствами Intel. Но уже через год в корпорации отказались от этой затеи и стали поддерживать дистрибутив Cloudera.
Одновременно в Intel отметили, что клиенты предпочитают занимать выжидательную позицию, наблюдая за тем, как будет развиваться рынок Hadoop. Множество различных вариантов, предлагаемых поставщиками, приводило пользователей в замешательство. Шредер убежден в том, что в 2015 году консолидация поставщиков Hadoop продолжится. Многие откажутся от собственных дистрибутивов и попытаются сосредоточиться на чем-то другом.
«Вот уже 20 лет мы используем свободное программное обеспечение с открытым кодом, которое сегодня представляет для рынка огромную ценность, – подчеркнул он. – Технологии совершенствуются поэтапно. Технологический жизненный цикл начинается с появления инновационной идеи и создания продуктов, принципиально отличающихся от других, а заканчивается, когда эти продукты окончательно утрачивают свою индивидуальность. Эдгар Кодд придумал концепцию реляционных баз данных в 1969 году. В 1986 году развитие этой инновационной идеи превратило Oracle в публичную компанию, а превращением в массовую продукцию можно считать выпуск первой версии MySQL в 1995 году. Для технологии баз данных путь от инновационной идеи до массового продукта занял 26 лет. Hadoop только-только вступает в период технологической зрелости. С момента публикации Google первых материалов по MapReduce прошло десять лет. С глобальным распространением Hadoop мы столкнулись уже через 10 лет после появления первоначальной концепции. Но Hadoop по-прежнему находится в инновационной фазе, и предложения вендоров, опрометчиво принявших стратегии Red Hat for Hadoop, постепенно уходят с рынка. Так уже произошло с Intel, а вскоре ее примеру последует Pivotal».
Шредер уверен, что в 2015 году мы увидим эволюцию новой, дополненной новыми нюансами модели программного обеспечения с открытым кодом, в которой глубокие инновации будут сочетаться с разработкой силами сообщества.
«Именно сообществу разработчиков программного обеспечения с открытым кодом отводится главная роль в формировании стандартов и поиске консенсуса, – добавил он. – Конкуренция ускорила превращение Hadoop из процессора пакетного анализа в полнофункциональную платформу обработки данных».
5. От Большой Рекламы к Большим Данным
В 2015 году архитекторы корпоративных систем от улучшения понимания технологического стека Hadoop начнут переходить к более четкому и конкретному определению требований к приложениям Больших Данных, включая требования к готовности и непрерывности ведения бизнеса.
«Если организация намерена как можно быстрее перейти от экспериментов к серьезному внедрению в ЦОД, то необходимо, чтобы архитекторы корпоративных систем шли в авангарде движения к Большим Данным, – пояснил Шредер. – ИТ-лидерам отводится важнейшая роль в определении базовых архитектур, учитывающих требования, которые предъявляются к соглашениям об уровне обслуживания, необходимость обеспечения высокой готовности, непрерывности ведения бизнеса и удовлетворения критически важных потребностей предприятия. В 2014 году бум экосистемы Hadoop ознаменовался распространением новых приложений, инструментов и компонентов. В 2015 году рынок сконцентрируется на различиях между платформами и на архитектуре, которая нужна для интеграции Hadoop в ЦОД и достижения желаемых результатов для бизнеса».