Концепция «озер данных» совершенно новая. Термин, предложенный техническим директором компании Pentaho Джеймсом Диксоном, обсуждается уже несколько лет. Но, по словам аналитика IDC Ашиша Надкарни, идея использования озер данных в качестве ресурсов корпоративного уровня все еще находится в зачаточном состоянии. Озеро данных определяется как большое — и относительно дешевое — хранилище данных, построенное по образу Hadoop, в котором размещаются все типы необработанных данных. Впоследствии они могут понадобиться для бизнес-анализа или добычи данных. В озере данных все элементы хранятся в своей первоначальной форме, необработанной и неуправляемой.
Для создания озера данных можно использовать различные технологии; по сути, озеро — это стратегия хранения Источник: EMC |
Купить готовое к использованию озеро данных невозможно. В своей рекламе поставщики утверждают, что озера данных станут для проектов Больших Данных панацеей, но это не так. «Как и в случае с хранилищами данных, озера данных — это концепция, а не технология, — указал аналитик Gartner Ник Хойдекер. — Для создания озера данных вы можете использовать различные технологии. По сути, озеро данных — это стратегия хранения».
Озера придуманы для накопления Большие Данных. Озера предназначены для приема данных — процедуры, которая включает в себя сбор, импорт и обработку данных для хранения и последующего их использования. «Там, где организация хранилища данных оказывается слишком громоздкой для масштабного приема, вступают в действие озера данных, — пояснил Хойдекер. — Озеро данных не требует предварительного создания схемы. Данные просто заносятся туда, а схема создается и применяется уже в процессе их извлечения». В проектировании должны участвовать самые разные специалисты. Озера данных представляют собой ресурсы для всей организации, а не только для ИТ-службы. Поэтому к планированию проектов озер данных следует привлекать все заинтересованные стороны. «Речь идет о центральном компоненте архитектуры Больших Данных всего предприятия, который невозможно реализовать в отрыве от всего остального, — отметил Надкарни. — Помимо ИТ-менеджеров в проект озера данных необходимо вовлекать руководителей бизнеса и пользователей. И ключевую роль здесь должны сыграть эксперты по системам хранения».
Основные выгоды определяются не технологией. «Ценность озер данных для бизнеса мало зависит от выбранной технологии, — утверждает Хойдекер. — Ценность для бизнеса определяется накопленным опытом управления данными, который можно применить к озеру. Озера данных не являются заменой существующим аналитическим платформам или инфраструктуре. Они дополняют собой ваши усилия и помогают поднимать новые вопросы. После того как эти вопросы сформулированы, они ‘оптимизируются’ для получения ответов».