DW 2.0: хранилища данных следующего поколения

Хранилища данных ведут свою историю с середины 80-х годов, и с тех пор в архитектуру, технологии и информационные системы было внесено множество усовершенствований. Сегодня на основе этих усовершенствований формируется следующее поколение хранилищ данных.

В хранилища данных первого поколения заносилась интегрированная информация о транзакциях, которая размещалась на дисковых устройствах. Этим хранилищам были присущи и другие отличительные особенности, например поддержка технологии извлечения, преобразования и загрузки данных (Extract — Transform — Load, ETL), но им не хватало многих других функций и возможностей, необходимость реализации которых разработчики хранилищ данных не сумели своевременно выявить.

DW 2.0, хранилища данных следующего поколения, имеют множество интегрированных механизмов, отсутствовавших у представителей первого поколения. Помимо интеграции информации о транзакциях, хранилища DW 2.0 поддерживают следующие возможности:

классификация и редактирование неструктурированных данных, которые могут быть представлены в различных формах;
интеграция метаданных, в том числе бизнес-информации и технических метаданных;
высокоскоростной доступ к данным в интерактивном режиме с возможностью их обновления;
справочные эталонные данные;
записи профилей данных.

Кроме того, в DW 2.0 постоянно вносятся сведения о временных характеристиках.

Жизненный цикл данных

У данных в хранилищах DW 2.0 существует жизненный цикл, соответствующая информация о котором содержит описание процесса сбора данных, их использования и снятия с учета. Первоначально в систему поступают новые, свежие данные, но затем информация начинает стареть, и постепенно данные достигают «вершины» своего жизненного цикла, а потом становятся старыми и помещаются в архив. Все эти механизмы и технологии тесно связаны друг с другом в рамках структуры хранилищ данных DW 2.0 (рис. 1.).

На рис. 1 показано, что DW 2.0 включает в себя четыре основных сектора: интерактивный, интегральный, сектор близлежащих данных и архивный сектор. Данные поступают в хранилище DW 2.0 в форме, определенной приложениями. Как правило, эти приложения выполняют транзакции, требующие быстрого отклика и высокой степени готовности. В общем случае данные разных приложений практически не связаны друг с другом. Затем данные передаются на интегральный уровень, где происходит их интеграция. Конечно, данные могут передаваться в интегральный сектор и минуя сектор приложений, но для интегрального сектора характерно большое разнообразие информационных типов, а данные приложений, поступающие из интерактивного сектора, интегрируются и представляются в виде детализированных тематических разделов. В интегральном секторе присутствуют также: текстуальные темы; захваченный текст; текстовые связи; регулярно получаемые мгновенные снимки данных; профильные данные. Кроме того, на интегральном уровне находятся локальные метаданные с бизнес-информацией, локальные технические метаданные и корпоративные метаданные, обычно размещаемые в корпоративном репозитарии метаданных. Аналогичная информация размещается и в секторе близлежащих данных и в архивном секторе.

В интерактивном секторе (interactive) размещаются самые свежие данные, поступившие в хранилище меньше месяца тому назад. В интегральном секторе (integrated) располагается информация, имеющая возраст от одного дня до двух-трех лет. В секторе близлежащих данных (nearline) размещаются сведения, полученные от шести месяцев до десяти лет тому назад. Наконец, в архивном секторе (archival) можно найти данные, хранящиеся в системе свыше пяти лет.

Главными факторами, определяющими местоположение данных, являются возможность получения доступа и требуемая скорость обращения к ним. К данным из интерактивного сектора пользователи могут обращаться очень быстро и получать доступ с высокой степенью вероятности. В интегральном секторе находятся данные, извлекаемые с умеренной вероятностью и приемлемой скоростью. В секторе близлежащих данных расположены сведения, отличающиеся невысокой скоростью извлечения и вероятностью получения доступа. В архивном слое размещаются данные, скорость извлечения которых не имеет для пользователей особого значения, а возможности получения доступа к ним крайне ограниченны. Достаточно широко распространена практика хранения архивных сведений, вероятность получения доступа к которым равна нулю: компании хранят данные, к которым вряд ли кто-нибудь когда-либо обратится, просто потому что этого требует законодательство. В других случаях данные хранятся, потому что когда-нибудь они все-таки могут быть востребованы. Вероятность получения доступа к ним нулевая или близка к нулю, но если эта информация вдруг понадобится, ее можно восстановить при минимальных затратах.

Объемы данных

По отношению к общему объему интерактивный сектор содержит лишь небольшое подмножество данных, но в интегральном секторе присутствует гораздо больше информации, сектор близлежащих данных содержит еще более значительную часть сведений, а в архивном секторе находится львиная доля от общего объема информации. Таким образом, с точки зрения вместимости разные сектора DW 2.0 очень сильно отличаются друг от друга, поэтому каждый из секторов требует оптимальной для его нужд технологии, а значит, решения, которое подошло бы на все случаи жизни, здесь не существует.

Как правило, данные перемещаются из одного сектора в другой целиком, но есть два исключения. Первое относится к данным, которые передаются в интегральный сектор и должны пройти через процедуру интеграции. Второе исключение связано с данными, пересылаемыми в архивную среду: при перемещении в архивный сектор информация должна подвергаться преобразованиям по целому ряду причин. Вот лишь некоторые из них:

данные необходимо удалить из структуры, но 20 лет тому назад соответствующие технологии не поддерживались;
для ускорения и повышения гибкости доступа к архивным данным требуется их реструктуризация.

Метаданные и компоненты DW 2.0

Локальные метаданные используются во многих механизмах, они «пастеризуются» (очищаются) и пересылаются в корпоративный репозитарий метаданных, где содержится мгновенный снимок метаданных, находящихся в локальном пуле. Если в метаданные требуется внести какие-либо изменения, они сначала переводятся на локальный уровень, а затем пересылаются на уровень предприятия. Метаданные могут храниться на корпоративном уровне, если требуется отслеживать вносимые в них изменения.

Хранилище DW 2.0 включает в себя много различных компонентов. Приведем описание нескольких наиболее интересных и наиболее общих компонентов DW 2.0.

Захваченный текст

Захваченный текст (captured text) поступает из неструктурированной среды (рис. 2): электронная почта, документы, расшифровки телефонных переговоров или какой-то иной текстовой информации. Как правило, захваченный текст находится в том самом неотредактированном состоянии, в котором он был представлен в неструктурированной среде. Однако неструктурированный текст отбирается с учетом соответствия задачам бизнеса: нет смысла помещать в DW 2.0 большие объемы неструктурированного текста, если он не важен для бизнеса, в интересах которого создается хранилище, поэтому неструктурированный текст предварительно редактируется и проходит процедуру очистки.

Рис. 2. Компонент DW 2.0 — захваченный текст

Профильные данные

Профильными называются составные данные, собранные из нескольких разных источников. Профильные данные (profile data) представляют собой краткое описание множества других данных (рис. 3). Типичным примером профильных данных является составная клиентская запись, которая может быть получена из самых разных источников: покупки клиента, платежи, просмотр клиентом Web-страниц, персональная информация, сведения о семейном положении и т.д. После того как клиентская запись сформирована, доступ к ней осуществляется быстро и без каких-либо затруднений. Когда вам нужно получить информацию о клиенте, нет необходимости искать и анализировать все разрозненные источники данных. Информация о клиенте — типичная область применения профилей, но помимо этого профили могут оказаться полезными и для описания многих других тем.

Информация о предметной области

Детализированная информация о предметной области (detailed subject area data) — центральное звено хранилища данных. К этой информации (рис. 4) относятся сведения, поступившие из приложений и прошедшие процедуру интеграции. Детализированная информация о предметной области, собранная в рамках DW 2.0, впоследствии служит основой для проведения бизнес-анализа. Информация разбита на мелкие блоки, которые можно упорядочивать самыми разными способами. Она может охватывать сферы финансовой деятельности, бухгалтерского учета, продаж, маркетинга, проектирования, управления персоналом и т.д. Детализированная информация о предметной области обычно представляется в реляционной форме, а каждой записи здесь поставлено в соответствие точное время, к которому она относится.

Организация связей — текстовое описание темы

На рис. 5 показано, что представляет собой информация о связях (linkage data). Когда неструктурированные сведения поступают в среду хранилища данных — даже в процессе их редактирования или вывода на экран — текстовая информация может оказаться весьма полезной, если она привязана к классической транзакции и структурированным данным, размещенным в DW 2.0. Как правило, связи формируются с помощью адресов электронной почты и телефонных номеров. Все остальные связи могут быть образованы из имен и их видоизмененной формы. Эти данные создаются после того, как текстовая информация передается в среду хранилища данных. Заметьте, что некоторые текстовые данные не содержат связей, однако имеют самое непосредственное отношение к бизнесу предприятия.

Рис. 5. Компонент DW 2.0 — информация о предметной области

Последовательные мгновенные снимки данных

Последовательные мгновенные снимки данных (continuous snapshot data) связаны друг с другом в рамках определенного интервала дат (рис. 6). Связи эти логические, а не физические. Последовательные мгновенные снимки не перекрываются, но между ними могут существовать разрывы. Данные мгновенного снимка полезны, если в них содержится небольшое число переменных, значения которых меняются достаточно редко. Постоянно поддерживается описание данных, на основе которых могут быть созданы мгновенные снимки. Типичными примерами подобной информации являются имя клиента и его адрес. Эти структуры периодически сохраняются в виде мгновенных снимков.

Рис. 6. Компонент DW 2.0 — регулярно получаемые мгновенные снимки данных

Данные приложений

Время доступа к данным приложений (application data) составляет 2-3 секунды (рис. 7). Данные приложений не интегрируются друг с другом. Эта информация позволяет обновлять значения данных, а также вставлять и создавать новые записи. Данные приложений как побочный продукт выполнения транзакций генерируются на предприятии чаще всего.

Текстуальные темы

Текстуальными называются темы, с помощью которых осуществляется упорядочение текста, полученного из неструктурированной среды (рис. 8). Текстуальные темы (textual subject) могут генерироваться с помощью внутренних или внешних ресурсов путем создания одной или нескольких концептуальных схем.

Справочные/эталонные данные

Существует множество различных форм справочных таблиц. Когда справочные данные (reference data), имеющиеся у любого предприятия, применимы ко всем его подразделениям, их можно назвать эталонными данными.

Резюме, простые неструктурированные указатели

Основная часть данных в среде DW 2.0 представлена в детализированной форме, однако здесь есть место и для обобщения. Резюме (summary) появляется в хранилище в том случае, если в компании широко применяется укрупнение тех или иных информационных блоков (рис. 9). При подведении итогов имеет смысл определить правила обобщения: какая информация сюда включается, какая исключается, какие вычисления необходимо выполнить и т.д.

Иногда в среде DW 2.0 полезно применять указатели на неструктурированные данные (simple unstructured pointer). Время от времени объем неструктурированных данных оказывается слишком большим, поэтому переносить их в среду DW 2.0 нецелесообразно. При этом в неструктурированных документах может содержаться полезная информация. В данном случае имеет смысл поместить простые указатели на неструктурированные документы, чтобы иметь возможность получить при необходимости доступ к неструктурированным сведениям, пусть и окольным путем.

Метаданные в среде DW 2.0

Метаданные в хранилище DW 2.0 относятся к числу наиболее важных компонентов — им отводится роль нервной системы. Метаданные определяют, информация какого рода находится в хранилище и как связаны между собой отдельные компоненты DW 2.0. Без метаданных информация в DW 2.0 представляла бы собой огромную кучу фактически бесполезных сведений. В среде DW 2.0 присутствует несколько различных типов метаданных: локальные метаданные с бизнес-информацией, локальные технические метаданные и корпоративные метаданные.

Локальные метаданные ссылаются на метаданные конкретного выбранного компонента. К ним относятся метаданные инструментов бизнес-анализа, метаданные, находящиеся в каталоге системы управления базами данных, метаданные электронной таблицы, метаданные отчета, метаданные экрана, метаданные информационного словаря и т.д. В каждом из этих конкретных случаев существует компонент ИТ-среды, содержащий метаданные. Размещение и управление метаданными определяется соответствующей технологией. Если необходимо добавить или изменить метаданные, они добавляются и изменяются в рамках указанной технологии. Другими словами, локальные метаданные живут своей замкнутой жизнью.

Трудности, связанные с локальными метаданными, обусловлены тем, что они являются частью гораздо более широкого мира, о котором не имеют ни малейшего представления — любой элемент локальных метаданных не знает о существовании многочисленной армии других метаданных, с которыми нужно поддерживать определенные отношения, именно поэтому они и называются локальными.

В категории локальных метаданных присутствуют метаданные с бизнес-информацией и технические метаданные. Первые содержат текст, который несет смысловую нагрузку для людей, занимающихся бизнесом, и может оказаться для них полезным. Технические метаданные включают в себя текст, понятный и представляющий интерес только для технических специалистов.

Локальные метаданные присутствуют в любой технологии, используемой в DW 2.0, но существует потребность в их интеграции. Эта потребность нашла отражение в создании корпоративного репозитария метаданных, который служит для того, чтобы собрать все локальные метаданные в одном месте.

Необходимость хранения как локальных, так и корпоративных метаданных отражает масштабность структуры метаданных (рис. 10).

Локальные метаданные — как с технической, так и с бизнес-информацией — собираются локально. Затем они объединяются в корпоративном репозитории метаданных, в рамках которого отредактированные локальные данные упорядочиваются в соответствии с потребностями предприятия в целом.

Компания Inmon Data Systems

Основанная Биллом Инмоном, Гаем Хильдебрандом и Дэном Миэрсом компания Inmon Data Systems специализируется на разработке программного обеспечения и средствах, играющих роль моста между мирами структурированных и неструктурированных данных. В распоряжении компании IDS имеется фундаментальная технология, позволяющая переносить неструктурированные данные в структурированную среду и осуществлять их интеграцию в рамках этой среды. Совместно с компанией Compudigm, IDS предлагает приложения для визуализации неструктурированной информации, осуществляющие консолидацию метаданных; расширение систем управления отношениями с клиентами, соблюдение требований, предъявляемых к передаче информации.