Глоссарий содержит краткие толкования основных терминов важнейших направлений ИТ для создания систем поддержки принятия решений: хранилищ данных, многомерных моделей данных и анализа данных.
Глоссарий содержит краткие толкования основных терминов важнейших направлений ИТ для создания систем поддержки принятия решений: хранилищ данных, многомерных моделей данных и анализа данных. Глоссарий, несколько более сложный по сравнению с ранее опубликованным в ДИС №1 за 2002 год по CASE-технологиям, не ограничивается употребляемыми в массовой компьютерной прессе терминами, он более широко охватывает базовую терминологию этой актуальной области. При этом он ориентирован на тех руководителей информационных служб и проектов, в чей круг обязанностей входит, помимо прочего, оценка и выбор новых технологий и решений, а следовательно, содержательное знакомство с программными продуктами, документацией, а также с другими техническим и материалами, в которых с разной степенью детальности рассматриваются соответствующие технологические аспекты.
Составитель глоссария — Михаил Рувимович Когаловский, зав. лабораторией систем баз данных ИПР РАН. Его адрес: Kogalov@cemi.rssi.ru. Редактор глоссария — Евгений Захарович Зиндер, главный редактор «ДИС», директор фирмы «Группа 24». Его адрес: EZinder@osp.ru
Мы надеемся, что глоссарий не только обеспечит «сопровождение» публикуемых в данном номере ДИС статей, но позволит также полнее и точнее оценивать действительно непростые технологии хранилищ данных и OLAP, облегчит чтение другой специальной литературы и поиск необходимых в работе стандартов. Кроме того, он ориентирует руководителей на адекватную оценку сложности заказываемых или выполняемых их коллективами работ. Эта оценка нужна для уравновешивания встречающихся заявлений о том, что делать современные системы — это очень просто (нужно только приобрести соответствующий продукт или «решение» или же нанять пару способных студентов!). Как бы ни улучшались «дружественные» интерфейсы инструментов моделирования и реализации сложных баз данных, их конструирование, по своей сути, требует знания многих разделов прикладной математики (что, впрочем, относится и к программированию), это область работы профессионалов высокой квалификации.
Заметим также, что рассматриваемый здесь пласт русскоязычной терминологии включает ряд неустоявшихся терминов (например, эквивалентов Data Mart, Data Warehouse, Data Mining и др.). К сожалению, трудно ожидать, что различные их версии в ближайшее время будут унифицированы.
Примечание. Определяемые в статьях глоссария термины даны в инверсной записи («База данных многомерная»), тогда как в тексте статей термины используются в прямой записи, и те из них, которые даны курсивом (многомерная база данных), служат ссылкой на соответствующий определяемый термин.
Агрегирование данных (Data Aggregation)
Операция над кубом данных, которая строит куб меньшей размерности путем замены совокупностей значений элементов одного или нескольких измерений значениями элементов более высоких уровней и формирования в качестве содержимого ячеек результирующего куба соответствующих суммарных значений показателей.
Анализ данных глубинный (Data Mining)
Технология анализа данных в базах данных или хранилищах данных, основанная на статистических методах и служащая для выявления заранее неизвестных закономерностей. Широко распространена на практике для поддержки принятия стратегически важных решений. В отечественной литературе Data Mining часто переводится как «добыча данных», «исследование данных», «интеллектуальный анализ данных», «разведка данных» и т. п.
Анализ данных с последовательным огрублением (Roll-Up Analysis)
Метод анализа данных в хранилищах данных, предусматривающий пошаговый переход к уровням более агрегированного представления данных с целью получения огрубленных оценок исследуемых процессов или явлений в таких условиях, когда более точные оценки не требуются или не могут быть определены.
Анализ данных с последовательным уточнением (Drill-Down Analysis)
Метод анализа данных в хранилищах данных, предусматривающий пошаговый переход к уровням более детализированного представления данных для получения возможно более точных оценок исследуемых процессов или явлений.
Атрибут элемента измерения (Dimension Element Attribute)
Именованный домен значений, соответствующий некоторому элементу измерения в многомерной базе данных.
База данных многомерная (Multi-Dimensional Database)
База данных, основанная на многомерной модели данных. Обычно используется для целей анализа. Основным ее структурным компонентом является куб данных.
Витрина данных (Data Mart)
— См. Хранилище данных специализированное.
Витрина данных независимая (Independent Data Mart)
Витрина данных, базирующаяся на собственных источниках данных, а не на едином хранилище данных компании. Обычно применяются в крупных организациях, где имеются независимые подразделения со своими собственными информационными службами или «продвинутые» пользователи (например, банковские аналитики), которые могут поддерживать такие витрины при минимальных внешних консультациях.
Вращение измерений (Dimension Rotation)
Операция, обеспечивающая изменение порядка измерений куба данных при его визуализации. Позволяет представить его пользователю в другом ракурсе.
Гиперкуб данных (Data Hypercube)
— См. Куб данных.
Данные исторические (Historical Data)
Данные, ассоциированные со временем (обычно со временем появления соответствующего факта предметной области) и представляющие либо уже состоявшиеся факты, либо модельные значения фактов для анализа «что — если».
Дезагрегирование данных (Data Disaggregation)
Операция над кубом данных, которая строит новый куб большей размерности путем замены значений некоторых элементов измерений совокупностями значений элементов более низких уровней иерархии и декомпозиции соответствующих значений исходных показателей. Метод декомпозиции зависит от природы представленных данных и определяется исследователем данных. Дезагрегирование данных позволяет, например, перейти от рассмотрения годовых данных по некоторым категориям продуктов к квартальным данным.
Измерение (Dimension)
Одна из осей координат куба данных. Связанные с нею значения характеризуют какое-либо классификационное свойство сущностей предметной области, например временные характеристики (годы, месяцы, кварталы) или административную принадлежность (регион, город, район) и т. п. На совокупности значений, относящейся к некоторому измерению, могут быть определены иерархические отношения, которые позволяют осуществлять агрегирование данных, представляющих ассоциированные с ячейками куба факты.
Куб данных (Data Cube)
Основная структура данных в многомерных моделях данных. Имеет несколько независимых измерений — систему координат представляемого пространства данных. Комбинации значений координат по всем измерениям определяют точки куба, называемые ячейками. С ячейками ассоциируются значения переменных, называемых показателями и имеющих, как правило, числовые типы.
Куб данных плотный (Dense Data Cube)
Куб данных с большой долей заполненных ячеек.
Куб данных разреженный (Sparse Data Cube)
Куб данных с малой долей заполненных ячеек.
Модель данных многомерная (Multi-Dimensional Data Model)
Модель данных, оперирующая многомерными представлениями данных в виде кубов данных. Такие модели данных стали широко использоваться в середине 90-х годов в связи с развитием технологий OLAP. Операционные возможности многомерных моделей данных включают, в частности, операции агрегирования и дезагрегирования данных, построения проекций куба, вращения измерений куба и др.
Модель измерений (Dimensional Model)
— См. Модель данных многомерная.
Мультикуб данных (Data Multicube)
Структура многомерной базы данных, состоящая из нескольких кубов данных.
Очистка данных (Data Scrubbing, Data Cleansing)
Процедура предварительной обработки данных, собранных из нескольких источников для загрузки в хранилище данных. Ее целью является фильтрация данных и их консолидация, верификация и обеспечение логической целостности, устранение несогласованности и различных ошибок, восполнение пропусков и другие действия, направленные на улучшение качества данных.
Показатель (Measure)
Переменная, значениями которой являются факты, ассоциируемые с ячейками куба данных.
Показатель аддитивный (Additive Measure)
Показатель, значениями которого являются аддитивные факты.
Показатель неаддитивный (Nonadditive Measure)
Показатель, значениями которого являются неаддитивные факты.
Показатель полуаддитивный (Semiadditive Measure)
Показатель, значениями которого являются полуаддитивные факты.
Проекция куба данных (Data Cube Projection)
Операция над кубом данных, которая строит куб меньшей размерности при фиксированных значениях для каких-либо измерений. Этот термин обозначает также результат указанной операции.
Сечение куба данных (Data Cube Slice)
— См. Проекция куба данных.
Сжатие куба данных (Data Cube Compression)
Операция над кубом данных, обеспечивающая уменьшение используемого для него объема памяти в среде хранения.
Система информационная оперативная (Operative Information System, OIS)
Информационная система, предназначенная для поддержки деловых операций, составляющих бизнес-процессы регулярной производственной и вспомогательной деятельности предприятия. В публикациях встречаются также синонимы «операциональная ИС», «операционная ИС» (т. е. поддерживающая выполнение различных текущих операций компании, Operational IS) и «транзакционная ИС» (т. е. поддерживающая выполнение бизнес-транзакций компании, ее деловых операций или сделок в отличие от аналитической ИС).
Система информационная руководителя (Executive Information System, EIS)
Информационная система компании, служащая для анализа и предоставления данных о ее функционировании и поддержки принятия управленческих решений. Источником данных для этой системы является база данных оперативной информационной системы. Информационную систему руководителя называют также «аналитической системой», если кроме средств отображения агрегированных значений регламентированных показателей система предоставляет какие-либо возможности для аналитической обработки данных.
Система поддержки принятия решений (Decision Support System, DSS)
Система, обеспечивающая возможности изучения состояния, прогнозирования развития и оценки возможных вариантов поведения на основе анализа статистических данных, отражающих результаты деятельности компании на протяжении времени. В таких системах применяются современные технологии баз данных, OLAP, хранилищ данных, глубинного анализа и визуализации данных.
Срез куба (Data Cube Slice)
— См. Проекция куба данных.
Схема типа звезды (Star Schema)
Схема реляционной базы данных, служащая для поддержки многомерного представления содержащихся в ней данных. Описываемая база данных включает таблицу фактов и ряд связанных с нею при помощи внешних ключей таблиц измерений. Таблицы измерений могут иметь составные первичные ключи и являются денормализованными. Благодаря этому упрощается восприятие структуры данных пользователем и формулировка запросов, уменьшается количество операций соединения таблиц при обработке запросов. Однако в связи с избыточностью данных возрастает требуемый для их хранения объем памяти.
Схема типа снежинки (Snowflake Schema)
Разновидность схемы типа звезды, предусматривающая нормализацию таблиц измерений. Первичные ключи в них состоят из единственного атрибута (соответствуют единственному элементу измерения). Это позволяет минимизировать избыточность данных и более эффективно выполнять запросы, связанные со структурой значений измерений.
Таблица измерений (Dimension Table)
Таблица в базе данных со схемой типа звезды или типа снежинки. Строки этой таблицы содержат значения первичных ключей, представляющих значения по какому-либо измерению. Каждая таблица измерений с помощью внешнего ключа связана с таблицей фактов. В схеме типа звезды таблица измерений денормализована. Напротив, в схеме типа снежинки используются нормализованные таблицы измерений, декомпозированные по уровням иерархии элементов измерений. Каждая такая таблица соответствует единственному элементу измерения.
Таблица фактов (Fact Table)
Таблица в базе данных со схемой типа звезды или типа снежинки. Каждая ее строка соответствует некоторой ячейке куба данных. Она содержит набор фактов и по одному значению внешнего ключа для каждой таблицы измерений.
Факт (Fact)
Значение показателя, соответствующее какой-либо ячейке куба данных.
Факт аддитивный (Additive Fact)
Факты, допускающие агрегирование относительно любого измерения куба данных.
Факт неаддитивный (Nonadditive Fact)
Факты, которые не могут агрегироваться ни по какому измерению куба данных.
Факт полуаддитивный (Semiadditive Fact)
Факты, которые допускают агрегирование относительно одних измерений и не допускают относительно других.
Хранилище данных (Data Warehouse)
Информационная система, содержащая непротиворечивые консолидированные исторические данные крупной компании и предоставляющая инструментальные средства для их анализа с целью поддержки принятия стратегических решений. Информационные ресурсы хранилища данных формируются на основе фиксируемых на протяжении продолжительного периода времени моментальных снимков баз данных оперативной информационной системы компании и, возможно, различных внешних источников. В хранилищах данных применяются технологии баз данных, OLAP, глубинного анализа данных, визуализации данных. Термин Data Warehouse был введен Б. Инмоном в 1990 году. В отечественных публикациях встречается также дословный перевод — «склад данных».
Хранилище данных двухуровневое (Two-Level Data Warehouse)
Единое хранилище данных компании, обеспечивающее потребности всех ее подразделений, нуждающихся в средствах анализа данных. Нижний уровень его архитектуры образуют различные источники данных, в частности база данных оперативной информационной системы.
Хранилище данных специализированное (Data Mart)
Хранилище данных, создаваемое для поддержки принятия решений в интересах какого-либо подразделения компании или для обеспечения каких-либо конкретных аспектов ее деятельности. Источником данных для специализированного хранилища данных может быть общее хранилище данных компании или оно создается и функционирует независимо. Объем данных в специализированном хранилище данных и его потребности в вычислительных ресурсах обычно существенно ограничены по сравнению с общим хранилищем данных, оно может содержать часто используемые агрегированные данные. В отечественной литературе термин Data Mart нередко переводят как «витрина данных», «киоск данных» и даже «рынок данных».
Хранилище данных трехуровневое (Three-Level Data Warehouse)
Хранилище данных, архитектура которого предусматривает поддержку над единым хранилищем данных витрин данных для отдельных подразделений компании.
Элемент измерения (Dimension Element)
Уровень в иерархии значений координат некоторого измерения куба данных. Например, для измерения времени может быть задана иерархия «год — квартал — месяц». В этом случае данному измерению соответствует три элемента измерения, каждый из которых характеризуется своим номером уровня в иерархии.
Ячейка (Cell)
Структурный элемент куба данных, соответствующий набору значений по всем измерениям. С ячейками куба ассоциируются значения показателей.
APB-1 (Analytical Processing Benchmark)
Стандарт консорциума OLAP Council, определяющий эталонный тест для измерения производительности OLAP-серверов. Действующая версия этого стандарта — APB-1 OLAP Benchmark Release II — была принята в ноябре 1998 года.
CWM (Common Warehouse Metamodel)
Метамодель, предназначенная для определения представления метаданных в хранилищах данных. Эта метамодель разработана консорциумом OMG на основе предложенной консорциумом MDC открытой информационной модели — MDC OIM. Метамодель CWM была принята в качестве стандарта OMG в июне 2000 года.
CWMI (Common Warehouse Metadata Interchange)
Стандарт консорциума OMG, обеспечивающий унификацию представления метаданных информационных ресурсов хранилищ данных и обмена представленными таким образом метаданными между CASE-инструментами, репозиториями метаданных и/или приложениями. Основу этого стандарта составляет метамодель CWM.
HOLAP (Hybrid OLAP)
Технологии OLAP, основанные на использовании для поддержки многомерного представления данных средств как реляционных, так и многомерных баз данных.
MDAPI (Multi-Dimensional API)
Стандарт консорциума OLAP Council, определяющий спецификации интерфейса прикладного программирования для систем многомерных баз данных. Благодаря стандартизации функций OLAP-серверов появляется возможность переносить приложения между системами, соответствующими стандарту MDAPI. Действующая версия этого стандарта — MDAPI 2.0 была принята в 1998 году.
MDC (Meta Data Coalition)
Индустриальный консорциум, образованный в 1995 году с целью создания стандартов формата обмена метаданными между системами баз данных, хранилищ данных, различными распределенными системами с архитектурой клиент-сервер, интегрированными приложениями масштаба предприятия. Консорциум разработал известные стандарты OIM и MDIS.
MDIS (Meta Data Interchange Specification)
Cтандарт обмена метаданными между различными инструментальными средствами разработки, приложениями и репозиториями метаданных, разработанный консорциумом MDC. Действующая версия этого стандарта — MDIS 1.1 — принята в августе 1997 года. Позднее консорциум разработал более совершенную технологию и представил ее в стандарте OIM.
MOLAP (Multi-Level OLAP)
Технологии OLAP, где источниками данных служат многомерные базы данных.
OIM (Open Information Model)
Стандарт консорциума MDC, определяющий метамодель для представления метаданных, которые порождаются основанными на различных технологиях средствами, а также для обеспечения совместного использования таких метаданных в приложениях и хранилищах данных. Спецификации стандарта OIM учитывают стандарты UML, SQL и XML. Версия OIM 1.0 была принята MDC в июле 1999 года.
OLAP (On-Line Analytical Processing)
Технологии интерактивной аналитической обработки данных для поддержки принятия решений, ориентированные главным образом на нерегламентированные интерактивные запросы. OLAP имеет дело, как правило, с историческими данными и часто используется в хранилищах данных. Термин OLAP был введен в 1993 году Э. Коддом, сформулировавшим основные требования к функциональности программных продуктов, реализующих эти технологии.
OLAP Council
Образованный в 1995 году консорциум поставщиков программного обеспечения OLAP, целью которого является разработка индустриальных стандартов для этой области информационных технологий.
ROLAP (Relational OLAP)
Технологии OLAP, использующие представление куба данных, которое поддерживается над реляционнной базой данных.
SQL/OLAP (SQL On-Line Analytical Processing)
Новый компонент стандарта ISO/IEC SQL:1999, определяющий возможности OLAP для баз данных SQL. Одобрен в качестве поправки к SQL:1999 в декабре 2000 года.