Определение: Метаданные — это информация, которая описывает информационное наполнение базы данных. Метаданные сообщают пользователям, когда фрагмент данных был обновлен в последний раз, его формат и для чего предполагается его применять. Эта информация может служить в качестве справочной для пользователя во время работы с базой данных и помогает понять значение и контекст финансовых данных, пользовательских записей и бизнес-транзакций

Если вы спросите у любого эксперта, что такое метаданные, практически наверняка услышите, что больше всего они напоминают библиотечный каталог. Но метаданные не имеют никакого отношения к книгам. Они связаны с данными, которые компания накапливает в системах обработки транзакций и хранилищах данных.

Метаданные представляют собой пул информации о данных, начиная с технических деталей, таких как размер записи базы данных, и заканчивая списком бизнес-целей, для которых предназначены различные фрагменты данных. Описания направляют конечных пользователей к нужным бизнес-данным и затем помогают им понять, что значат данные и насколько они являются оперативными.

Это не новая концепция. Разработчики программного обеспечения имеют долго хранимые репозитарии метаданных о коде, который они создают, и базы данных содержат встроенные каталоги, которые предоставляют базовые детали о таблицах данных, организованных системными администраторами.

Но распространение технологий хранилищ данных стимулирует интерес к метаданным. Корректное множество метаданных дает возможность быстрее принимать более правильные решения, поскольку пользователям не приходится вручную искать интересующую их информацию.

По словам Джона Ледли, консультанта из Сент-Луиса и исследователя компании Meta Group, сами по себе бизнес-данные бесполезны. «Если вы сейчас покажете кому-нибудь цифру, называемую чистой прибылью, то сама по себе она ничего не скажет. Вам необходимо указывать этот параметр в определенном контексте», — заметил он.

Инструментарий обработки запросов и генерации отчетов может обращаться непосредственно к пулам метаданных и предоставлять конечным пользователям для дальнейшего выбора список полей базы данных, тем самым избавляя пользователей от необходимости вручную просеивать огромные объемы данных.

Но если с точки зрения пользователей все это выглядит очень просто, то для тех, кто отвечает за эти данные, ситуация намного сложнее.

Зачастую метаданные в отделах информационных технологий создаются вручную. Автоматизированные инструментальные средства обычно ограниченны, и в них отсутствуют основные элементы, такие как «аудиторский след», то есть возможность отслеживать сделки при проверке. Около 80% компаний, с которыми мне приходилось работать, большинство своих наборов метаданных создавали вручную.

Поддержка метаданных весьма далека от развлечения. Изменения в бизнес-системах порождают изменения в данных о транзакциях, которые они создают, вследствие чего метаданные также приходиться менять. В Bank of America в Чарлотте, к примеру, этим занимается шесть человек.

«Одна из основных трудностей состоит в том, что компании начинают работать с большим энтузиазмом, но впоследствии они перестают следить за своевременным обновлением этих данных, — подчеркнул Карл Олофсон, аналитик компании International Data Corp. — Все это не позволяет корректно использовать метаданные».

Еще одна проблема — в отсутствии стандартов на обмен метаданными между различными системами. Большинство производителей хранилищ данных и разработчиков инструментальных средств, которые переносят данные из систем обработки транзакций в базы данных, для поддержки принятия решения сейчас используют собственные форматы метаданных.

Над предложениями к стандарту на метаданные сейчас работают две основные группы. Первое из этих предложений готовится в Microsoft и поддерживается коалицией Meta Data Coalition — группой, в состав которой входит 50 производителей и пользователей.

Конкурирующая спецификация, предложенная компаниями IBM, Oracle, Unisys и другими производителями, в сентябре была передана в консорциум Object Management Group.

Оба варианта созданы на основе технологии Extensible Markup Language (XML) для обмена данными. Отдельные производители программного обеспечения также работают над расширениями XML, касающимися метаданных. А некоторые производители поддерживают решения и Meta Data Coalition, и IBM/Oracle.

По мнению Луи Агоста, аналитика компании Giga Information Group, пока процесс подготовки стандартов на метаданные еще не закончен.


Метаданные в действии

1. Конечный пользователь подключается к серверу генерации отчетов в корпоративной intranet и открывает отчет о продажах

2. Пользователь выбирает поле в отчете, чтобы получить более подробную информацию о данных

3. Сервер генерации отчетов извлекает метаданные, находящиеся в реляционных таблицах в хранилище данных, созданном в компании

4. Метаданные содержат следующую информацию: размер записи или поля данных; система обработки транзакций, откуда извлекаются данные; насколько часто данные обновляются и пересчитываются; другие записи, которые объединяются для того, чтобы создать данные; список отчетов, которые объединяются для создания данных

5. Пользователь может затем использовать метаданные для адаптации отчетов по регионам, продуктам или другим категориям


Работа с метаданными

Крейг Белл, менеджер по управлению ресурсами метаданных в Bank of America, возглавляет группу, которая поддерживает метаданные для хранилища данных, размещенного на мэйнфрейме. Недавно Белл встретился с журналистами Computerworld.

Какую роль метаданные играют в Bank of America?

Когда пользователям требуется отчет, метаданные помогают им понять, что действительно означает каждый фрагмент данных. С точки зрения программиста, они хранят всю техническую информацию о данных. И если поля данных меняются, они используют метаданные для того, чтобы понять, на что еще влияют эти изменения.

Трудно ли создать метаданные?

По-разному, в зависимости от вида метаданных, которые мы формируем. Некоторые из них создаются вручную, некоторые — автоматически, с помощью специнструментария.

Насколько сложно поддерживать информацию?

Этим у нас занимается шесть человек. Мы не администраторы базы данных и не программисты. Мы специализируемся исключительно на поддержке метаданных. В каждом проекте, связанном с помещением данных в хранилище или извлечением их оттуда, мы проводим анализ воздействия, а затем работаем с программистами для того, чтобы внести технические изменения.

Что для вашей группы является самым сложным?

Мы хотим, чтобы в хранилище содержался только один экземпляр информации, дабы каждый мог работать с общим множеством данных. Мы тратим время на то, чтобы убедиться в уникальности новой информации, то есть мы должны выяснить, что она не существует уже под другим названием.