Не так часто можно услышать вопросы "а зачем новая технология нужна, что дает бизнесу, почему потребовалась именно сейчас?" Попробуем ответить именно на них.

Зачем нужна и что такое оперативная аналитическая обработка данных (OLAP, Online Analitical Processing)

Когда речь заходит об оперативной аналитической обработке данных, можно услышать разноречивые мнения.

Некоторые говорят: «Это просто маркетинговый ход производителей программного обеспечения». С таким утверждением нельзя согласиться. Ранние воплощения OLAP (Online Analytical Processing) появились в 80-х годах, а бум пришелся на середину 90-х. Технология OLAP успешно преодолела пик ажиотажа и стала одной из важных составляющих новой, более широкой категории методов и средств бизнес-интеллекта (Business Intelligence) [1].

«Ничего нового OLAP не предлагает — мы уже сами разработали и используем у себя подобные средства». Это суждение — как и следующие — верно лишь отчасти. Возможно, ваши программисты уже создавали интеллектуальные генераторы отчетов, информационные системы для руководителей и т. п., добиваясь простоты и гибкости в формировании запросов и отчетов в конкретной прикладной области. Однако, вряд ли они поднимались до обобщения, выходящего за пределы этой области.

«Мощная аналитика поможет справиться с большинством задач анализа». Строго говоря, OLAP не имеет отношения к какой-либо определенной ветви анализа данных, а лишь помогает проводить такой анализ, большей частью визуально, используя для расчетов элементарные математические функции. «Тип программного обеспечения, которое помогает бизнес-менеджерам определить, что хорошо и что плохо в их бизнесе» — эта характеристика призвана помочь составить представление об OLAP бизнесмену, далекому от информационных технологий [2].

«Это что-то вроде электронных таблиц и не представляет интереса для программистов как инструмент». Средства OLAP поддерживают функциональность электронных таблиц, но, как правило, не сводятся к ним. OLAP — инструмент анализа данных, ориентированный на непрограммистов.

«Это средство доступа к базам данных пользователей-непрограммистов путем формирования произвольных запросов». При определенных условиях такое утверждение справедливо, однако возможности OLAP этим не ограничиваются.

Заметим, что вольно или невольно мы пытаемся сравнивать OLAP со знакомыми технологиями и средствами, втягиваемся в обсуждение деталей реализации. Значительно реже можно услышать вопросы «Зачем новая технология нужна, что дает бизнесу, почему потребовалась именно сейчас?» Попробуем ответить именно на них.

Предпосылки и причины появления OLAP

До середины 90-х годов информационные системы на основе баз данных фокусировались прежде всего на оперативной обработке транзакций (Online Transaction Processing, OLTP) в процессе учета людских, материальных и финансовых ресурсов и регистрации различных операций и событий. В последнее десятилетие пакетные бизнес-приложения, технологии электронной коммерции существенно улучшили операционную эффективность бизнеса. Однако автоматизация учета обеспечивает решение лишь оперативных, в меньшей мере тактических, но не стратегических задач, а потому не удовлетворяет в полной мере потребностям бизнеса.

Глобализация экономики, взыскательность клиентов, усиление конкурентной борьбы, процессы слияния компаний, появление молодых, быстроразвивающихся предприятий на волне электронной коммерции — все это требует маневренности и интеллектуализации бизнеса. Но для этого компаниям нужно повышать качество и скорость принятия решений в рамках своей деятельности, а также применять средства бизнес-интеллекта для периодической реорганизации бизнес-процессов. Вот почему сегодня более востребованы комплексные методики анализа эффективности бизнеса, подобные системе сбалансированных показателей.

Джеффри Мур в своей книге Living on the Fault Line пишет: «В этом новом мире информация — король. Чем больше информации вы имеете, чем лучше и быстрее анализируете ее, тем больше вероятность, что вы сделаете выигрышные инвестиции».

Данных много — отдачи мало

Без оперативных учетных систем не было бы детальных первичных данных; нечего было бы анализировать. Однако такие системы порождают новые проблемы для ИТ-служб, связанные с необходимостью управлять разрозненными источниками данных и удовлетворять потребности бизнес-пользователей в актуальной отчетности, которая строится на экспоненциально растущих объемах данных.

В 1999 году в Internet содержалось 100 терабайт данных; оперативно доступная информация в виде баз данных и файлов на серверах, ПК, в сетях составляла 1 экзабайт (то есть 1018 байт); информация на оптических дисках, магнитных лентах, в цифровых камерах — 20 экзабайт. Согласно некоторым оценкам, объем данных в Internet растет на 300% ежегодно; сравнимыми темпами будут увеличиваться и объемы данных на других носителях.

При этом, как отмечают многие исследователи, доля используемой для принятия решений корпоративной информации из всего ее накопленного объема не достигает и 10%. В чем причины столь малой утилизации? Можно назвать ряд субъективных и объективных причин этого феномена:

  • привычка доверять ощущениям, а не фактам;
  • привычка полагаться на других людей при получении информации;
  • малые сроки для принятия решений;
  • узкий круг пользователей, вовлеченных в процесс подготовки принятия решений;
  • наличие множества источников данных;
  • организационные барьеры на пути распространения данных;
  • небольшая доля структурированных данных из общего объема оперативно доступных данных;
  • ограниченный доступ к данным;
  • низкое качество данных.

Согласно исследованиям, проведенным под эгидой компании Business Objects в США и Великобритании в 1998 году [3], 88% менеджеров в трех из четырех случаев при принятии решений доверяют ощущениям, а не фактам. Все менеджеры по продажам и маркетингу полагаются на других людей при получении информации, причем только 25% из них убеждены, что доступная информация актуальна. 93% руководителей разных уровней находятся под прессом принятия решений в ограниченно короткие сроки, однако 62% не получают необходимой информации в электронном виде.

Для большинства организаций характерно наличие многочисленных разрозненных источников данных; еще хуже то, что источники эти часто содержат неактуальные, несогласованные или просто недостоверные данные. А это ведет к принятию неэффективных, а то и неверных решений.

Помимо сугубо технических проблем (организация доступа к разным несогласованным источникам данных или консолидация данных в одном источнике) имеются проблемы методические (классификация и описание информации в терминах предметной области, способы контроля и очистки данных), а также организационные (владение и санкционирование доступа к информации).

Не имея должной отдачи от хранимых данных, вы не получаете преимуществ от заключенных в них знаний о бизнесе для принятия решений, а лишь тратите ресурсы на хранение груды невостребованных данных.

Расширение круга участников процесса подготовки и принятия решений

Увеличение отдачи от накопленных данных не сводится к тому, чтобы довести коэффициент использования данных до 100%, да и вряд ли это возможно. Отдача определяется скорее востребованностью или ценностью данных для пользователей.

Известно некое эмпирическое представление о том, что ценность данных пропорциональна квадрату числа ее пользователей и количеству областей бизнеса, в которых работают пользователи. В этой формуле прослеживается связь с известным законом Меткалфа для компьютерных сетей, где ценность сети пропорциональна квадрату числа соединенных узлов; кроме того, учтено влияние разнообразия областей применения данных.

Следовательно, на получение отдачи от данных влияют:

  • стремление руководства превратить хранимые данные в информацию и знания для бизнеса;
  • навыки пользователей по обработке данных, интерпретации информации и излечению знаний для бизнеса;
  • расширение круга участников процесса подготовки и принятия решений;
  • организация коллективного использования информации;
  • наличие средств бизнес-интеллекта.

Руководители, стремящиеся получить максимальную отдачу от накопленных данных, должны понимать, что они представляют ценность не сами по себе, а только в связи с людьми — специалистами конкретной предметной области, обладающими навыками по обработке данных, интерпретации информации, анализа и превращения ее в знания для принятия эффективных бизнес-решений. «Продвинутые» руководители в качестве одного из важнейших активов рассматривают знания, аккумулированные в информационных ресурсах и в квалифицированных кадрах своей организации. Следовательно, такие кадры нужно готовить, создавая необходимые условия для получения ими знаний в процессе подготовки и принятия решений.

Расширение круга участников в процессе подготовки и принятия решений обусловлено внедрением процессного подхода к организации бизнеса, делегированием прав принятия решений; в этот процесс вовлекаются не только руководство организации, бизнес-аналитики, но также менеджеры среднего звена и просто специалисты. Новым императивом для компаний становится вооружение всех категорий лиц, принимающих решения, средствами доступа к необходимой информации.

От информационной диктатуры к информационной демократии

С тем чтобы расширить круг участников процесса подготовки и принятия решений и обеспечить коллективное использование информации, аналитики компании Gartner предлагают организациям изменить форму «информационного правления» (Information Governance), перейдя от информационной диктатуры или от информационной анархии к информационной демократии [4].

При информационной диктатуре лишь немногие имеют доступ к данным. Эта информационная элита — руководители, принимающие решения, и аналитики, их подготавливающие. Сотрудники нижнего и среднего звеньев не востребованы в этом процессе, они могут участвовать в сборе данных. Для принятия решений наверху оперируют укрупненными показателями. Зачастую недостаточная проработка и информационная поддержка не позволяют принимать обоснованно ни стратегические, ни тактические решения. Характерны такие инструменты, как информационные системы руководителей и специализированные системы поддержки принятия решений. Отдача от накопленных данных мала, скорость и эффективность принятия решений низка.

Информационная анархия складывается в результате самостоятельного удовлетворения своих информационных нужд отдельными подразделениями и специалистами: когда каждый создает собственную информационную систему, в итоге возникает «хаос данных». В подготовку и принятие тактических решений вовлечены менеджеры среднего звена и специалисты. Такая форма «правления» появилась на гребне персонализации вычислений вследствие неудовлетворенности централизованной ИТ-службой; ее особенности — разнообразие средств анализа данных, ослабленный контроль доступа пользователей внутри подразделений и чрезмерно жесткий контроль — для других подразделений. При принятии решений оперируют достаточно детальными показателями в своей области бизнеса, но возникает проблема получения и согласования данных из других областей. Если в каждом подразделении локально удается повысить достоверность и адекватность информации, то расхождения, возникшие в отчетах разных департаментов, могут обнаружиться лишь наверху [5]. Эффективным такой уклад оказывается в случае подготовки и принятия тактических решений в отдельном подразделении (или области бизнеса) при условии его слабой информационной зависимости от других подразделений (областей).

При информационной демократии информация распространяется свободным, но управляемым путем (конечно же, с учетом корпоративной политики безопасности). Многие компании осознали, что важно расширение доступа к информации для всех сотрудников, минуя организационные барьеры, чтобы стать более маневренными и эффективными. Однако они не могут позволить своим сотрудникам принимать решения вслепую, полагаясь лишь на ощущения. Для этой формы «правления» характерны консолидация информационных ресурсов, коллективный доступ к ним при децентрализации подготовки и принятия решений в отдельных областях бизнеса на различных организационных уровнях и координации принятия общих тактических и стратегических решений. Такая модель увеличивает число пользователей данных и количество обслуживаемых областей бизнеса, а значит, повышает ценность и отдачу от корпоративных данных.

Получив отдачу от накопленных данных внутри организации, можно идти дальше, предоставлять информацию бизнес-партнерам, продавать информационные услуги в Internet, образуя «информационные посольства».

Недоверие к аналитическим «черным ящикам»

Доверять результатам анализа пользователь может в том случае, если понимает используемые аналитические методы, умеет интерпретировать результаты в практической плоскости. Известно немало методов и средств, относящихся к категории аналитических, — статистический анализ, анализ временных рядов, нейронные сети, прогнозные модели, добыча данных и др. Однако все они являются «черными ящиками»: на их вход подаются определенные данные и параметры, получая на выходе результаты анализа, причем взаимосвязь входа и выхода далеко не очевидна. Моделирование и развитый анализ требуют специальной подготовки пользователей, калибровки или обучения модели на исторических данных. Кроме того, существуют объективные трудности при создании самих моделей.

Все это вызывает естественные психологические барьеры. Вот почему более востребованы понятные численные модели, сценарии «что-если» и, наконец, средства OLAP.

Неудовлетворенные потребности в способах анализа данных

Существуют объективные потребности в бизнес-аналитике со стороны высших руководителей и менеджеров предприятий. Они готовы преодолевать психологические барьеры, если анализ накопленных данных повысит эффективность принимаемых решений.

Потребность в средствах, учитывающих опыт и интуицию специалистов

На бизнес-процессы влияет множество экономических, юридических, социальных и политических факторов. Из-за динамичности экономической ситуации и невозможности целенаправленных экспериментов практически отсутствуют адекватные модели в сфере управления бизнесом [6]. Цепочка познания от гипотезы через модель к решению претерпевает разрывы. Однако здесь может выручить опыт и интуиция специалистов при формировании частных, более простых гипотез и моделей, если предоставить им средства исследования данных для поиска отклонений, тенденций и закономерностей с целью принятия неформальных и улучшенных бизнес-решений.

Для того чтобы аналитик мог использовать свою интуицию и накопленный опыт, ему необходимо формулировать запросы к данным в терминах своей предметной области, выбирая из описания данных нужные показатели и задавая определенные условия для реквизитов, а также определять групповые вычисления над предметными показателями. Для этого требуются специальные семантические описания данных, так называемые метаданные, которые представляют собой важную составляющую информационного обеспечения OLAP.

Межтематический анализ, сводные отчеты и анализ динамики

Выявление причин отклонений при анализе нередко требует привлечения дополнительного контекста. Несмотря на кажущуюся обособленность аналитиков по отдельным темам анализа, все чаще возникает потребность в межтематическом анализе и, как следствие, в коллективном разделении данных. На практике нередки случаи, когда департамент, заказавший сбор и обработку определенных данных, является не самым активным их потребителем.

Межтематический анализ данных, служащий основой принятия стратегических решений, отражает разные сферы деятельности организации (производство, продажи, услуги, маркетинг, кадры, финансы и реклама) и разных участников бизнес-процессов (клиенты, поставщики и продавцы). Подобный анализ требует, как правило, неограниченного доступа лиц, принимающих решения, к консолидированной информации, согласованной с точки зрения однозначности фактов и единства классификации и кодирования, а также полностью специфицированной в метаданных.

Полноту анализа обеспечивают обобщенные и производные от них отчеты, например сводные отчеты, балансовые отчеты и расшифровки, консолидированная отчетность группы предприятий или филиалов. Так, менеджеру регионального подразделения интересно знать, как его регион выглядит на фоне других. Аналитикам, занимающимся рекламой, важно знать не только на какие из рекламируемых товаров вырос спрос и на какие упал, но и выявлять более сложные тенденции, например рост продаж одних товаров за счет других [7].

Сводный отчет (Pivot Table) является способом компактного оформления табличного отчета путем развертывания данных по горизонтали в виде групп повторяющихся реквизитов и промежуточных итогов. Такой отчет, наиболее подходящий для представления агрегатных данных, широко применяется на практике. Однако его автоматическое составление до появления OLAP было затруднительно.

Анализ динамики как разновидность сводного анализа важен для выявления тенденций и шаблонов поведения во времени, требует не менее десятка точек (а для прогноза — в несколько раз больше). Обычно историческая ретроспектива накопленных данных охватывает не менее пяти лет. Но практически глубина анализа составляла две, реже три точки из-за усложнения формирования такого отчета с ростом числа точек во времени.

Потребность в многоаспектном анализе данных

Межтематический анализ данных, сводные отчеты и анализ динамики вовлекают в обработку большие объемы данных. Для целей анализа с обеспечением обозримости требуется рассматривать данные с разных точек зрения, сужая или расширяя обзор или ограничивая множество анализируемых данных. Эта потребность на практике удовлетворяется введением аспектов анализа — разрезов и уровней детальности.

Разрезы представляют собой группы реквизитов, объединенных общим назначением, которые позволяют упорядочить или классифицировать факты. Примеры разрезов: календарный, административно-территориальный (или географический), демографический, организационный, финансовый, операционный (или функциональный). Часто простые разрезы одного назначения, но разной степени детальности компонуют в иерархические разрезы с несколькими уровнями детальности. Уровни детальности определяют группы агрегирования значений фактов (промежуточные и общие итоги) в направлении данного разреза. Скажем, при анализе деятельности сети магазинов можно выделить следующие разрезы и соответствующие им уровни детальности (в скобках указано число уровней детальности):

  • период: все годы — год — квартал — месяц — день (5);
  • магазин: страна — территория — район — торговая точка (4);
  • продукт: все категории — категория — группа — фирма-производитель — товар (5);
  • реклама: все виды — вид рекламы — рекламная акция (3).

В зависимости от целей анализа выбирается состав разрезов, для каждого из них свой уровень детальности, а затем определяется значение реквизита. Например, заинтересовавшись товарооборотом обуви за III квартал 2002 года в Н-ском районе, можно задать следующие установки для разрезов:

  • период: уровень = «квартал», наименование = «III квартал 2002 года»;
  • магазин: уровень = «район», наименование = «район N»;
  • продукт: уровень = «категория», наименование = «обувь».

В целом такая многоаспектность и наличие уровней детальности связана с многомерностью исследуемых показателей и поддерживается средствами OLAP.

Недостаточность регламентных отчетов

Можно ли с помощью регламентных отчетов проводить полноценный анализ данных? Мешает пресловутая многоаспектность: аналитику нужно рассматривать данные под разными углами зрения. Может быть, предоставить аналитикам необходимое многообразие отчетов, сформировав их все сразу?

Давайте оценим, сколько существует видов отчетов на примере анализа деятельности сети магазинов. Количество отчетов быстро увеличивается с ростом числа разрезов и уровней. Так, число комбинаций размещения разрезов в таблицах по строкам, столбцам и заголовкам определяется величиной (4+2)!/2 = 360 вариантов без учета вариантов детализации. Число комбинаций уровней детализации оценивается 5х4х5х3 = 300 вариантами отчетов, для каждого из которых допустимы 360 вариантов разрезов, что в совокупности дает порядка 105 вариантов отчетов. А есть еще вариации состава фактов и реквизитов разрезов. Конечно, среди этого множества отчетов есть вырожденные, но и число осмысленных видов отчетов будет составлять тысячи и десятки тысяч.

Даже если удастся сгенерировать все это неимоверное количество отчетов, то вряд ли возможно организовать эффективный поиск нужных отчетов и навигацию по ним. Вот почему регламентные отчеты не удовлетворяют потребности анализа, а пригодны лишь для решения простых, частных задач. Интерактивные параметрические запросы, используемые для получения динамических отчетов, добавляют не так много гибкости к традиционным регламентным отчетам.

Оперативность и гибкость формирования отчетов

Оперативность при аналитической обработке данных прежде всего нужна для поддержания необходимого ритма работы человека в процессе анализа и принятия решений. Она реализуется за счет интерактивности, непосредственного доступа к данным, возможности самостоятельно, без посредников сформулировать запрос к данным для получения динамических отчетов.

Оперативность и гибкость создания динамических отчетов требуют, чтобы «на лету» можно было выбрать, задать или изменить:

  • состав показателей, связанные с ними разрезы и реквизиты;
  • вид таблицы (то есть размещение фактов и реквизитов разрезов в строках, столбцах или заголовке отчета);
  • уровни детальности (агрегирования) разрезов и конкретных значений реквизитов;
  • условия отбора значений фактов и реквизитов;
  • формулы расчета;
  • форматирование табличного представления;
  • графическое оформление результатов.

Имея инструментарий, обладающий подобными комбинаторными свойствами, аналитик может проводить интерактивное исследование данных «с чистого листа», создавая нужные динамические отчеты и представления данных, или же использовать «домашние заготовки», видоизменяя ранее подготовленные динамические отчеты. Он получает возможность менять структуру отчета, переставляя строки и столбцы таблицы, переключаться с табличного представления на графическое, убирать ненужные сведения и детализировать нужные, переходить с детальных данных на итоги. Таким образом, в ходе анализа он переберет много частных отчетов, но зафиксирует (сохранит или напечатает) только приемлемые варианты или решения.

Средства OLAP как раз и являются такими инструментами, обеспечивающими оперативность и гибкость в получении различных отчетов, существенно расширяя возможности участников процесса подготовки и принятия решений.

Ограниченность традиционного инструментария

Нередко при внедрении систем бизнес-анализа приходится сталкиваться с мнением пользователей о том, что традиционные средства — электронные таблицы и базы данных — позволяют исследовать данные примерно так же, как и дорогие аналитические системы. Однако это не так. Электронные таблицы и базы данных не обеспечивают гибкий многоаспектный анализ данных.

Электронные таблицы более близки к требуемой для бизнес-анализа функциональности — недаром процессоры электронных таблиц используются в качестве клиентских частей для некоторых средств OLAP. Существенный недостаток традиционных электронных таблиц заключается в жесткой структуре таблиц и соответственно ограниченной их гибкости. Возможно частичное изменение структуры путем сокрытия или перемещения строк и столбцов существующей таблицы, использования многоуровневых группировок для свертывания и развертывания деталей по отношению к итогам, задание фильтров для отбора данных, определение формул для ячеек и их диапазонов, построение диаграмм по данным таблицы. Дополнительно с помощью специальной функции можно транспонировать таблицу, поменяв ее строки и столбцы. Однако такая ограниченная гибкость проявляется в размножении вариантов таблиц, отражающих различные аспекты анализа данных; их счет идет уже на десятки и сотни. Наибольшую гибкость предоставляет механизм сводных таблиц, который реализует ограниченную функциональность OLAP. Но сводная таблица в строгом смысле слова уже не является традиционной электронной таблицей, а представляет собой существенное ее расширение.

СУБД ориентированы на обработку записей в таблицах, имеющих фиксированную структуру. Так, транспонирование таблицы является нетривиальной процедурой для языка SQL. И если принципиально все динамические преобразования таблиц в базе данных осуществимы, то запросы на выборку данных получаются громоздкими, непрозрачными и не всегда эффективными. Поэтому для повышения эффективности СУБД нужны надстройки, обеспечивающие проведение многоаспектного анализа путем композиции результатов множества запросов для представления пользователю. Кроме того, для ускорения доступа широко используется предварительная агрегация детальных данных и сохранение агрегатных значений показателей. Несоответствие языка SQL потребностям анализа выразилось в появлении языков запросов, ориентированных на анализ многомерных данных. Традиционные нормализованные структуры реляционных баз данных также явились тормозом при выполнении аналитических запросов, потребовалось создавать иные структуры, ниспровергающие каноны нормализации.

Для анализа данных важны не только возможности СУБД, но и расширенные средства генерации отчетов. Для создания сводного отчета в виде кросс-таблицы нужно пройти явную предварительную процедуру генерации отчета, не все средства поддерживают гибкое изменение структуры отчета в дальнейшем. Средства создания отчетов и запросов не ориентированы на бизнес-пользователей, с ними нужно общаться в терминах ИТ. Для получения отчетов, отличных от стандартных, аналитикам приходилось заказывать разработку отчетов и ждать в течение нескольких дней или даже недель или самим осваивать средства генерации запросов и отчетов, а то и SQL.

Прежние аналитические средства, будь то информационные системы руководителя (Executive Information Systems, EIS) или системы поддержки принятия решений (Decision Support Systems, DSS) не давали аналитику свободы действий в диалоговом режиме или вообще были статичными и неоперативными. Так, средства EIS были настроены на нужды руководителей и менеджеров и позволяли получать основную информацию о состоянии их бизнеса. Обычно они включали регламентные запросы с набором параметров. Результаты выдавались в виде таблиц или диаграмм, содержали агрегированные данные о состоянии бизнеса. Для получения дополнительной информации и проведения дальнейшего анализа применялись другие приложения или создавались по заказу запросы или отчеты на языке SQL.

Средства DSS первого поколения были пакетами прикладных программ с динамической генерацией SQL-запросов по типу запрашиваемой пользователем информации. Они позволяли аналитикам получать информацию из реляционных СУБД, не требуя знания SQL. В отличие от EIS они могли не ограничиваться одной темой, позволяли отвечать на широкий набор вопросов бизнеса, имели несколько вариантов представлений отчетов и определенные возможности форматирования. Однако гибкость таких пакетов все же была ограничена, и ориентированы они были на решение конкретного набора задач.

Только следующее поколение систем поддержки принятия решений, построенных на основе OLAP, дало аналитикам необходимую оперативность и гибкость в получении отчетов, возможность использовать интуицию и свой опыт при проведении многоаспектного и ретроспективного анализа накопленных данных с целью ускорения и улучшения принятия бизнес-решений.

Литература
  1. Артемьев Валерий. Что такое business intelligence? - Открытые системы, 2003, № 4.
  2. Thomsen E. OLAP Solutions: Building Multidimensional Information Systems. Wiley Computer Publishing, 1997.
  3. Liautaud B., Hammond M. e-Business Intelligence: Turning Information into Knowledge into Profit. McGraw-Hill, 2001.
  4. Buytendijk F., Business Intelligence Scenario: Insight for All. Gartner Symposium Itxpo / Florence, 10-12 March, 2003.
  5. Спирли Э. . Корпоративные хранилища данных. Планирование, разработка, реализация. / Пер. с англ. М.: Вильямс, 2001.
  6. Архипенков С., Голубев Д., Максименко О. Хранилища данных. От концепции до внедрения. / Под общ. ред. С. Архипенкова. М.: Диалог-МИФИ, 2002.
  7. Kimbal R., The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses. John Willey & Sons, 1996.

Валерий Артемьев — советник директора главного центра информатизации Банка России, art@gci.cbr.ru


Ключевые понятия бизнес-анализа

Постараемся уточнить основные понятия, используемые в процессе аналитической обработки данных.

Данные — сведения о реальности, которые компьютер записывает, хранит и обрабатывает. Представлены в закодированном виде и напрямую пользователями практически не применяются.

Информация — то, что человек в состоянии понять о реальности посредством обработки данных и интерпретации результатов. Представлена в терминах предметной области, она позволяет снизить степень неопределенности человека.

Знания — то, что получено из информации и используется для принятия решений. Это отклонения, тенденции, шаблоны и зависимости, обнаруженные в информации. Средства бизнес-интеллекта помогают обрабатывать «сырые» данные и представлять информацию, а также извлекать из информации знания.