На хранение корпоративных данных компании тратят немалые средства, и желание оптимизировать свои расходы является вполне естественным. Различные данные имеют для компании разную ценность, и затраты на их хранение должны быть адекватными. При этом определение реальной ценности и востребованности данных является ключевым вопросом. Неверные оценки в лучшем случае сведут на нет все попытки сэкономить, а в худшем — приведут к значительным рискам.
«В первую очередь важно оценить, насколько негативно скажется на бизнесе компании потеря критичных данных, выразить ее в денежном эквиваленте, а далее — классифицировать эти потери по степени важности или критичности», — говорит Владимир Колганов, руководитель направления систем хранения данных компании «Крок». Аналогичный подход должен быть и к требованиям конфиденциальности, целостности и доступности данных. Несоблюдение этих требований также оценивается в виде финансового ущерба, при этом имеет значение уровень критичности. Одни и те же данные могут иметь разный уровень критичности в зависимости от характеристик. Например, несоблюдение конфиденциальности в отношении некоторых архивных данных может нанести серьезный ущерб бизнесу, но невозможность доступа к ним даже в течение нескольких суток не приведет к существенным потерям.
В целом требования к хранению данных можно разделить на несколько категорий: уровень доступности (Availability); время восстановления доступа к информации после сбоя (Recovery Time Objective); «возраст» точки восстановления данных (Recovery Point Objective); период хранения (Retention Period) — чуть реже используемое требование по жизненному циклу данных.
«В зависимости от того, к какому классу критичности относятся данные, для каждого из них разрабатываются свои схема и регламенты хранения, резервного копирования и восстановления. Эта задача решается исключительно силами ИТ-подразделения», — отмечает Колганов. В результате часть данных может оказаться на флэш-накопителях системы хранения старшего уровня с возможностью непрерывного восстановления (Continuous Data Protection), а другая — в пассивном архиве на удаленном складе.
Однако нужно учесть, что с течением времени данные имеют особенность устаревать и переходить в другой класс критичности. Следовательно, к ним могут измениться требования по хранению, резервированию и восстановлению. Такой переход можно предусмотреть в концепции автоматизированного многоуровневого хранилища. Кроме того, в условиях ограничения ИТ-бюджетов, роста объемов данных и при воздействии других внешних факторов классификация данных может со временем пересматриваться.
Большинство задач по управлению их жизненным циклом успешно автоматизируются, причем как встроенными средствами систем хранения, так и специализированными программными средствами. Такие решения могут автоматически архивировать корпоративные данные и перемещать устаревшие, то есть редко используемые, экземпляры файлов, почтовых сообщений или элементов баз данных на более дешевые носители с сохранением доступа к ним.
Экономия требует зрелости
Построение многоуровневого хранилища и распределение по нему данных в соответствии с приоритетами, казалось бы, очевидное решение. Однако на практике это происходит далеко не всегда. Главная причина — в организационной незрелости компаний.
Многоуровневое хранение применимо в большинстве случаев. Логично, что часто используемые данные должны быть лучше защищены и лежать на быстрых носителях, а та информация, которая используется реже, но имеет высокую ценность для организации, должна быть перемещена на более медленные носители с должным уровнем защиты. «Тем самым решаются две задачи — во-первых, мы надежно храним все данные и обеспечиваем необходимое время доступа к ним в зависимости от уровня востребованности, во-вторых, без ущерба для бизнеса уменьшается стоимость хранения данных», — подчеркивает Колганов.
Чаще всего такому подходу препятствует сложность формальной классификации данных из-за проблем во внутреннем регламенте организаций. Если данные не классифицированы и отсутствует соглашение между бизнес-подразделениями и ИТ-департаментом по уровню их обслуживания (SLA) внутри организации, то это в большинстве случаев приводит к увеличению стоимости хранения и проблемам с доступностью. В целом исправить положение поможет обращение к компетентному системному интегратору, который всегда готов помочь заказчикам классифицировать данные и правильно выстроить многоуровневое хранилище — была бы лишь потребность в этом со стороны бизнеса. Но на практике при реализации проектов построения системы хранения нет ни достаточных вводных данных, ни времени, ни средств на дополнительные исследования. Часто компании проще и надежнее купить современный быстрый массив с одним или двумя типами дисков.
Доля реально востребованных корпоративных данных сильно зависит от специфики бизнеса, возраста компании и конкретных информационных систем. Например, если речь идет о каком-либо государственном архиве, то большая часть данных востребована, скорее всего, равномерно. В корпоративной почте востребовано в среднем 15–20% от всего объема хранилища.
Необходимо подчеркнуть, что среди этих «востребованных» данных зачастую есть и те, интенсивность доступа к которым (из-за особенностей приложений) многократно превышает среднюю, поэтому для них желательно предусмотреть отдельный уровень хранения. Доля таких «горячих» данных от всего объема информации того же класса обычно составляет не больше 1–5%.
Разумеется, неверные выводы относительно ценности данных оборачиваются определенными рисками.
«Необходимым условием для правильной оценки данных является кворум профильных специалистов из различных подразделений компаний — пользователей данных», — резюмирует Колганов. В этот процесс должны быть вовлечены не только представители бизнеса и ИТ-департамента, но и юристы, финансисты, сотрудники технологических подразделений. Например, ценность некоторых данных может быть несущественной с точки зрения бизнес-пользователя, однако их потеря будет иметь серьезные юридические последствия. Важно понимать схему работы со всеми данными и их вовлеченность в ИТ-сервисы компании: некоторые связи могут быть скрыты от пользователей и не будут учтены. Бывают и обратные ситуации, когда компания переоценивает важность части данных, например, предъявляя максимальные требования ко всей информации, чтобы не заниматься разработкой политик хранения. Такой подход возможен при наличии больших ИТ-бюджетов и может обернуться проблемой: когда бюджеты начнут сокращаться, компании перестанет хватать средств на поддержание текущей инфраструктуры.
Главное — релевантность
Подход к определению ценности данных при реализации аналитических хранилищ, естественно, существенно отличается от инфраструктурных проектов. В первую очередь в ходе оценки используются не столько технические, сколько бизнес-критерии. Основным риском при внедрении подобных решений является невозможность аналитических систем выполнять поставленные бизнесом задачи.
«Для того чтобы в дальнейшем эффективно работать с информацией, нужно на начальном этапе понять достаточно простые вещи: полезна она для вас или нет, можно ли ей доверять, требуется ли ее дополнить, — говорит Дмитрий Шепелявый, заместитель генерального директора «SAP СНГ». — Собирать всю окружающую информацию неэффективно — для этого понадобятся колоссальные ресурсы, поэтому в каждом случае необходимо принять решение о нужности данных, их хранении и дальнейшем использовании».
Сам процесс отбора должен иметь четкие критерии. Для принятия решения о нужности информации осуществляется первичная оценка. Ее критерии должны быть немного обобщены для исключения потери важной информации, но незначительно — иначе поток превратится в неконтролируемый. Минимальным набором критериев для первичной оценки является один признак — релевантность информации потребностям компании. «Иначе говоря, если информация хоть как-то касается нужной темы или потенциально может помочь в работе над проектом, то она представляет интерес, и это означает, что надо ее оставить у себя и пустить в дальнейшую работу», — объясняет Шепелявый. Так можно поступать при первичном сборе информации, если ситуация изначально до конца не изучена. Собирается все. Главное, чтобы информация как-то помогала в понимании проблемы.
Результатом такой оценки информации должен стать вывод о ее релевантности существующей ситуации. Есть и другие свойства информации, которые по своей сути являются критериями ее оценки: объективность, достоверность, полнота, актуальность, ценность, понятность.
Однако это академический подход. На практике обычно информацию оценивают с точки зрения релевантности, достоверности и актуальности. Затем при необходимости осуществляется оценка по иным критериям. Часто для ускорения процесса и в зависимости от задачи используют упрощенный набор критериев. Также практикуется объединение нескольких свойств в один синтетический параметр — например, объективность и достоверность или полнота и ценность.
В ходе внедрения корпоративного хранилища данных, становящегося «единой версией правды» для аналитических систем, основной риск представляют источники, так как некорректным данным не место в хранилище. «Определение достоверности информации является сложной задачей для большинства российских компаний, — констатирует Шепелявый. — Зачастую руководители не знают происхождения данных, не понимают, как формируются те или иные показатели. Отсюда проблема в сборе необходимой информации для формирования ключевых показателей эффективности».
Чтобы минимизировать риски получения недостоверной информации и некорректных данных, необходима единая стратегия для всей компании, с определением количественных ориентиров, целей и приоритетов. В ходе эксплуатации и поддержки хранилища данных используются специальные алгоритмы для оценки качества данных. При этом важна роль аналитика и архитектора хранилища — от них во многом зависит, насколько данные корректны.