На протяжении почти четырех десятков лет системы хранения данных на различных носителях, от перфокарт и магнитной ленты до жестких дисков, подключались к компьютерам напрямую. До 1990-х, когда стали создаваться сети хранения, не существовало концепций глобальной системы хранения и единого пространства имен, но затем появилась возможность совместного использования многими компьютерами ресурсов хранения и универсального эффективного управления ими. За идеей сетей хранения появилась идея виртуализации хранения, когда пулы ресурсов строятся из физических устройств хранения и организуются в логические устройства [1]; возникли концепции RAID-массивов, экономного резервирования, виртуализации лент и миграции данных и носителей (иерархического управления хранением). Однако сетевому хранению требовалось все более сложное управляющее ПО, в связи с чем были разработаны развитые масштабируемые файловые системы, эффективно управляющие данными и метаданными, нередко в общем пространстве имен. Те же концепции были перенесены в мир облачных вычислений и облачного хранения — облако может играть роль дополнительного уровня хранения или полноценного удаленного центра обработки данных, предоставляющего сервисы вычислений, хранения и т. п. Недавно родилась концепция программно-конфигурируемого хранения (software-defined storage, SDS) на основе оркестровщиков, динамически резервирующих ресурсы с гарантированными уровнями быстродействия, надежности, доступности и защищенности.

За последние 60 лет емкость устройств для хранения данных выросла на шесть порядков и продолжает увеличиваться [2]. Стали популярными новые типы устройств, в том числе на флеш-памяти, которая сегодня обеспечивает очень высокую производительность, а благодаря значительному прогрессу в области компрессии и дедупликации данных реального времени появились гораздо более эффективные системы хранения для многих сценариев применения.

Всех этих усовершенствований пока достаточно, для того чтобы администраторы хранения справлялись с экспоненциальным ростом данных. Но хватит ли возможностей нынешних технологий в будущем, с учетом того что данные и сложность систем продолжают непрерывно расти? Не начнет ли пространство хранения отставать по темпам роста от объемов данных, в связи с чем стандартная модель перманентного хранения всех данных станет нереализуемой из-за нехватки ресурсов [3]? Стоит определиться: нужно ли человечеству вообще хранить все нынешние и будущие данные?

Предлагаемое решение состоит в том, чтобы оценивать нужность (релевантность) и ценность данных и с учетом этих знаний выбирать, как, с каким уровнем защиты и как долго хранить информацию. При контроле изменения ценности данных со временем можно было бы добиться колоссальной экономии емкости хранения. Кроме того, единый обзор ценности различных данных, хранимых в системе, может помочь предприятию оптимизировать свою информационную коллекцию и политики хранения, а также, возможно, получить сведения, позволяющие увеличить ценность данных для бизнеса. Опишем далее концепцию когнитивного хранения, суть которой — в оптимизации хранения благодаря более точному пониманию соответствия данных потребностям и предпочтениям пользователя.

Требования масштабных систем хранения

В идеале масштабная система хранения должна решать свои задачи, ориентируясь на пользователей и на данные, — ее работа не должна определяться возможностями и ограничениями оборудования и предпочтениями сисадминов. При этом система должна сама выбирать носитель, степень защиты и место физического размещения данных, оптимально отвечающие их свойствам и требованиям пользователей, одновременно проводя балансировку затрат, быстродействия и уровня надежности. Для непрерывного выполнения такой оптимизации системе надо в автоматическом режиме динамически переносить данные по мере изменения их свойств (ценности, характера доступа и требований защиты). Не менее важные аспекты — управление жизненным циклом данных и доступным пространством. При исчерпании последнего его можно увеличить не только путем добавления новых ресурсов, но и за счет снижения избыточности либо даже удаления наименее нужных данных.

Пользователю идеальная система хранения должна давать общий обзор данных, предоставляя возможность управления ими независимо от типа (структурированные, неструктурированные, текст, графика), источника, формата, возраста, носителя (твердотельный накопитель, жесткий диск, лента), типа хранения (блочное, файловое, объектное) и т. д. Система должна обеспечивать свободный доступ к данным и возможность манипуляций с ними для аналитических нужд. Удобство управления данными можно обеспечить за счет развитых поисковых возможностей, например, реализованных с помощью подробных метаданных.

Многие из перечисленных требований уже полностью или частично выполнены. SDS, например, обеспечивает более рациональное взаимодействие между приложениями и системой хранения за счет динамического резервирования ресурсов хранения с наиболее подходящими характеристиками. Новые технологии, такие как программная организация RAID-массива и клонирование с помощью контроллера хранения, позволяют системе хранения лучше адаптироваться к потребностям данных и рабочих задач при использовании стандартного оборудования. Не так давно стартап Tarmin представил основанную на SDS концепцию хранения, определяемого данными (data-defined storage, DDS), которая подразумевает проектирование систем с ориентацией на данные.

Но остаются и существенные недоработки. В частности, большинство нынешних систем хранят все данные с одинаковым уровнем избыточности (например, с тиражированием на три приемника) или требуют ручного выбора избыточности. И похоже, ни одна из нынешних систем хранения не меняет уровня избыточности в зависимости от ценности данных.

Концепция когнитивного хранения отличается от существующих не только тем, что использует данные как отправную точку, принимая во внимание характеристики рабочей задачи, но и тем, что вводит ценность данных в качестве определяющего параметра конфигурирования и управления хранением, размещением и защитой данных, а также управления их жизненным циклом. Система когнитивного хранения — эластичная, динамичная, способная рационально расходовать емкость, обеспечивая избыточность только для самых нужных данных и экономя пространство за счет сохранения менее важной информации со сниженной избыточностью. Ценность данных наряду с популярностью (зависящей от частоты доступа) и характеристиками рабочей нагрузки можно использовать для определения требуемого уровня обслуживания. В отличие от ситуации, когда конкретным классам срезов данных вручную назначается то или иное качество обслуживания (Quality of Service, QoS), система когнитивного хранения автоматически идентифицирует классы и рекомендует подходящие политики для обеспечения нужного QoS. Это важнейшая особенность концепции когнитивного хранения, в первую очередь в контексте систем хранения Больших Данных, в связи с тем что при огромных и растущих объемах ручное управление QoS невозможно.

В современных гетерогенных системах хранения различные типы накопителей значительно различаются по цене и характеристикам быстродействия и надежности. В частности, у SSD время доступа — сотни микросекунд, а у ленточных систем при гораздо меньшей стоимости гигабайта доступ может занимать десятки секунд. Из-за этих различий проектировщикам систем хранения сложно добиваться высокого быстродействия при относительно низких затратах, для чего нужно оптимально сопоставлять производительность и надежность накопителей с требованиями защиты и характером доступа к данным. Но постоянно растущие объемы данных, меняющийся характер доступа и потребности в защите вынуждают создавать автоматизированные системы динамического управления данными.

Надежность и производительность накопителей можно улучшать, применяя методы системного уровня — например, распределяя данные между несколькими устройствами или создавая несколько копий. Принципы и время применения таких методов зависят от характеристик доступа и накопителей, а также от требований к защищенности хранимых данных. В большинстве современных систем хранения предусмотрен заранее заданный набор методов улучшения быстродействия и надежности. Они либо применяются сразу ко всем хранимым в системе данным, либо выборочно активируются вручную системным администратором для какой-то их части. Но со временем системы начнут в автономном режиме управлять своими быстродействием и надежностью, контролируя затраты путем использования различных технологий для разных данных в нужное время.

Кроме того, для более рационального использования емкостей можно применять методы оптимизации хранения, в том числе дедупликацию, компрессию и хранение без дублирования. Правда, с зашифрованными данными эффективное применение дедупликации пока затруднено.

Свойства данных

Срезы данных обычно значительно различаются по структурированности контента, размеру файлов, формату, ценности и популярности данных. Рассмотрим две последние характеристики, существенно влияющие на требования к размещению и защите данных.

Ценность данных

В большинстве современных систем ценность не имеет точного определения, но ее можно описать как отражение стоимости потери конкретного элемента данных или неспособности извлечь из него финансовую выгоду. В зависимости от контекста ценность может иметь разные толкования. В контексте бизнеса информацию можно рассматривать как актив — у данных есть потенциальная или реализованная бизнес-ценность и соответствующая стоимость обработки и хранения. Специальная область исследований — инфономика — занимается оценкой экономической значимости информации. Помимо ценности для бизнеса, у данных могут быть историческое значение (например, у наследия человечества), эксклюзивная ценность (уникальные срезы данных, полученные в ходе экспериментов, записи личных медицинских карт), юридическая ценность (юридические записи и сертификаты), личная ценность и т. д. Таким образом, не все данные, хранимые в системе, являются одинаково нужными, и их ценность может со временем меняться. Несмотря на это, современные системы обычно рассматривают все данные как одинаково значимые. Если каким-то данным нужно особое обращение, меры по их защите должны принимать сисадмины или пользователи.

Для многих видов данных ценность должен специально задавать пользователь, однако некоторые данные по своей природе могут быть ценнее. К примеру метаданные, а также уже обработанная информация обычно имеют более высокую ценность из-за затраченных вычислительных ресурсов и в связи с более высоким качеством вследствие обработки. Потеря таких данных обойдется дороже. Уникальные или эксклюзивные данные могут иметь крайне высокую ценность, если их после утраты нельзя восстановить.

Таким образом, для различных категорий данных требуются разные стратегии хранения (рис. 1). Данные высокой ценности (подлежащие обязательному сохранению) могут не иметь большого объема, но хранить их нужно надежно (даже если это сопряжено с большими затратами) и в их целостности необходимо часто удостоверяться. Другие данные, например юридические, может понадобиться хранить до удаления с высокой надежностью определенное число лет. Для таких категорий данных необходимо гарантировать подходящий фиксированный уровень защищенности при минимально возможной цене и следовать оптимальным методам хранения.

 

Рис. 1. Изменение со временем общей ценности различных категорий данных
Рис. 1. Изменение со временем общей ценности различных категорий данных

 

Еще одна категория данных, обозначенная на рис. 1 как «данные с датчиков и бизнес-данные», тоже обычно характеризуется большими объемами и высокой ценностью в момент создания, по крайней мере, если они создавались или собирались для конкретной цели. После того как данные были использованы по назначению (например, сведения о заказе в онлайн-магазине или данные диагностики пациента), их ценность уменьшается. Возможно, однако, повторное использование этих данных для каких-то нужд, которое позднее увеличит их ценность (пример — адресная реклама на основе обобщенных сведений о покупательском поведении, медицинские исследования или страховки на базе долгосрочных сведений о лечении и т. п.). Эта категория данных важна для концепции когнитивного хранения, так как характеризуется одновременно и большими объемами, и ценностью, меняющейся со временем. Кроме того, общую ценность данных для бизнеса можно увеличить, минимизируя стоимость хранения, и в этом смысле когнитивное хранение дает основу для построения систем хранения, базирующихся на экономике или ценности данных.

Для масштабируемости системы и защиты нужных данных их ценность должна определяться автоматически, а гранулярность изменений ценности данных зависит главным образом от контекста, в котором они используются. С технической точки зрения широкий диапазон гранулярности ценности и защиты можно обеспечить, применяя методы тиражирования и кодирования данных. Показатель ценности имеет большое значение в процессе принятия решений о том, какие данные нужно хранить, с каким уровнем избыточности и как долго, особенно для Больших Данных, затраты на хранение которых можно существенно снизить с принятием соответствующих политик. Например, только снижение избыточности данных низкой ценности с троекратной до двукратной позволит уменьшить затраты на хранение на 33%.

Популярность данных

В системах хранения распространено явление, когда распределение частоты доступа к данным плотно сосредоточено на их небольшом подмножестве. Это особенно выражено в крупномасштабных системах, в которых к значительной доле срезов данных обращаются редко или не обращаются вовсе. Понятно, что, если идентифицировать «горячие» данные частого доступа и размещать их на быстрых уровнях хранения, а «холодные» — на медленных, можно добиться значительного снижения затрат на электроэнергию и инфраструктуру. В некоторых современных системах хранения уже ведется мониторинг частоты доступа и данные автоматически переносятся на соответствующие уровни по мере снижения «температуры». Отметим, что высокая ценность данных не обязательно означает частый доступ, хотя корреляция возможна. При этом могут быть данные редкого доступа с большой значимостью — например, информация, относящаяся к наследию человечества, и уникальные срезы данных.

Свежезагруженные наборы данных не имеют истории доступа, поэтому неясно, где их надо сохранять. Но знание закономерностей доступа к похожим данным, которые сохранялись ранее (при этом нужно верно выбирать критерии сходства), позволяет оптимизировать выбор между производительностью и ценой.

Жизненный цикл данных

Часто ценность данных со временем меняется: значительная доля их срезов утрачивает нужность или устаревает, — однако эти срезы продолжают расходовать ресурсы хранения и потенциально могут быть уязвимы. Поэтому из соображений экономичности и защиты важно безопасно архивировать «холодные» данные и удалять устаревшую информацию. В нынешних системах такое удаление если и выполняется, то вручную, однако стремительно растущий объем и удлинение жизненного цикла данных, нередко обусловленное нормативными требованиями, делают обязательной автоматизацию процесса удаления. При когнитивном хранении удаление (или выдача соответствующей рекомендации) будет происходить не только с учетом юридических требований или популярности данных, но и в зависимости от их ценности — уничтожаться будут малоценные данные, а не важные с низкой частотой доступа.

Затраты на хранение

Чтобы лучше понять, как выполнить различные требования крупномасштабных систем хранения, рассмотрим пример переноса всех данных организации в облако. Задача — свести к минимуму затраты и обеспечить надежное хранение и необходимые вычислительные возможности. Данные разнородны, и требования хранения для различных классов могут существенно варьироваться. Например, рабочим базам данных нужны быстрый случайный доступ и высокая доступность, поэтому их надо хранить на SSD или других быстрых накопителях с автоматическим тиражированием для надежности. А журналы операций, сохраняемые согласно нормативным требованиям, могут характеризоваться редким доступом, но их надо надежно хранить в течение фиксированного периода времени. Такие данные можно хранить на ленте, при необходимости — с тиражированием между разными географическими регионами.

Проведя сортировку данных по категориям в зависимости от требований и сопоставив разным категориям соответствующие решения хранения, предлагаемые провайдером облачных сервисов, организация может минимизировать затраты на хранение. Допустим, провайдер предлагает три варианта избыточности: высокая (три копии) по цене 3 цента за 1 Гбайт, сниженная (две копии) по 2 цента за 1 Гбайт и низкая (RAID-5) по 1,5 цента за 1 Гбайт. Если бы в организации классифицировали свои данные по категориям и сохранили, скажем, 5% из них, считающихся наиболее важными, с высокой избыточностью, 45% менее важных — с умеренной избыточностью, а остальные 50%, наименее важные, с низкой избыточностью, то можно было бы на 40% снизить затраты по сравнению с хранением всех данных с высокой избыточностью. Если хранить на быстрых накопителях лишь данные частого доступа, затраты можно уменьшить еще значительнее. А если бы классификацией данных по категориям занимался провайдер облачного сервиса хранения, диапазон возможностей оптимизации и экономии был бы еще больше.

Когнитивное хранение

Опишем концепции и архитектуру системы когнитивного хранения данных (рис. 2).

Рис. 2. Структура когнитивной системы хранения данных
Рис. 2. Структура когнитивной системы хранения данных

 

Интеграция хранения и вычислительных мощностей

В когнитивной системе хранения важно, чтобы для предварительной обработки входящих данных, осуществляемой вычислительными и аналитическими модулями в режиме реального времени, были доступны вычислительные ресурсы. При такой обработке выполняются процедуры фильтрации и классификации — например, анализ данных для начальной идентификации связанных с ними активов и назначение различных уровней ценности; отбрасывание сомнительных или ненужных данных; анонимизация медицинских записей. В целом к классификации реального времени могут относиться любые операции предварительной оценки входящих данных с гарантированной устойчивой пропускной способностью. При распознавании нужной информации оперативный классификатор относит соответствующий срез к одному из нескольких классов релевантности в зависимости от присутствия особенностей, характеризующих информацию как нужную. Срезы данных, в которых такая информация не найдена, относятся к классу низкой релевантности. Несколько пар «детектор-классификатор» могут работать параллельно, анализируя множество потоков данных и типов событий. Классификаторы могут присваивать каждому срезу данных по несколько тегов.

Помимо модулей обработки в режиме реального времени, имеются дополнительные офлайн-модули, которые выполняют мониторинг и переоценку нужности данных с течением времени, обеспечивая более глубокий анализ. Конфигурирует всю систему администратор, но возможна настройка на основании автоматически генерируемой информации.

Определение ценности данных

Для каждого нового среза данных, подлежащего сохранению, можно определить его нужность, популярность, требуемый уровень хранения и избыточность путем сравнения соответствующих метаданных и контента с другими срезами данных, уже хранимыми в системе. Для демонстрации этого принципа использовался алгоритм кластеризации методом бутылочного горлышка (Information Bottleneck, IB): эта методика обучения с учителем имеет меньшую сложность и более высокую надежность, чем другие методы. Согласно методу IB, берется совместное распределение между двумя случайными переменными X и Y и создается сжатая репрезентация X в новой переменной T так, что она сохраняет максимальный объем совместной информации X и Y. В контексте классификации данных X соответствует метаданным (набору слов), а Y — классам релевантности. Таким образом, ценность данных определяется релевантностью, ассоциируемой с Y.

Экспериментальные данные для тестирования метода были взяты с лабораторного сервера, хранящего пользовательские файлы. Для классификации были собраны метаданные, в том числе идентификаторы пользователя и группы, сведения о размере файлов, правах доступа, времени и дате создания, расширениях файлов и полные пути. Данные были разделены по пользователям — каждый из них мог определять разные классы важности файлов для себя. Всего было 1,77 млн файлов и семь пользователей; максимальное число файлов на пользователя составило 886 750. Данные были классифицированы по определенным пользователями подклассам, представлявшим различные проекты, а все остальные файлы были определены в один большой подкласс. Каждый подкласс определялся как содержащий все файлы в некотором наборе каталогов. Были введены три класса нужности, в два из которых включили файлы из двух разных проектов, а в третий — все остальные.

Выяснилось, что пользователь с максимальным числом файлов имел файлы из всех классов, поэтому данные этого пользователя были взяты за основу для экспериментов. Для этого пользователя файлы проекта 1 были самыми важными и принадлежали к классу 1, файлы проекта 2 были умеренно важными и принадлежали к классу 2, а остальные, как наименее важные, отнесли к классу 3. Размеры классов сильно разнились: класс 1 содержал лишь 157 файлов, класс 2 — 2688, а класс 3 — остальные 863 905. Для проверки реализуемости автоматического определения ценности было проведено 10 прогонов системы на случайно выбранных обучающих срезах разного размера, анализировался уровень точности с доверительным интервалом 95%. При каждом прогоне для обучения выбиралась определенная фиксированная доля файлов каждого класса. На рис. 3 показана точность прогнозирования для каждого класса. С ростом обучающего среза точность для меньших классов повышалась, приближаясь почти к 100% для примерно 30% обучающих данных.

Рис. 3. Точность классификации файлов с использованием метода IB
Рис. 3. Точность классификации файлов с использованием метода IB

 

Для более крупных систем с меньшим числом обучающих образцов для определения ценности данных, возможно, больше подойдет метод обучения «с частичным привлечением учителя» (semisupervised learning, SSL), в рамках которого используются как размеченные, так и неразмеченные данные.

Перспективным представляется метод, основанный на графовом SSL. Опишем граф, каждая вершина которого означает информационный объект, хранимый в системе, каждое ребро соединяет два объекта, чьи метаданные «близки» согласно некоторому показателю сходства, а вес ребра соответствует значению этого показателя для пары вершин, соединенных данным ребром. Каждая вершина ассоциирована с ценностью соответствующего информационного объекта. Некоторому подмножеству вершин в процессе обучения присваиваются показатели ценности данных, а остальные остаются неразмеченными — для них ценность определяется исходя из связности графа. Руководящий принцип при этом такой: похожие элементы данных должны иметь схожую ценность. Для реализации этого принципа существует несколько алгоритмов, в том числе метод собственных векторов матрицы и передача сообщений. Графовые SSL-методы особенно эффективны, если объем размеченных данных ограничен. Более высокой точности можно достичь путем исследования структуры графа, в том числе размеченных и неразмеченных вершин. В этом контексте важнейшее значение имеют структура графа и выбор показателя сходства. Последний, возможно, придется выводить и адаптировать в зависимости от контекста. Выведение показателей сходства — предмет активных исследований.

Выбор уровня защиты и доступности данных

После первоначальной классификации срезы данных обрабатываются селектором, который с учетом класса релевантности определяет требуемый уровень защиты и тип носителя. Выбор решения также зависит от закономерностей доступа в конкретном классе релевантности, сведения о которых поступают от соответствующего компонента (рис. 2). Селектор назначает уровень защиты и выбирает тип носителя для первоначального размещения данных. Для дальнейшей оптимизации можно оценивать различные характеристики рабочей задачи — например, последовательность и частоту идущих подряд операций доступа. Каждый срез данных шифруется или тиражируется для обеспечения нужного уровня защищенности (с помощью какой-либо формы метода неравномерной защиты от ошибок) в зависимости от класса релевантности. Уровни хранения и защиты следует периодически определять заново, чтобы учитывать изменения релевантности и частоты доступа.

Требуемый уровень защиты также зависит от типа возможных нарушений, в числе которых: порча данных, выраженная в виде коэффициента битовых ошибок (bit error rate, BER); стирание данных, характеризуемое средним временем до потери данных (mean time to data loss, MTTDL) или ожидаемой годовой долей потерянных данных (expected annual fraction of data loss, EAFDL); выраженное в процентах время недоступности данных.

Перенос данных между уровнями

В модуле многоуровневного хранения данных имеются мигратор и диспетчер емкости хранения, работающие с учетом информации от механизма оценки характера доступа. Мигратор перемещает данные между уровнями по мере изменений ценности данных и закономерностей доступа. Политики, согласно которым срезы данных переносятся между уровнями, зависят от соответствующего класса релевантности и закономерностей доступа, а также от быстродействия устройства хранения. Нынешние механизмы распределения данных по уровням обычно учитывают только популярность. Чтобы гарантировать определенный уровень защиты для данных конкретной релевантности, на разных уровнях хранения можно использовать разные схемы избыточности. Например, BER у ленточных накопителей составляет 10-19, а у жестких дисков — 10-15. Соответственно, при переносе среза данных между уровнями мигратору нужно адаптировать схемы избыточности так, чтобы обеспечить тот же уровень защиты.

Для снижения затрат требуемую степень защиты можно гарантировать путем распределения избыточных данных между несколькими уровнями. Например, срезы с высокой нужностью и низкой или умеренной популярностью могут иметь одну копию на SSD (для скорости) и еще одну на ленте (для надежности и экономии затрат). По сравнению с тиражированием помехоустойчивые коды обеспечивают гораздо более высокую эффективность хранения при том же уровне надежности, но со сниженной скоростью доступа.

Оценка закономерностей доступа

Мониторинг доступа к данным позволяет получить дополнительные сведения о популярности срезов. При каждом обращении к срезу соответствующие метаданные, в том числе класс релевантности, передаются оценщику характера доступа. Закономерности можно обнаружить, например, в активности в разное время суток, в последовательностях считывания и записи, в очередности доступа и в количестве пользователей, получающих данные. Эту информацию можно использовать для сортировки срезов данных по классам популярности. После первоначального размещения данных оценщик закономерностей следит за доступом и периодически освежает классификацию.

Динамическое обновление критериев выбора

Важная особенность когнитивного хранения — непрерывная переоценка критериев классификации срезов данных согласно релевантности и популярности. Селектор обновляет эти критерии на основе класса релевантности и статистики доступа, при этом информация об изменениях популярности срезов передается селектору.

Классификация ценности данных полагается на распознавание событий или особенностей, заданных администратором либо выведенных автоматически по наблюдениям за определенными свойствами хранимых данных (например, метаданными, хранящими результаты отбора). Поэтому, чтобы адаптировать показатели сходства, от которых зависит процесс классификации, необходимо реализовать аналитические механизмы, непрерывно оценивающие ценность данных и прогнозирующие изменения контекста (рис. 2).

Управление емкостью хранения

В системах Больших Данных приходится увеличивать емкость хранения и/или удалять устаревшие срезы данных. Диспетчер емкости хранения избегает переполнения путем снижения избыточности определенных классов данных, выдачи администратору рекомендаций по увеличению емкости системы хранения и, возможно, удаления наименее нужных данных. Например, если доступная емкость заканчивается, а возможности добавить пространство нет, то диспетчер может снизить избыточность наименее релевантных срезов либо удалить их. Если все срезы все еще важны, диспетчер должен порекомендовать увеличение емкости с учетом прогнозируемых потребностей, нынешнего использования пространства на данном уровне хранения и исторических сведений о росте емкости системы.

Задачи для исследований

Воплощение в жизнь идеи когнитивного хранения будет зависеть от способности исследователей идентифицировать принципы определения ценности данных и от появления систем хранения, ориентированных на данные. Методы определения экономической значимости информации, изучаемые инфономикой, могут быть полезными для определения ценности данных в контексте бизнеса. Но может быть и более широкое толкование ценности данных, учитывающее субъективность, контекст, зависимость от культуры и времени, а также эксклюзивность и достоверность информации.

Тесно связанная с этим тема исследований — автоматическое определение ценности данных и среди перспективных подходов, таких как алгоритм IB и методы графового SSL-обучения. Но наилучшие методы, вероятнее всего сильно зависящие от контекста, еще предстоит разработать.

Один из интересных вопросов — взаимосвязь между популярностью и ценностью данных, например, с точки зрения контекста, в котором данные создаются и потребляются. Понимание такой корреляции, если она есть, а также ее изменение со временем могут сильно повлиять на архитектуру когнитивной системы хранения.

Важнейшая тема исследований — безопасность. Если данные шифруются клиентом, то и определение ценности должно выполняться на стороне клиента до шифрования, если, конечно, не будет способов безопасно анализировать информацию в зашифрованном виде. Кроме того, нужно более глубокое понимание вопросов безопасности, чтобы определять, как уровень защищенности соотносится с ценностью данных. Предстоит выяснить, есть ли смысл предлагать варьирующиеся модели безопасности в зависимости от изменения ценности со временем и можно ли гарантировать определенный уровень защиты в том случае, если он применяется сразу после создания данных.

Наконец, возникает и такой вопрос: как гарантировать предопределенный уровень защиты данных при работе с гетерогенными устройствами и данными, чья ценность варьируется со временем? Похоже, что в обеспечении гарантии надежности ключевую роль будут играть адаптивные схемы кодирования, однако их применение сопряжено с риском заметного повышения сложности и ухудшения производительности.

***

Здесь были перечислены далеко не все исследовательские проблемы, а с учетом междисциплинарной природы задачи когнитивного хранения, для ее решения понадобится еще немало исследований в целом ряде областей.

Литература

  1. K. Goda, M. Kitsuregawa. The History of Storage Systems // Proc. IEEE. — 2012. Vol. 100. — P. 1433–1440.
  2. E. Eleftheriou et al. Trends in Storage Technologies // IEEE Data Eng. Bull. — 2010. Vol. 33, N. 4. — P. 4–13.
  3. J. F. Gantz et al. The Expanding Digital Universe: A Forecast of Worldwide Information Growth through 2010. White paper, IDC, 2007.

Джованни Черубини, Дженс Джелитто, Винодх Венкатесан ({cbi, jje, ven}@zurich.ibm.com) — научные сотрудники Исследовательского центра IBM (Цюрих).

Giovanni Cherubini, Jens Jelitto, Vinodh Venkatesan, Cognitive Storage for Big Data. IEEE Computer, April 2016, IEEE Computer Society. All rights reserved. Reprinted with permission.