Системы хранения данных переживают сегодня сложный период – то, что еще вчера казалось незыблемым, сегодня подвергается сомнению. Например, совместные решения Oracle и Sun Microsystems, использующие большие твердотельные массивы памяти, могут возвратить к жизни, казалось бы, устаревшие системы хранения данных с прямым подключением к серверам (DAS), а массовое распространение относительно дешевой технологии iSCSI грозит монополии Fibre Channel в сетях SAN.
Что вы считаете наиболее важным в современных системах хранения?
Хью Йошида: Вне сомнений, тема номер один – виртуализация хранения, которая привлекает к себе главное внимание прежде всего потому, что позволяет представлять все имеющиеся гетерогенные системы хранения в виде единого целого и управлять ими как одним пулом. Не менее важна и возможность перемещения данных между носителями независимо от приложений. Мобильность данных критична, во-первых, потому, что диски имеют ограниченный срок жизни, максимум три–пять лет, и рано или поздно данные приходится переносить. Пока объемы данных измерялись гигабайтами или терабайтами, это действие не составляло проблему, но с приближением эры петабайтов перенос становится нетривиальной задачей. Предприятиям нужно быть всегда готовыми к переходу на другие носители. Еще один аргумент в пользу мобильности данных – это необходимость их перемещения в процессе жизненного цикла с дорогих носителей на более дешевые.
Это основные преимущества виртуализации, которую применительно к системам хранения называют dynamic provisioning – динамическое резервирование дискового пространства. Эта технология обладает тремя достоинствами: исключение резервирования большего объема дискового пространства, чем это необходимо; все пространство может быть заранее форматировано постранично, что позволяет брать ровно столько страниц, сколько реально нужно; сокращение времени запуска диска в работу. Последнее очень важно в связи с тем, что процедура привязки нового сервера к системе хранения может занимать часы, а динамическое резервирование сокращает это время до минут, что особенно критично в случае виртуальных серверов, которые обновляются намного чаще физических. Еще одно преимущество динамического резервирования в том, что оно упрощает распределение файлов по разным шпинделям, а распараллеливание естественным образом повышает производительность.
Некоторые относят к числу важнейших технологию дедупликации, их аргументы понятны, действительно, сокращение холостых обменов данными особенно важно при создании резервных копий, но сама по себе дедупликация есть борьба с симптомом, а не с причиной. Если мы будем вовремя и точно выполнять процедуры архивирования, перенося устаревшие данные на медленные носители, то проблема дедупликации отпадет сама собой. Я считаю, что надо думать не о дедупликации, а об архивировании. Итак, с точки зрения HDS есть три важнейших направления: виртуализация, динамическое резервирование и архивирование, последнее еще можно назвать работой с контентом.
Чак Холлис: Отвечая кратко, есть одна основная тема и несколько ее сопровождающих. Главная – это, разумеется, виртуализация во всех ее аспектах: первичная память, вторичная, резервирование, архивирование, одним словом, все. Недавно мы смогли разделить логическое от физического в серверном мире и вот теперь начинаем движение в том же направлении в области систем хранения данных. Поэтому я ставлю виртуализацию на первое место, под ней может объединиться все, что связано с дедупликацией, использованием флэш-памяти, виртуальным распределением пространства и др. В результате мы получим совершенно иную операционную модель хранения. Да, разумеется, можно назвать еще несколько многообещающих инноваций, производящих сильное впечатление, но реальный восторг вызывает не каждая из них по отдельности, а то, насколько сильно мы можем переосмыслить концепции хранения данных, опираясь на подходы виртуализации.
Наблюдая за эволюцией систем хранения, нельзя не заметить, что явно не уделяется достаточного внимания природе данных. Сравните, когда мы имеем дело с реальными продуктами, то создаем специализированные хранилища, соответствующие их природе, а данные практически не классифицируются и к ним относятся как к наборам битов и байтов. Но ведь это совсем не так – системы хранения должны быть адекватны данным...
Хью Йошида: Вы правы, но сегодня ситуация меняется. Со временем не только растут объемы хранимых данных, но и меняется их структура, и мы стараемся отражать происходящие изменения в архитектурах систем хранения. Пока можно говорить только об одном признаке, по которому можно создать таксономию данных, – об их востребованности. По оперативности доступа данные можно разделить на четыре категории. Первая – наиболее часто востребованные «производственные» данные, они должны быть на самых быстрых носителях, постепенно часть из них переносится на медленные в архив. Вторая – копии производственных данных, они могут и должны быть на медленных носителях. Третья – неструктурированные данные, такие как письма, их отличительная особенность в том, что они быстро устаревают, поэтому должны чаще архивироваться. Последняя, четвертая категория – контент, то есть разного рода отчеты, нормативная и справочная информация, по объему ее больше, чем всей остальной, а обращения к ней не часты, но хранить ее нужно годами. Корпоративные хранилища должны соответствовать этой структуре, и данные четырех типов следует распределять по хранилищам разных уровней. Соответственно развиваются типы носителей, для производственных данных и кэширования используются твердотельные диски, они пока дороги, но имеют прямую адресацию, поэтому являются быстрыми, а для архивов создаются терабайтные медленные диски.
Чак Холлис: Совершенно верно, практическое значение имеют информация и контекст, а не абстрактные биты и байты, в которых они представлены, и, разумеется мы могли бы делать нашу работу, связанную с хранением данных, лучше, если бы уделяли больше внимания контексту. Часть проблемы состоит в том, на каких информационных принципах строить системы, использовать подходы типа проект-проект или приложение-приложение. Обычные системы управления корпоративными данными упускают эти моменты, однако, если не брать их во внимание, то как потом классифицировать информацию, как автоматизировать ее хранение и управлять ею? Если мы взглянем на корпоративный ландшафт, то с точки зрения классификации некоторые вещи нам покажутся очевидными: письма, архивы документов, но это лишь малая часть, пройдет немало времени, прежде чем мы научимся рациональному управлению своими информационными активами. Сейчас все чаще используют термин information governance для описания правил, процессов, управления рисками и других составляющих бизнеса, по мере того как он все более и более становится информационным. Наибольшего успеха добились в таких отраслях, как финансы и биотехнология, в остальном все находится на зародышевом уровне. Многие вообще отказываются думать на эту тему.
Еще одна проблема связана с запущенностью баз данных. Когда-то создавались огромные репозитории, их снабжали какими-то вспомогательными информационными объектами, делались попытки классификации, использования метаданных с применением каких-то внешних конструкций, но эффект в большинстве случае оказывался незначительным. По большей части люди отказались от этих попыток из-за невозможности масштабировать и архитектурной ограниченности. В последние годы выход был найден в создании объектных хранилищ данных, где предполагается непосредственная и неразделимая связь между данными и метаданными, но пока и эти попытки имеют ограниченное распространение. Но я все же думаю, что автоматизация возможна: как только будет обеспечена такая связь, то появится возможность классифицировать данные сразу с момента их появления, управлять всеми процессами их хранения, распределять их по нужным уровням системы хранения, обеспечивать их готовность, надежность, безопасность и другие потребительские характеристики.
Мы постоянно говорим о данных, но предметом потребления является информация. Другими словами, мы обсуждаем проблему бутылок, а не вина...
Хью Йошида: Каждый говорит о том, что он делает, винодел – о вине, а стекольщик о бутылках, о том, что они нужны разного размера, цвета, прочности и т.д. HDS – инфраструктурная компания, мы не делаем попыток распространить нашу деятельность на информацию, нам хватает проблем с бутылками. Но, действительно, по мере роста количества информации или числа бутылок возникает еще одна проблема: как найти то, что нужно, и Hitachi все больше внимания уделяет задачам поиска. Мы выпускаем высокопроизводительные сетевые накопители Hitachi NAS Platform, в которых используются технологии компании BlueArc, а также интегрированы инструменты Hitachi Storage Command Suite и Hitachi Data Discovery Suite, служащие для индексации и поиска файлов. В основном эти устройства и технологии ориентированы на работу с четвертой категорий данных, которую я назвал контентом, они образуют платформу Hitachi Content Archive Platform.
Чак Холлис: В индустрии есть очевидный крен в сторону обсуждения данных, как таковых, а не той информационной продуктивности, которая из них следует. Сейчас все сошлись на метаанных, но в простейшем случае метаданные – это лишь метка, говорящая об одном из вероятных способов использования данных. В реальности источников метаданных может быть много, необходимо научиться делать непротиворечивые выводы и находить оптимальные решения. Для этого следует идти не от формальных источников данных (хранилища, письма, системы ERP и т.п.), а от бизнес-процессов, где они используются. Например, сведения от систем предотвращения утечек данных (data loss prevention, DLP) могут оказаться критичнее многих других. Теоретически хотелось бы, чтобы разработчики приложений точнее учитывали то, как информация будет использоваться в последующем.
В своем блоге вы оба несколько раз использовали термин «Виртуализация 2.0». Как вы его понимаете и как на новом этапе виртуализации системы хранения интегрируются с виртуализованными серверными фермами?
Хью Йошида: Различие между первым и вторым этапами виртуализации в том, что сначала нужно было научиться представлять гетерогенные ресурсы в виде одного пула и каким-то образом управлять им, а сейчас важно делать это с наибольшей эффективностью. Скажем, я могу подключить к нашей системе виртуализации TagmaStore накопитель, имеющий ограниченные виртуализационные способности, и развить их до максимума. Виртуализация 1.0 – это маскирование «коробок», а Виртуализация 2.0 – повышение эффективности работы этих коробок, мы стремимся не просто абстрагировать физические ресурсы, но сделать это с наибольшим возвратом инвестиций. Что касается интеграции, то пока виртуализация серверов и виртуализация систем хранения существуют раздельно, но на самом деле интеграция между ними уже есть, и это, конечно же, сервисные архитектуры SOA, где приложения не привязаны к серверам, где нет классических «силосных башен». Когда мы в Hitachi говорим о виртуализации, то в качестве цели имеем в виду комплексную виртуализацию (virtualized storage), а не виртуализацию отдельного устройства (storage virtualization).
Чак Холлис: Аналитики IDC называют Витуализацией 2.0 подмножество того, что EMC и некоторые другие именуют моделью частного облака (private cloud model), но дело не в термине, а в том, что именно характерно для новой модели:
-
на смену статическим моделям приходят модели с динамически распределяемыми пулами ресурсов;
-
новые модели требуют минимального или вообще нулевого участия человека в управлении;
-
вы платите только за те ресурсы, которые используете, а не за те которыми владеете.
Специалисты IDC правы в том смысле, что виртуализованными становятся все ресурсы, но мы еще только в самом начале пути, и многое будет связано с облачной моделью и всеми ее разновидностями (частной и публичной, внутренней и внешней).
Чем практически отличаются подходы ваших компаний от подходов основных конкурентов?
Хью Йошида: Все остальные компании избрали для себя виртуализацию в сети. Как бы ни различались их решения, они сводятся к тому, что на тракте между серверами и системами хранения стоят специализироанные устройства (appliance), построенные на базе персональных компьютеров, которые по определению обладают невысокими способностями к подключению. Да, все устройства построены по технологии ПК, они не спроектированы специально для систем хранения. По сути, у них сеть на входе и на выходе, но, должен вам сказать, что сеть – худшее место для виртуализации, потому что устройство не располагает информацией о данных. До тех пор пока вы не раскроете пакет, вы даже не знаете, какую операцию вам предстоит выполнить – чтение или запись. Но, открыв блок описания команды (command descriptor block, CDB), вы нарушаете требования безопасности, поэтому далее приходится выполнять целый ряд дополнительных действий, и все они увеличивают сложность. Наш подход отличается тем, что контроллер TagmaStore, к которому подключаются накопители, имеет практически неограниченное количество входов со стороны сети, причем в процедуре обмена он выступает в роли получателя, ему не нужно раскрывать пакеты, чтобы определить тип выполняемого действия, он располагает всей необходимой информацией для виртуализации и поэтому может реализовывать функции Виртуализации 2.0, в то время как все остальные остаются на уровне 1.0.
Если мы обратимся к новому определению виртуализации, предложенному ассоциацией Storage Network Industry Association, то обнаружим там две составляющие. Первая – это акт абстрагирования, сокрытия и изоляции внутренних свойств систем от приложений и серверов с целью обеспечения независимого от сети управления данными и их хранением, и вторая – виртуализация дополняет новыми функциями низкоуровневые устройства. Собственно, это и есть Виртуализация 2.0. Из нескольких возможных подходов: на хосте (Server-based), в сети (Network-based), в дисковых массивах (Аrray-based) и в специализированных контроллерах (Сontrol unit-based) – только последний способен к поддержке 2.0.
Чак Холлис: Я бы выделил три основных объективных отличия.
-
Размер инвестиций. Мы в EMC тратим в год на исследования и разработки более 1 млрд долл, а в этом году потратили 2,1 млрд на приобретение Data Domain . Мало кто имеет близкие бюджетные статьи, поэтому мы можем развивать новые направления: объектные системы хранения, дедупликация, новые формы репликации и др.
-
Широта предложений. Мы поставляем системы хранения всех типов и размеров, от простейших (Iomega) до больших и сложных (Symmetrix V-Max) и даже систем масштаба Internet (EMC Atmos). Мы уверены, что рынку нужны все виды систем, и блочные, и файловые, и объектные, причем, как вы можете видеть, мы отличаемся высокой скоростью обновления.
-
Интегрированность. Тот факт, что в состав EMC входят VMware и RSA, в комментариях не нуждается.
Продукция конкурентов тоже пользуется спросом, значит, нельзя утверждать полного превосходства, рынок открывает возможности и другим. Кроме того, ваши решения Hitachi недешевы, где же выход?
Хью Йошида: Мы выпускаем Hitachi Universal Storage Platform VM в двух формфакторах, и меньший вполне доступен по цене. Наша сила в том, что у нас практически один универсальный продукт для виртуализации, в то время как у наших соперников их множество, и ни один из них не сравним с предлагаемым нами по функциональной полноте. Но законы рынка сложнее, и они обеспечивают сбыт самых разных продуктов. Технически лучшее решение еще не гарантирует абсолютную победу на рынке.
Кстати, о рынке. Протоколу iSCSI всего несколько лет, но уже целый ряд компаний предлагает свои решения для виртуализации систем хранения на его основе, например EqualLogic от Dell, и даже такая компания, как D-Link, известная своими массовыми решениями, поставляет системы виртуализации хранения. И надо сказать, выглядит все очень неплохо: с одной стороны – серверная ферма, поддерживаемая программным обеспечением от VMware или Citrix, а с другой – модульные дисковые массивы, между ними Ethernet. Недорого и быстро, хотя все недостатки TCP/IP в приложении к системам хранения понятны.
Чак Холлис: Каждая из систем EMC поддерживает доступ по TCP/IP: Celerra (NAS, FC и iSCSI), CLARiiON (FC и iSCSI), даже Symmetrix имеет опцию iSCSI, а Iomega поддерживает iSCSI, сертифицированнуюVMware. Где-то это хорошо, а где-то не очень – блочный обмен по iSCSI или файловый по NAS или CIFS не являются канальными и обладают элементами недетерминизма, поэтому есть необходимость в повторной передаче, паузах или каких-то еще приемах компенсации. В тех случаях, когда с этим мириться нельзя остается протокол FC. Мы верим, что когда-нибудь потребители отдадут предпочтение CEE (converged ethernet fabric) и DCE (Fibre Channel over Ethernet) или чему-то подобному. Но сейчас дебаты по этим темам в самом разгаре, поэтому сказать, какой метод или протокол победит (блочный, файловый или объектный), еще сложно.
Хью Йошида: То, что будущее сетей хранения связано с Ethernet, не вызывает сомнения. Решения на основе этого стандарта не только оказываются эффективны в части сетевой инфраструктуры, но и упрощают и удешевляют серверы, поскольку существующие коннекторы Fibre Channel могут быть дороже самых современных серверов. Переход на Ethernet исключает потребность в дополнительных коннекторах Fibre Channel плюс коннекторы Ethernet универсальны, что намного дешевле. Но заложенный в него принцип множественного доступа с контролем несущей и обнаружением коллизий (CSMA/CD) ограничивает возможности Ethernet выдерживать перегрузки. Пока работа идет в штатном режиме, все замечательно, но как только нагрузка достигает предела, начинают теряться пакеты, а в серьезных сетях хранения это недопустимо. В iSCSI специальных мер защиты от подобных ситуаций не предусмотрено, поэтому этот протокол допустим в не слишком ответственных приложениях. Напротив, Fibre Channel как протокол канального типа гарантирует доставку всех пакетов, поэтому имеются хорошие перспективы у технологий типа Fibre Channel over Ethernet (FСoE), где используется Ethernet в качестве носителя для Fibre Channel. В этом направлении наблюдаются заметные сдвиги, например, Cisco успешно продвигает FСoE до уровня стандарта. Представляется, что FСoE может быть использован на отрезке от сервера до коммутатора, а далее для связи с накопителями будет использоваться стандартный Fibre Channel. Итак, пока складываются две альтернативные ниши: для корпоративных систем надо применять Fibre Channel в классическом виде плюс к нему FСoE, а iSCSI распространит свое влияние на малый и средний бизнес.
Как вы оцениваете значение таких новых технологических течений, как объектные подходы к хранению данных и твердотельные накопители?
Хью Йошида: Здесь лучше всего воспользоваться классификацией данных по оперативности обращения к ним. Чем актуальнее данные, тем более прямым и быстрым должен быть доступ к ним, отсюда следует, что объектное хранение, обеспечивающее более абстрактный доступ, чем файловые системы и тем более базы данных, хорошо подходит для мало изменяемого контента. Мы уже реализуем объектные подходы к формированию политик, определяющих жизненный цикл данных, и понимаем, что, поскольку контент является наиболее быстрорастущей частью данных, значение таких политик будет возрастать.
Чак Холлис: Преимущества объектного подхода в том, что он наиболее богат с точки зрения метаданных, следовательно, предоставляет больше возможностей для автоматизации управления данными. Здесь нет LUN, нет файлов, нет баз данных, а есть объекты и можно использовать протоколы типа RESTful. Но сами объектные устройства относятся к иному классу – они умнее и сложнее, однако, чтобы идея овладела массами требуется время. Сравните, например, сколько времени ушло на то, чтобы идея объектности, присущая языку Java, вошла в жизнь. Но тем не менее будем оптимистами.
Хью Йошида: Что касается твердотельных накопителей (Solid State Drive, SSD), то я менее других пессимистичен в оценке будущего обычных вращающихся жестких дисков, им еще крутиться лет пятнадцать. И прежде всего дело в том, что SSD останутся дорогими, поскольку корпоративные и потребительские устройства используют разные конструкции, первые основаны на технологии одноуровневых ячеек, в вторые – на технологии многоуровневых ячеек. Когда говорят о законе Мура, не следует забывать, что его движущей силой служит массовость производства, когда удешевление достигается за счет количества, но системы хранения корпоративного класса не относятся к числу массовых продуктов, следовательно, здесь особенно быстрый рост предполагать нельзя. Влияние SSD ограничится на наиболее востребованные области, например для непосредственного хранения и в качестве кэшей.
Если расположить всех участников рынка информационных технологий по оси от данных до знаний, где место вашей компании?
Чак Холлис: EMC, скорее вертикальная компания. Наши технологии построены как стек – в основании самые разнообразные технологии хранения данных, выше технологии виртуализации приложений VMware, еще выше технологии обеспечения безопасности RSA, а завершают стек технологии работы с контентом Documentum и Captiva.
Хью Йошида: Мы считаем себя инфраструктурной компанией, но не пытаемся управлять информацией, которая является предметом деятельности других компаний, а далее действительно следуют те, кто работает со знаниями. На вершине этой пирамиды человек, потребитель знаний. К сожалению, существование этой пирамиды как единого целого не слишком осознано, но нам понятна наша роль, мы ограничиваемся обеспечением хранения и доступа к данным. Нам этого вполне достаточно, идти дальше, в отличие от некоторых наших конкурентов, мы не собираемся. Задач хватает и здесь, ими заняты несколько сотен наших ученых, работающих в исследовательском центре в Кремниевой долине.
Компания HDS отличается от остальных производителей систем хранения: она производит практически все компоненты и, имея большие научные подразделения, может позволить себе ориентироваться в основном на собственные исследования и разработки. Это обеспечивает последовательность и преемственность в развитии технологий
На протяжении ряда лет EMC покупала другие компании: VMware, Documentum, RSA Security, и по набору технологий было понятно, что за всем этим стоит намерение не просто захватить несколько разрозненных сегментов рынка, но еще и собрать их вместе. Теперь это намерение приобрело видимые черты.