Новая дисковая подсистема хранения данных от IBM
Спустя четыре месяца, по данным IBM, заказчикам поставлено уже свыше 1200 таких устройств.
Несколько слов о том, что такое корпоративные системы хранения данных и зачем они нужны. Критически важные приложения, такие как оперативная обработка транзакций, работа со сверхбольшими базами данных и хранилищами данных, — все эти факторы часто создают особые требования к емкости, производительности и надежности дисковой памяти. Применение отдельных дисковых накопителей и даже массивов RAID не позволяет достичь необходимых характеристик. Кроме того, в связи с наметившейся тенденцией к консолидации серверов возникает потребность в доступе целого ряда серверов с разными операционными системами к общему пулу дисковой памяти.
Напомним, что применение сети запоминающих устройств, обеспечивающих выполнение операций ввода/вывода без использования вычислительных мощностей серверов, имеющих доступ к этим устройствам, — новое направление развития систем ввода/вывода, получившее название сети хранения данных (Storage Area Network — SAN). «Акулы» как раз очень хорошо подходят для создания SAN.
Следует сказать, что корпоративные системы хранения данных удовольствие весьма дорогое, и используются они для решения наиболее важных задач в данной области. Соответственно они первоначально и возникли в мире мэйнфреймов. В настоящее время, когда подсистемы ввода/вывода наиболее мощных Unix-серверов по пропускной способности не уступают подсистемам ввода/вывода мэйнфреймов, а по некоторым параметрам и превосходят их, корпоративные системы хранения данных стали активно использоваться и в мире открытых систем.
Отметим, что при обсуждении систем хранения в IBM принято относить к открытым системам не только Unix, но и все серверы, которые могут работать с индустриальными стандартами шин ввода/вывода (например, SCSI или Fibre Channel), в том числе ПК-серверы с Windows NT или Novell NetWare, а также AS/400.
Архитектура ESS
ESS является прямым наследником дисковых подсистем IBM Versatile Storage Server (VSS), в которых впервые была внедрена архитектура Seascape. Ранее IBM выпускала знаменитые дисковые системы RAMAC, активно применявшиеся с мэйнфреймами. Но ESS даже на фоне своих прямых предшественников выглядит весьма впечатляюще. Фактически ESS представляет собой мощный кластер из двух четырехпроцессорных серверов SMP-архитектуры, причем все его ресурсы используются «всего лишь» как дисковая подсистема для еще более мощных хостов.
Общая архитектура ESS представлена на рисунке. Начнем с центральной части, пожалуй, наиболее скрытой от пользователя. Это — два кластерных процессорных комплекса. Каждый процессорный комплекс представляет собой SMP-подсистему, в которой в качестве процессоров используются PowerPC 604e/332 МГц. В корпорации вынашиваются планы по применению в процессорных комплексах своих 64-разрядных микропроцессоров с соответствующим увеличением производительности.
Каждый SMP-сервер укомплектован 3 Гбайт памяти (столько же, сколько в VSS), которая используется в качестве кэша при выполнении операций ввода/вывода. Данные, поступающие в ESS от хостов, предварительно запоминаются в этом кэше.
В состав каждого процессорного комплекса входит энергонезависимая память NVS (Non-Volatile Storage), которая имеет собственную аккумуляторную батарею, способную обеспечивать электропитание NVS в течение одной недели. Емкоcть NVS в ESS составляет 384 Мбайт против 32 Мбайт в VSS. Для сравнения отметим, что емкость энергонезависимого кэша EMC Symmetrix 5930 равна 16 Гбайт. Необходимость большей емкости кэша в Symmetrix обусловлена, возможно, применением для подсоединения НЖМД более медленных внутренних шин по сравнению с SSA в ESS (см. ниже).
Кластер SMP-систем внутри ESS служит для обеспечения классических задач — повышения производительности и отказоустойчивости. При записи данных одна копия передается в один процессорный комплекс, а вторая копия — в NVS второго процессорного комплекса, так что при сбое первого кластера или его отключении для сервисного обслуживания операции ввода/вывода будут выполняться вторым процессорным комплексом.
Для внутренних операций ввода/вывода в ESS используются шины PCI, общее число которых увеличилось до шести (против четырех шин в VSS). Это дает внутреннюю пропускную способность около 800 Мбайт/с, что, по утверждению представителей IBM, выше аналогичной характеристики EMC Symmetrix.
Cобственно для подсоединения дисковых накопителей используются адаптеры устройств DA, обеспечивающие подсоединение накопителей через шину SSA. Эта последовательная шина разработки IBM имеет пропускную способность 160 Мбайт/с. Шина SSA представляет собой петлю, в которой внешние устройства соединены через две параллельно работающие пары каналов — на чтение и на запись с пропускной способностью 40 Мбайт/с на канал. Архитектура SSA воспринимает все команды SCSI. Преимуществом SSA перед SCSI является поддержка большего количества внешних устройств и большая допустимая длина кабеля. Кроме того, в SCSI в любой момент времени может быть активным только одно устройство. Каждый адаптер DA имеет интерфейсы сразу к двум шинам SSA, так что его пропускная способность равна 320 Мбайт/с.
Каждый процессорный комплекс содержит четыре адаптера DA, итого восемь DA на всю систему. Адаптеры DA в ESS устанавливаются парами, по одной на процессорный комплекс. Дисковые массивы подсоединяются сразу к паре адаптеров, поэтому пропускная способность этой части ESS составляет 4Ё320=1280 Мбайт/с. Это больше пропускной способности шин PCI, которые формально и ограничивают пропускную способность системы в целом.
В петле SSA минимальной единицей емкости являются восьмерки дисков, причем каждая восьмерка конфигурируется либо как обычный набор дисков, либо как массив RAID уровня 5 (в режимах «7 + диск четности», или «6 + диск четности + запасной диск»). Всего в петле SSA может быть до 6 восьмерок — итого до 48 дисков, из которых два диска конфигурируются как запасные, используемые при сбоях других накопителей.
В качестве накопителей в восьмерках задействуются диски емкостью 9/18/36 Гбайт на шпиндель со скоростью вращения 10000 оборотов в минуту (7200 — для дисков 36 Гбайт) против 7200 в VSS. В будущем планируется применять и новые диски емкостью 72 Гбайт. Легко посчитать количество таких физических дисков в ESS. Число шин SSA в ESS равно 8, и на каждой такой шине можно подсоединить до 48 дисков, что дает 384 жестких диска на весь ESS. Старшая модель EMC Symmetrix 5930-36 может содержать до 256 НЖМД при емкости каждого 18 или 36 Гбайт.
Общая емкость дисковой памяти в стандартных конфигурациях ESS составляет от 420 Гбайт до 11,2 Тбайт. Максимальная емкость дисковой памяти в Symmetrix 5930-36 равна 9,2 Тбайт в «режиме» SRDF (Symmetrix Remote Data Facility) или до 4,6 Тбайт — в режиме зеркалирования.
Как мы уже говорили выше, основной единицей емкости ESS является восьмерка дисков, которая форматируется как набор логических томов либо архитектуры FBA (блоки фиксированного размера, что характерно для открытых систем), либо CKD (старая добрая, кстати, очень эффективная архитектура, которая используется в IBM S/390, в России хорошо известна еще со времен ЕС ЭВМ). Число логических томов определяется емкостью физических и логических дисков. Например, для S/390 эмулируется жесткий диск 3390-3, и восьмерка 9-гигабайтных дисков даст 18 логических томов типа 3390-3 (можно получить и формат 3380). Эта же восьмерка в режиме RAID уровня 5 c одним диском четности и одним запасным диском может быть представлена в виде одного логического тома емкостью 53 Гбайт.
Посмотрим теперь на ESS с другой стороны — со стороны хостов (см. рисунок). За соединение с серверами — хостами отвечают хост-адаптеры HA. Всего имеется 16 HA, каждый из которых соединен с обоими процессорными комплексами. HA могут иметь по два интерфейса UltraSCSI, так что число интерфейсов UltraSCSI возросло в два раза по сравнению с VSS; cтолько же интерфейсов поддерживает EMC Symmetrix 5000.
При работе с S/390 хост-адаптеры представляют ESCON-каналы (общим числом до 32), каждый из которых имеет пропускную способность 16 Мбайт/с. ESS обеспечивает при этом эмуляцию до 16 устройств управления IBM 3990 по 256 дисков 3390 при каждом, итого 4096 томов. Возможна эмуляция 3390-2/3/9 c дорожками дисков формата 3390 или 3390-2/3 с дорожками дисков формата 3380. Кстати, подобная эмуляция накопителей IBM подтверждает общую тенденцию перехода к использованию открытых стандартов.
Кроме UltraSCSI, адаптеры HA могут подсоединяться к хостам по протоколу Fibre Channel и, аналогично, к FICON-каналам S/390 (в настоящее время такие поставки еще не ведутся, поддержка FC планируется в ближайшее время).
Пиковая пропускная способность 32 шин UltraSCSI (1280 Мбайт/с) также превышает пропускную способность внутренних шин PCI. Хорошо известно, что поддерживаемые пропускные способности шин ввода/вывода гораздо ниже пиковых, и для достижения действительно большой пропускной способности к каждой шине надо подсоединить много жестких дисков. ESS обеспечивает все это самостоятельно. Пропускная способность, достигаемая ESS, составляет 230 Мбайт/с при последовательном чтении с дисков и 145 Мбайт/с при последовательной записи на диски. Это примерно в два раза выше пропускной способности в VSS.
Число операций ввода/вывода в секунду при 100-процентном попадании в кэш составляет 32000 для открытых систем против 24100 в мэйнфреймах S/390. При типичных реальных нагрузках показатели уменьшаются в два-три раза.
Функции
Хост воспринимает подсоединенный к нему ESS просто как набор жестких дисков, подключенных по соответствующему интерфейсу (SCSI или Fibre Channel). Если хостом является S/390, для него ESS выглядит как набор устройств управления IBM 3990 с подключенными к ним жесткими дисками (cкажем, IBM 3390).
Однако кроме функций эмуляции высокоскоростных дисковых устройств, ESS обеспечивает еще ряд возможностей, делающих ESS гораздо более интеллектуальным оборудованием. Эти функции отличаются в зависимости от того, подсоединен ли ESS к S/390 или к открытым системам. В качестве последних могут выступать системы AS/400 (OS/400), ПК-серверы (Windows NT/4.0, Novell NetWare) и Unix-серверы: RS/6000 (AIX), HP 9000 (HP-UX), Sun (Solaris), Data General (DG-UX), Sequent (Dynix).
Функция FlashCopy — быстрое асинхронное копирование данных — доступна как для соединения SCSI, так и для S/390. Она обеспечивает копирование логических томов или обратное восстановление без приостановки работы приложений. Благодаря асинхронному выполнению операция FlashCopy выглядит для пользователя как завершающаяся практически мгновенно (скопировать 9 Гбайт «стоит» несколько секунд). Копия становится доступной сразу, и можно читать и писать в исходный том или копию. Физическое же размещение на дисках ESS происходит при этом позднее, асинхронно от работы хоста. Отношение «источник — копия» перестает иметь место сразу по завершении копирования.
Функция Peer-to-Peer Remote Copy (PPRC) также доступна и для SCSI, и для S/390. Она, напротив, является синхронной, и операция считается завершенной только после того, как удаленный ESS, куда происходит копирование, подтвердит завершение ввода/вывода. PPRC позволяет обеспечивать синхронное зеркалирование (RAID уровня 1) на уровне томов. Локальный и удаленный (до 103 км) ESS соединяются каналами ESCON.
Для управления самим ESS имеются развитые программные средства с графическим Web-интерфейсом.
Мы не обсудили еще целый ряд особенностей, определяющих отказоустойчивость ESS. Cреди них, — избыточные источники питания, вентиляторы и др. ESS предназначен для эксплуатации в режиме «24 часа в сутки — 7 дней в неделю — 365 дней в году». Имеется однофазная модель E10 (мощность 6 кВА) и трехфазная модель E20 (на 10 кВА). Цена ESS, конечно велика; cтоимость 1 Мбайт дискового пространства в нем составляет от 0,3 до 0,5 долл. Однако ESS и стоит таких денег.
Михаил Кузьминский — старший научный сотрудник Центра компьютерного обеспечения химических исследований РАН. С ним можно связаться по телефону (095) 135-6388