Системы хранения данных на флеш-памяти, или твердотельные накопители (Solid-State Drive, SSD), — это перспективная технология, и она в ближайшее десятилетие, скорее всего, появится практически в каждом центре обработки данных. Главный ее недостаток на сегодня — высокая цена, остающаяся, вопреки обещаниям производителей, в три — десять раз выше, чем у накопителей на жестких дисках. Чтобы разобраться, для каких рабочих задач флеш-хранение будет наиболее полезным, рассмотрим способы, с помощью которых архитекторы корпоративных сред хранения смогут проанализировать нынешние и будущие потребности.
Один из лучших способов оценить потребности — составить точную модель профиля операций ввода-вывода, совершаемых в вашей нынешней среде хранения. С помощью такой модели можно будет тестировать новые архитектуры, продукты и подходы. Модель должна достаточно близко соответствовать реальности, чтобы можно было сопоставлять различные технологии, устройства, конфигурации, программное обеспечение и прошивки, которые предполагается применять в вашей инфраструктуре.
Первый шаг к эффективному моделированию рабочих задач состоит в том, чтобы выяснить ключевые характеристики трафика хранения — те, которые сильнее всего влияют на быстродействие. Прежде всего важно знать, каковы пиковые нагрузки закономерности трафика в конце месяца или года, специфические рабочие задачи (наподобие резервного копирования), а также трафикоемкие события типа «штормов» входа в сеть и выхода из нее в начале и конце рабочего дня.
При оценке той или иной нагрузки нужно обратить внимание на следующие три набора характеристик. Первый — это емкость, масштаб и конфигурация самой среды. Второй — закономерности частоты обращений к данным и способов доступа. Третий — характер распределения нагрузки по времени.
У сред хранения, работающих на файловом уровне — NAS и на блочном — SAN, есть свои уникальные характеристики, и их нужно учесть, чтобы построить точную модель рабочих нагрузок. В частности, для сред NAS нужно знать количество клиентов и серверов, число клиентов в расчете на сервер, распределение размеров файлов, распределение подкаталогов, глубину деревьев и т. д.
В средах SAN предстоит выяснить количество физических инициаторов (адаптеров шины или сетевых интерфейсов), среднее число виртуальных инициаторов в расчете на физический, среднее количество активных виртуальных инициаторов в расчете на физический порт, количество логических устройств в расчете на адаптер шины и настройки длины очереди для серверных адаптеров шины или адресов дисковых устройств iSCSI.
Важно также знать, с какой частотой и какими способами происходит доступ к системам хранения. Нужно учесть несколько режимов использования, в том числе среднестатистический, пиковый и особые события. Процессы оценки закономерностей доступа для сред файлового и блочного хранения будут различаться.
Среды NAS
В средах NAS с каждым файлом ассоциирована информация о нем самом, о каталоге и о компьютере: имя файла, его местонахождение, дата создания, дата последней записи, права доступа и состояние резервного копирования. На работу с этими сведениями — метаданными — нередко приходится основная масса всего трафика команд доступа и сохранения.
Трафик некоторых приложений больше чем на 90% состоит из операций с метаданными, а остальное — это операции считывания и записи. В средах файлового доступа важно знать долю трафика для каждой команды. Бесплатные инструментальные средства наподобие Iometer (показания которого многие производители флеш-систем приводят для обозначения скорости ввода-вывода, присущей их продуктам) в файловых средах хранения бесполезны, поскольку Iometer не поддерживает моделирование команд изменения метаданных. Учет трафика таких команд позволяет понять, как именно приложение нагружает инфраструктуру хранения, а также характер обработки, выполняемой на каждом компьютере, а не только в файловой системе.
При тестировании также нужно воспроизвести компрессируемость и дедуплицируемость ваших данных. Чтобы понять, насколько эффективно происходит распознавание закономерностей в вашей среде, в тестирование нужно включить типы данных, характерные для приложений, которые средой пользуются.
Среды SAN
В средах SAN каждое приложение самостоятельно обрабатывает свои метаданные. С точки зрения трафика хранения доступ к метаданным выглядит так же, как и доступ к основным данным, только область хранения метаданных обычно является «горячей зоной» — обращения к ней более частые, чем к областям хранения данных приложений.
Чтобы точно охарактеризовать доступ к блочным данным, нужно знать среднестатистический состав команд, выяснить, последовательно или случайно происходит доступ к данным, установить объемы ввода-вывода, идентифицировать горячие зоны, оценить сжимаемость и дедуплицируемость хранимых данных. Для сред хранения на флеш-накопителях это особенно важно, так как средства дедупликации канального уровня позволяют уменьшить затраты на емкости. Модель рабочих нагрузок должна учитывать типы данных, поскольку технологии дедупликации могут сильно влиять на общее быстродействие, особенно если принять во внимание, что разные производители реализуют эти технологии по-разному.
Кроме того, знание закономерностей распределения нагрузки помогает оценить ее колебания в зависимости от времени. Чтобы построить реалистичную модель рабочих нагрузок, нужно знать, как варьируются со временем следующие характеристики: количество операций ввода-вывода в секунду на каждом сетевом адаптере / адаптере шины; число операций ввода-вывода в секунду для каждого приложения; отдельно число операций считывания и записи в секунду; количество операций ввода-вывода в секунду для метаданных; расход пропускной способности на считывание, запись и общий; сжимаемость данных и количество открытых файлов.
Существует ряд инструментов, в том числе предоставляемых самими производителями систем хранения, позволяющих получить всю необходимую информацию либо от накопителей, либо путем анализа сетевого трафика. Эти данные необходимы, чтобы с помощью вашей модели можно было точнее характеризовать рабочие нагрузки.
Выполнение и анализ моделей рабочих нагрузок
Следующий этап после подготовки модели рабочих нагрузок — задать различные сценарии, которые предстоит охарактеризовать. Начать можно с непосредственного сравнения выполнения идентичных рабочих задач оборудованием разных производителей или при различных конфигурациях. Например, большинство гибридных систем хранения позволяют варьировать соотношение емкости флеш-памяти и жестких дисков. При выполнении тестов с помощью инструмента генерации нагрузки обычно можно получить значимые результаты, если сравнить задержку и пропускную способность при соотношениях флеш — жесткий диск: 5% — 95% и 20% — 80%.
Когда вы определились, какие продукты и конфигурации предстоит оценить, можно начать варьировать характер доступа, распределение нагрузки и характеристики среды. Можно проверить, к примеру, как меняется производительность во время «штормов» входа в системы, в периоды окончания рабочего дня или месяца, при изменении распределения размеров файлов, при изменении размера блока с 4 на 8 Кбайт, при увеличении количества операций с метаданными в общем объеме команд. Кроме того, можно оценить влияние кэш-промахов и другие характеристики.
Все эти факторы можно в автоматическом режиме смоделировать, а затем сравнивать скорость ввода-вывода, пропускную способность и задержку для каждой рабочей нагрузки. Располагая этой информацией, вы будете знать «предел прочности» среды для каждой ситуации.
Короче говоря, перед внедрением системы флеш-хранения нужно выяснить, при каких условиях будут достигаться потолки производительности, и разобраться в принципах оценки вариантов конфигураций для приложений с различными потребностями. Полагаться на результаты тестирования, приведенные производителем, обычно не имеет смысла, поскольку по этим показаниям нельзя определить, какие преимущества флеш-хранение даст именно вашим приложениям. Моделирование рабочей нагрузки в сочетании с использованием инструментов генерации нагрузки — самый экономически эффективный путь принятия разумных решений о покупке флеш-хранения в зависимости от конкретных потребностей в быстродействии.
• Лен Розенталь работает в индустрии систем хранения данных 28 лет.