Для хранения данных предприятиям требуются хорошо масштабируемые модернизируемые решения, но вовсе не обязательно приобретать дорогостоящие системы SAN. В качестве экономически выгодного хранилища неструктурированных или полуструктурированных данных подходят и программно определяемые решения, которые к тому же обладают преимуществами в плане обеспечения линейной масштабируемости емкости и производительности.

 

Стремительный рост объемов данных является серьезной проблемой для многих предприятий. Подтверждением этому может служить развитие среднестатистического ЦОД на протяжении последних шести лет. Если предположить, что в 2007 году объем хранящихся в нем данных был равен 100 Тбайт, а средний ежегодный прирост составлял 50% (вполне обычный показатель), то к 2013 году они должны были превратиться в массив объемом более 1 Пбайт.

Однако подобный стремительный рост наблюдается не для всех видов данных. Согласно опыту средних и крупных предприятий, за последние пять-шесть лет заметно изменилась пропорция между структурированными и неструктурированными данными. На протяжении долгого времени оба сегмента были примерно равны, а сегодня около 90% общего объема сохраненной информации приходится на долю полуструктурированных и неструктурированных данных. И именно в этой области, как правило, наблюдается экспоненциальный рост.

Чтобы справиться с наплывом неструктурированных и полуструктурированных данных, предприятиям требуется масштабируемая жизнеспособная программно определяемая инфраструктура хранения данных, способная обеспечить высокую доступность, экономическую эффективность и простоту управления. Основой такого решения служит хорошо масштабируемая распределенная файловая система, которая при необходимости позволяет осуществить линейное расширение емкости ресурсов хранения.

ЛИНЕЙНАЯ МАСШТАБИРУЕМОСТЬ

Когда в контексте систем хранения данных речь заходит о возможности их расширения, как правило, имеется в виду так называемая линейная масштабируемость — термин, который часто трактуется неправильно. В теории подразумевается, что двукратное увеличение емкости хранения обеспечивает удвоение производительности: при сохранении времени отклика (при прочих неизменных условиях), пропускная способность (измеряемая в гигабайтах в секунду) должна увеличиться тоже в два раза. Однако на практике традиционные системы хранения не способны выполнить это требование.

Причина такого расхождения кроется в том, что масштабируемость систем хранения зависит от множества факторов, и емкость хранилищ — это лишь один из них. Аппаратное обеспечение системы хранения, отвечающей за управление отдельными жесткими дисками, также должно масштабироваться соответствующим образом. Для оптимального использования всех шпинделей жестких дисков при пиковых нагрузках нужен центральный процессор с достаточной производительностью. Помимо этого, поддержка удвоенной емкости хранения возможна только в том случае, когда файловая система и функция метаданных масштабируются линейно — тогда система сможет установить местонахождение данных на новых добавленных дисках. Другими словами, для обеспечения линейной масштабируемости систем хранения данных необходимо, чтобы производительность всех компонентов увеличивалась пропорционально.

Для традиционных распределенных систем хранения данных это означает, что каждому узлу хранения приходится нести дополнительные системные затраты на коммуникацию с другими узлами при выполнении каких-либо операций с файлами. Поскольку емкости увеличиваются быстрее, чем производительность, линейного роста мощности системы достичь не удается.

В случае полностью программно определяемых масштабируемых решений хранения данных эти ограничения не возникают — объемы хранилищ растут синхронно с производительностью (см. Рисунок 1). В результате создается эффективная инфраструктура хранения для размещения полуструктурированных и неструктурированных данных на стандартных серверах x86. Благодаря совместному использованию процессоров и ресурсов ввода-вывода недорогих стандартных серверов формируется большой высокопроизводительный пул (кластер) хранения данных. Теперь, если предприятию требуется увеличить емкость хранения, ИТ-специалисты могут просто добавить дополнительные жесткие диски, а для повышения производительности — увеличить число серверов. Дополнительных накладных расходов при этом не возникает.

Перспективные технологии хранения
Рисунок 1. Программно определяемое решение для хранения данных (к примеру, Red Hat Storage) предлагает хорошо масштабируемые ресурсы хранения в качестве платформы для корпоративных и облачных сред.

 

ПРОГРАММНО ОПРЕДЕЛЯЕМАЯ ИНФРАСТРУКТУРА

Для линейного увеличения производительности и емкости таких решений должны соблюдаться три условия:

  • отсутствие сервера метаданных;
  • эффективное распределение сохраняемых данных для обеспечения высокой степени масштабируемости и надежности;
  • параллельный доступ к данным для достижения максимальной производительности в полностью распределенной архитектуре.

В программно определяемых масштабируемых решениях логическая и физическая локализация данных является сложной задачей для разработчиков. В большинстве распределенных систем эта проблема решается с помощью отдельного индекса, где содержатся имена файлов и метаданные для их локализации. Но в результате возникает критическая точка отказа (Single Point of Failure) и создается узкое место для производительности: при росте количества серверов, жестких дисков и данных сервер метаданных начинает тормозить работу всего решения. Ситуация еще больше обостряется в случае множества малых по размеру файлов, так как объем их метаданных растет опережающими темпами. В системе компании Red Hat, к примеру, эта задача решается с помощью алгоритма хэширования: для каждого имени файла рассчитывается его хэш-сумма. Это позволяет устранить основной источник снижения производительности операций ввода-вывода или даже потенциальную причину возникновения сбоев.

Одновременная поддержка хранения файлов и объектов (File/Object Storage) в одном пуле хранения также оказывается очень полезной. Сочетание обоих видов хранения значительно упрощает процесс управления различными данными и обеспечивает предприятиям большую гибкость при хранении корпоративной информации, чем специфические решения SAN от различных производителей. Это достаточно выгодный способ противодействия стремительному росту объемов полуструктурированных и неструктурированных данных.

Таким образом, программно определяемые решения хорошо подходят для сохранения различных структурированных данных, управления сложным мультимедийным содержимым и архивирования в непосредственной близости от рабочего места. К примеру, Posix-совместимое решение от Red Hat поддерживает такие стандарты NAS, как NFS и SMB, для обеспечения доступа к файлам и OpenStack Swift для доступа к объектам, а кроме того, оно оснащено клиентом Glusterfs для параллельного доступа (см. Рисунок 2).

Перспективные технологии хранения
Рисунок 2.  Posix-совместимое решение для хранения данных компании Red Hat поддерживает такие стандарты NAS, как NFS и SMB, для обеспечения доступа к файлам и OpenStack Swift для доступа к объектам, а кроме того, оно оснащено клиентом Glusterfs для параллельного доступа.

 

ОТСУТСТВИЕ ЗАВИСИМОСТИ ОТ МАССИВОВ ХРАНЕНИЯ ДАННЫХ

Если на передний план выходят полуструктурированные и неструктурированные данные, предприятия, использующие полностью программно определяемое решение, перестают зависеть от дорогостоящих и плохо поддающихся масштабированию монолитных массивов хранения данных. Такое решение позволяет в кратчайшие сроки вводить в строй дополнительные недорогие серверы x86 и добавлять в инфраструктуру хранения данных — будь то собственный ЦОД предприятия или гибридное облако — хорошо масштабируемую и высокопроизводительную емкость. Синхронная репликация данных поддерживает их локальное зеркалирование и способствует обеспечению непрерывности бизнес-процессов. Асинхронная репликация данных, в свою очередь, позволяет производить дистанционное копирование данных для создания резервных копий на случай аварийного восстановления.

Если предприятиям приходится бороться с лавинообразным ростом объемов полуструктурированных и неструктурированных данных, то программно определяемое решение позволит получить дополнительную емкость из облака. Так, инструмент управления Red Hat Storage предоставляет администраторам централизованный обзор всего пула хранения данных. Он базируется на проекте Ovirt — открытой платформе для управления инфраструктурой и виртуализацией. Благодаря этому администрирование возрастающих объемов информации упрощается без необходимости инвестирования средств в новое аппаратное обеспечение, что позволяет справиться со взрывным увеличением количества данных в диапазоне от нескольких тера- до многих петабайтов.

Геральд Штернагль — руководитель отдела систем хранения компании Red Hat в регионе ЕМЕА.