Новые тенденции в области хранения меняют принципы управления данными
Джон Паркинсон: «В идеальном мире все должно быть подключено к сети» |
Джон Паркинсон, вице-президент и директор по технологиям компании Cap Gemini Ernst & Young, поделился с корреспондентом журнала Darwin своими мыслями о том, как новые тенденции в области хранения меняют принципы, которыми руководствуются предприятия, управляя данными.
Какие факторы определяют развитие современного рынка систем хранения?
Я бы выделил два таких фактора. Первый из них касается предложения. Технология становится все лучше, и стоимость хранения в расчете на бит стремительно снижается. Емкость же систем хранения становится значительно больше. Пять-шесть лет назад вся западная экономика в целом имела данные объемом 1 Пбайт (1 Пбайт — это 1024 Тбайт; 1 Тбайт в свою очередь равен 1 трлн. байт). Сегодня половина такого объема необходима для информационного обеспечения разработки только одного нефтяного месторождения.
Огромные результаты были достигнуты в том, что касается технологии хранения. Количество выпускаемых систем хранения растет ежеквартально, при том что себестоимость единицы хранения снизилась кардинально.
Второй фактор — спрос. После распространения Internet, World Wide Web и электронного бизнеса объем данных, которые необходимо хранить, растет геометрически. И не только в ключевых отраслях, например в энергетической, где используются наиболее совершенные технологии, инструментальные средства и математический аппарат, что увеличивает спрос на данные, которые необходимо хранить и анализировать. Ведь около 100 млн. человек обращаются в Web; каждой компании нужно отслеживать информацию о тех людях, которые приобретают товары на ее сайте. Регистрационные журналы растут. Таким образом мы получаем два фактора — много дешевых устройств хранения, выпускаемых производителями, и много данных, которые необходимо хранить для работы в Internet. Вот почему вопрос о хранении столь важен.
Что же происходит, когда эти два фактора объединяются?
Стало достаточно очевидно, что традиционные архитектуры систем хранения, идея которых, по существу, заключается в «навешивании» дисков на серверы, — это слишком дорогое решение. Все эти архитектуры, а в их основе — непосредственное подключение к серверам (Direct-Attached Storage, DAS) ограничивают число дисков, которые можно установить на каждый из серверов, поэтому количество серверов стало быстро расти. В середине 90-х стали развиваться новые технологии для управления большими объемами хранения. Это подключаемые к сети устройства хранения (Network-Attached Storage, NAS), которые в основе своей являются дисками, связанными с сетью посредством Ethernet, и сети хранения (Storage Area Networks, SAN), которые в настоящее время, как правило, основываются на оптоволоконных соединениях. Оба подхода имеют своих сторонников. Оба занимают определенную нишу и становятся доминирующими при организации систем хранения.
С другой стороны, стоит только отказаться от подключаемых к серверу систем хранения, и вы тотчас же отказываетесь от удобных решений таких задач администрирования данных, как резервное копирование и восстановление. Учитывая быстрый рост емкости развертываемых систем хранения, можно также считать, что стратегии восстановления и резервного копирования, в основном сформулированные в те дни, когда память была дорогой и выпускалась в малом количестве, уже не в состоянии удовлетворить требования, предъявляемые современными архитектурами хранения.
Каковы же перспективы резервного копирования?
Само по себе резервное копирование — не такая уж сложная задача. Проблемы возникают, если вы хотите обеспечить непрерывный доступ к данным, поскольку невозможно прервать работу, сделать копию и снова запустить систему, как это практиковалось в дни использования пакетного режима обработки. Так что приходится разрабатывать технологию, которая позволяет сделать «мгновенные снимки» крупных наборов данных или вкладывать средства в создание «зеркал», чтобы в каждый момент времени существовало две точные копии имеющихся данных.
Задача восстановления сложнее, поскольку, чем ближе мы храним данные, чтобы поддержать работу в оперативном режиме, тем сложнее выбрать время, чтобы обновить набор данных, если приходится это делать.
Насколько уже распространены системы хранения новых типов?
Нам известно, что объем систем хранения, выпущенных в 2001 году, в большинстве своем (около 60%) пришелся на решения, не предполагающие прямого подключения к серверам.
Компании в первую очередь тратят деньги на системы, подключаемые к сети. Однако к этому моменту было развернуто множество устройств хранения, подключаемых к серверу, так что сейчас трудно сказать, каково истинное соотношение. Я предполагаю, что емкость установленных систем, в частности сетей хранения, поистине огромна, сотни терабайт. Всего, если говорить о системах хранения уровня предприятия, соотношение 50:50 или несколько больше в пользу подключаемых к сети систем хранения и сетей хранения. Интересно отметить тот факт, что большинство данных на многих предприятиях по-прежнему размещены на жестких дисках ПК, поскольку их очень много. Управление в этом случае оставляет желать лучшего, впрочем, как и координация и резервное копирование данных. Если говорить о корпоративных стратегиях, то здесь используются три подхода: консолидированное хранение на жестких дисках ПК, подключенная к серверу система хранения и сетевые системы хранения обоих типов.
Существует ли оптимальное соотношение методов хранения, к которому должно стремиться предприятие?
В идеальном мире все должно быть подключено к сети. Информация, размещенная на ПК, будет лишь мимолетным отражением корпоративных данных, а серверы будут выступать исключительно в роли вычислительных механизмов. Они должны будут иметь локальную память такой емкости, которая необходима для выполнения их вычислительных задач, но все в конечном итоге будет храниться в сети. Если, анализируя современные технологии, заняться простыми расчетами, то окажется, что циклы процессора становятся дороже, чем полоса пропускания и биты хранения. Так, скорее всего, будет не всегда, но сейчас расчеты показывают, что это соотношение именно таково. Вряд ли вы захотите, чтобы сервер выполнял задачи управления данными. Вы предпочтете, чтобы это делала сеть хранения. И у вас есть достаточно много дешевой полосы пропускания, чтобы, связав все воедино, передавать биты более эффективно. По-видимому, связывание устройств хранения — оптимальная архитектура.