Несмотря на растущий интерес к решениям в области систем хранения данных, отечественный рынок только начинает подходить к тому уровню накопленных данных, с которым на Западе пришлось столкнуться уже несколько лет назад.
Статистика продаж решений для хранения данных свидетельствует о том, что сегодня все чаще становятся востребованы системы хранения с максимальным уровнем в десятки и даже сотни терабайт. Любопытно, что интерес к ним проявляется и со стороны предприятий среднего и даже малого бизнеса.
«Очевидно, что постоянный рост хранимых данных требует тщательной проработки решений для их резервного
копирования, и что немаловажно, способов быстрого восстановления. Но я не совсем согласен с тем, что сегодняшние решения необходимо в корне менять. Просто их надо использовать умело, применительно к конкретной ситуации», — считает Вячеслав Ковалев, начальник отдела ЦОД компании «Открытые Технологии».
Тем не менее изменение структуры данных и их количественный рост побуждают к качественным изменениям в инфраструктуре хранения. «На первом этапе ключевой задачей становится консолидация; далее возникают задачи по защите данных, технологиям непрерывного доступа, оптимизации ресурсов и алгоритмов хранения, централизации и автоматизации управления, — делится своими наблюдениями Валерий Тимошин, менеджер по маркетингу решений компании “Энижн Груп”. — Возрос спрос на дорогостоящие системы хранения масштаба предприятия и решения с расширенным функционалом, где экономическая эффективность наиболее высока в пересчете на единицу хранимых данных. Подобные системы, помимо высокой производительности, имеют большой набор расширенных функций (создание моментальных снимков данных внутри массива, удаленные репликации, виртуализация, развитые возможности управления и др.). Для специальных задач, например долговременное хранение архивов с неизменяемым контентом, все чаще используются и соответствующие специализированные решения. Однозначная тенденция развития состоит в том, что компании готовы защищать данные и бизнес с использованием современных и эффективных решений. Для ряда организаций такими решениями будут построение резервного ЦОД c синхронной репликацией и распределенными кластерами; для других больше подойдет многоуровневая система хранения с удаленным резервным копированием».
Игорь Вихренко, технический директор компании «Тринити Солюшнс», отмечает, что в большинстве случаев речь идет о переходе с дисковых систем, смонтированных внутри серверов, на внешние системы хранения: «Как правило, такое решение принимается клиентами достаточно сложно, но зато после этого возможности резко увеличиваются, и несколько последующих лет речь идет только о незначительной модернизации (установке дополнительных ящиков дисков и пр.)».
Типовые задачи, которые при этом решаются, — увеличение производительности СУБД, объемов хранимых данных и повышение надежности. «Все это решается автоматически относительно небольшими средствами (примерно 15—20 тыс. долл.), — уверен Вихренко. — Несколько реже возникают задачи минимизации времени простоя при катастрофических сбоях. Для этого используются схемы с полностью дублированными системами хранения данных, иногда с территориально разнесенными. Это не вызывает технических проблем, хотя стоит довольно дорого. Также постепенно становятся востребованными технологии «мгновенных снимков» данных — это расширяет возможности по резервному копированию больших объемов под нагрузкой, что крайне важно в случае систем, работающих в режиме 24х7».
Рост продуктивной и резервных копий
Данные, накапливаемые компаниями, могут и должны становиться источником информации для принятия тех или иных бизнес-решений. Анализируя показатели за значительные промежутки времени, можно выявлять скрытые тенденции и на их основе делать долгосрочные прогнозы.
Мировая практика показывает, что компании хотят использовать для анализа всю доступную им историческую информацию. Во многом именно это обусловливает на Западе большое количество проектов по системам хранения, в которых хранятся данные из унаследованных систем, десятилетиями накапливавших информацию. Однако все не так просто.
В результате исследования, проведенного агентством IDC по заказу EMC, удалось дать примерную оценку объемам и видам информации, использующейся компаниями и частными лицами. Несмотря на то что к 2010 году почти 70% цифровой информации будет создаваться отдельными пользователями, компании будут решать вопросы безопасности, конфиденциальности, надежности и соответствия стандартам в отношении 85% информации. Неструктурированные данные в компаниях составляют свыше 80% всей информации, их основу составляют графические изображения.
Высокие темпы роста объемов информации различных типов говорят не только о всемирном информационном взрыве, но и о переходе информации из аналоговой формы в цифровую. С технической точки зрения организациям придется использовать все более сложные технологии для передачи, хранения, обеспечения безопасности и копирования информации. По оценкам IDC, в настоящий момент менее 10% корпоративной информации оценивается как конфиденциальная или классифицируется в зависимости от ее ценности. Но прогнозируемый рост объема конфиденциальной информации составит более 50% ежегодно.
Кроме того, по подсчетам аналитиков IDC, в ближайшее время существует риск дефицита на пространства для хранения информации в цифровом виде, если объем ежегодно генерируемых данных, в 2003 году составивший 5 экзабайт (5 млрд. Гбайт), к 2010 году превысит 988 экзабайт. При этом совокупная емкость всех систем хранения в мире в 2009 году составит только 600 экзабайт. В IDC предсказывают, что объем генерируемой информации превысит вместимость доступного пространства хранения уже в нынешнем году. По сведениям аналитиков, в прошлом году во всем мире был создан 161 экзабайт данных, причем только на долю трафика электронной почты (без учета спама) пришлось 6 экзабайт.
«Все эти оценки в полной мере справедливы и в отношении нашего рынка, где процесс консолидации ИТ-ресурсов набирает все большие обороты», — считает Тимошин. Существуют стандартные методы повышения эффективности резервного копирования. Среди них — увеличение производительности, оптимизация структуры, улучшение управляемости, автоматизация управления. Растет необходимость использования технологии передачи трафика по выделенным сетям SAN или LAN, применения промежуточных дисковых массивов, использования расширенных функций дисковых массивов, таких как «моментальные снимки» данных для дальнейшей работы непосредственно с их клонами. Важную роль также играет построение иерархической схемы хранения с размещением менее востребованной информации на менее производительных носителях. Возможно применение виртуальных ленточных библиотек, способных быстро поднять производительность, без внесения каких-либо изменений в существующую инфраструктуру.
Под влиянием этих тенденций уже сейчас размер архивной базы в 7—10 раз превышает размеры продуктивной. Кто-то считает эту ситуацию нормальной, полагая, что на рост архивных копий влияет ряд законов, в частности Сарбейнса—Оксли, предписывающих публичным компаниям хранить в архивах всю корпоративную информацию. Однако, по мнению Дмитрия Зыкина, менеджера по продуктам компании «Инфосистемы Джет», поскольку рост данный не имеет гражданства, то с подобной проблемой может столкнуться любая компания независимо от страны и отрасли. Наращиванием емкостей для хранения данных эту проблему уже не решить.
Кроме того, в том исходном, «сыром» виде, в котором данные хранятся, они практически непригодны для бизнес-анализа. «Требуется структурирование и очистка данных, собранных из систем-источников, что может быть реализовано путем внедрения корпоративного хранилища данных. Для этого используются специализированные системы интеграции данных, разрабатываются процедуры и регламенты извлечения данных из исходных систем, алгоритмы трансформации и загрузки в систему-приемник. Такие процедуры должны обеспечивать возможность инкрементального обновления хранилища данных», — считает Николай Дорогов, руководитель группы по хранилищам данных компании Columbus IT Russia.
С другой стороны, по мнению Ковалева, резервировать абсолютно все подряд неэффективно и дорого: «Необходимо понять, что в данном случае критически важно для бизнеса компании с точки зрения остановки конкретного приложения. От каких сбоев, аппаратных или программных, необходима защита? Иными словами, цель должна оправдать вложенные в нее средства. Есть данные СУБД, есть информация для работы почтовых сервисов, файлового обмена и т.д. Необходимо четко представлять, в какой системе что хранится. Как только анализ будет сделан, станет ясно, какие средства можно использовать. Для важных приложений применяются более совершенные способы резервирования, начиная от горячего резервирования и заканчивая системами с синхронной репликацией данных. Немаловажно уметь прогнозировать также и то, сколько времени будет затрачено на восстановление при развитии худшего из возможных сценариев».
Проблемы резервного копирования
Вследствие стремительного роста архивных копий, по оценкам западных экспертов, 25% случаев резервного копирования признаны неудачными. По оценкам московского офиса компании EMC, эта цифра существенно завышена. Но даже если более оптимистичную статистику перевести в финансовые потери, которые терпит компания при подобных обстоятельствах, то суммы окажутся весьма существенными.
«Если такая проблема и существует, то в очень узком кругу компаний. Системы резервного копирования придуманы отнюдь не вчера и выбор решений огромен, — отмечает Вихренко. — При планировании системы определяется «окно» для осуществления резервного копирования, объемы резервных копий новых или измененных данных и полных резервных копий, а также стратегия. Если эти вещи изначально определены грамотно, то и проблем не будет. Естественно, не надо забывать периодически делать ревизию политики и техники резервного копирования, чтобы вовремя увидеть предел возможностей и модернизировать системы, осуществляющие копирование. Проверка резервного копирования путем восстановления данных тоже должна быть штатной процедурой. Ну и, конечно, персонал должен быть тренирован и иметь планы работы в аварийных ситуациях. Иначе в напряженной обстановке и цейтноте резко возрастает риск человеческой ошибки».
Тимошин убежден, что нарастить дисковую емкость проще, нежели перестраивать процедуры резервного копирования. Он уверен, что решение этой проблемы связано с глубокой интеграцией резервного копирования в инфраструктуру хранения и приложения: «ИТ-менеджерам нужно быть готовыми к работе с множеством платформ и типов данных, а также с различными требованиями к времени восстановления. Безусловно, вчерашние методы и процедуры резервного копирования не могут удовлетворять современным потребностям бизнеса. Решение резервного копирования и восстановление данных тесно интегрированы во всю инфраструктуру обработки и хранения данных, и дальнейшие развитие ЦОД не будет происходить без оглядки на технологии резервного копирования».
Причинами слишком долгого резервного копирования данных могут стать различные факторы, считает Зыкин. Наиболее распространенными являются следующие.
-
«Узкие» каналы передачи данных на устройство резервирования. С ростом объемов информации каналы могут стать узким местом, «бутылочным горлышком», увеличивая время проведения процедуры резервирования данных.
-
Неоптимизированная архитектура системы резервного копирования. Современные принципы резервирования данных развиваются семимильными шагами. Если раньше было достаточно подключить к серверу резервного копирования ленточную библиотеку по SCSI-каналу, то с развитием технологий и взрывным ростом объемов данных такое решение может оказаться недостаточным.
-
Использование устаревших форматов устройств ленточных библиотек и программного обеспечения для резервного копирования.
-
Неоптимизированные политики резервного копирования, которые в некоторых случаях могут серьезно тормозить создание резервных копий и восстановление данных приложений и информационных систем.
Среди технологий, отмечает Зыкин, превалируют многоэтапное резервное копирование, симбиоз функциональных возможностей современных систем хранения данных и ПО системы резервного копирования, а также современная технология дедупликации данных.
Поскольку объем данных постоянно растет, то увеличивается и усложняется ИТ-инфрастуктура любого современного предприятия. Зачастую совместно используется оборудование и программное обеспечение нескольких производителей. Все это ведет к тому, что бывает очень трудно разобраться не только с возникшей проблемой, но и вообще получить целостную картину всего парка эксплуатируемой техники и программного обеспечения. Помочь решить данную проблему может конвергенция технологий резервного копирования, хранения неструктурированных данных, их репликации, а также непрерывной защиты данных.
«По своему опыту могу сказать, что, если предприятие обратилось с запросом на ленточную библиотеку, то с вероятностью более 50% его очень сильно «тряхнуло» в недавнем прошлом. Большинство подобных проблем связаны с банальной жадностью, недальновидностью и безалаберностью. Очень часто системы резервного хранения выбираются по остаточному принципу. В общем, очень многое решает не столько техника (которая существует практически на все случаи жизни), сколько личность ИТ-директора», — подытожил разговор Вихренко.
* * *
Итак, решение проблемы хранения данных в условиях растущей инфраструктуры предприятия лежит в первую очередь в комплексном подходе. Недостаточно только заменить сервер или ленточную библиотеку, необходимо найти причины, приведшие к возникновению проблемы, проанализировать и понять их. На основании этих знаний и имея грамотный проект, уже можно строить решение, основанное на тех или иных технологиях и принципах построения современной системы резервного копирования.