Бороздя просторы Всемирной паутины, я натолкнулся на новый отчет IDC 2010 Digital Universe Study («Исследование состояния цифровой вселенной в 2010 году»). В отчете повторялось все то, что мы говорили своим клиентам на протяжении прошлого года: при планировании увеличения объемов накопленных данных компании явно недооценивают реальные темпы их роста.
Приведу некоторые выдержки из данного отчета.
В 2010 году размеры цифровой вселенной (под этим термином понимаются все данные, созданные в мире организациями и частными лицами, включая видео, аудио, документы и т. д.) увеличатся на 1,2 зеттабайт, или 1,2 млн петабайт. К 2020 году цифровая вселенная вырастет по сравнению с 2009 годом в 44 раза. При этом, как ни странно, число объектов (то есть файлов, содержащих цифровые данные) увеличивается быстрее, чем общий объем данных. Несмотря на появление громадного числа больших аудио- и видеофайлов, средний размер одного файла уменьшается. Дело в том, что огромное количество небольших порций данных генерируются сегодня различными устройствами, датчиками и прочим подключенным к сети оборудованием.
В отчете поднимаются важнейшие вопросы, которые ставит перед нами стремительно растущий поток данных.
Поиск. Как отыскать цифровую иголку в гигантском информационном стогу? В перспективе большая часть данных будет представлена в неструктурированном виде, создавая потребность в поисковых механизмах нового типа.
Уровни данных. Вопросам управления иерархическими системами хранения и раньше уделялось серьезное внимание, но подумайте, какое значение они приобретут, когда объемы данных начнут измеряться в зеттабайтах. Возникает необходимость в разработке стратегии многоуровневого подхода к хранению, базирующейся на историческом характере использования информации, степени срочности удовлетворения потребностей пользователей и стоимости хранения.
Конфиденциальность и соблюдение нормативных требований. Каким образом удовлетворить растущие требования к конфиденциальности и обеспечить соблюдение ужесточающихся нормативных актов при таких больших объемах данных?
Диспропорции в ИТ-численности персонала. Несмотря на то что объемы данных вырастут в 44 раза, а количество файлов — в 67 раз, численность персонала увеличится лишь в 1,4 раза.
Вычисления в облаке: экономические нестыковки
В отчете утверждается, что к 2020 году большая часть данных будет размещаться в облачных средах или располагаться «на границе облака» (это означает, что их предполагается пересылать через облачный сервис или временно хранить в облачном приложении). По оценкам авторов отчета, около 15% данных будет интегрировано непосредственно в облако, а еще треть планируется пропускать через облако или временно размещать в нем. Думается, истинные объемы данных в облаке здесь явно недооцениваются.
Понятно, что темпы увеличения объемов данных растут, причем большая их часть будет создана в период с 2010-го по 2020 год. Таким образом, среднее предприятие столкнется с увеличением потоков данных и независимо от текущего уровня инвестиций в системы хранения на протяжении ближайшего десятилетия капиталовложения в эти средства будут лишь нарастать. Потребуется увеличивать емкость хранения и затраты на закупку соответствующих устройств, а также расходы на обслуживающий их персонал. Таким образом, мы приходим к экономическому трюизму: системы, не способные развиваться, прекратят свое существование. Вместе с тем я не вижу, чтобы компании активно инвестировали в системы хранения и увеличивали персонал, отвечающий за управление ими. Из этого можно сделать вывод о том, что большинство организаций просто не могут позволить себе наращивать емкость своих средств хранения в нужных объемах, а значит, предприятиям придется искать их на стороне. Подсчитав, сколько инвестиций, капитальных затрат и расходов на персонал понадобится для обслуживания растущих объемов хранения, компании обратятся к специализированным поставщикам услуг, которые лучше знают, как обеспечить эффективное управление огромными объемами данных.
Еще одна причина недооценки авторами отчета реальных объемов данных в облаке заключается в том, что значительная часть этих данных будет генерироваться непосредственно в облаке SaaS-приложениями, а также приложениями, размещаемыми у провайдера на условиях хостинга. В течение ближайшего десятилетия будет увеличиваться не только емкость систем хранения, но и количество приложений в облаке, а следовательно, и объемы данных, связанных с этими приложениями. Возникает вопрос: какая доля общего числа приложений к 2020 году будет размещаться во внешних облаках? Готов поспорить, что она окажется значительно выше упомянутых 15%.
Также в отчете затрагиваются темы обеспечения конфиденциальности и соблюдения нормативных требований. Авторы утверждают, что, несмотря на все усилия ИТ-групп, объемы недостаточно защищенных данных в следующем десятилетии будут увеличиваться. Объясняется это нехваткой инвестиций со стороны бизнес-подразделений, финансирующих централизованные расходы на ИТ. Несмотря на вступление в силу соответствующих законодательных актов (в частности, закона Сарбейнса-Оксли) и наличие брешей в системе защиты данных, вопросы обеспечения конфиденциальности информации и соблюдения нормативных требований в списке приоритетов находятся далеко не на первых строчках, заметно отставая от удовлетворения функциональных потребностей бизнес-подразделений, и каких-либо изменений в обозримом будущем здесь не предвидится. Следует упомянуть и об активном использовании бизнес-подразделениями услуг поставщиков внешних облаков, благодаря чему сотрудникам этих подразделений становится проще обходить корпоративные требования к информационной безопасности.
Авторы отчета прогнозируют, что события будут развиваться по следующему сценарию. Растущая сложность управления цифровой информацией побуждает клиентов обращаться к сервисам облаков. В центрах обработки данных прослеживается тенденция к дальнейшей автоматизации управления, консолидации и виртуализации. Ожидается дальнейший перевод конечных пользователей на самообслуживание. В ключевых направлениях обеспечения безопасности, управления информацией, управления дополнительным контентом и обработки данных в режиме реального времени будут возникать новые узкие места.
Тем, кто работает в сфере ИТ, имеет смысл внимательнее ознакомиться с отчетом и проанализировать выводы, сделанные его авторами. Возможно, я покажусь излишне навязчивым, но хочу еще раз повторить, что будущее информационных технологий представляется заметно отличающимся от прошлого, и даже от совсем недавнего прошлого. В данном отчете вы получаете информацию к размышлению, которая пригодится при дальнейшей выработке стратегии. Мы постарались консолидировать конкретные рекомендации, которые помогут вам подготовиться к изменению ситуации в будущем. И если вы заинтересованы в том, чтобы двигаться вперед, начните с изучения особенностей и перспектив цифровой вселенной.