Особым данным — особое хранение | Computerworld Россия | Издательство «Открытые системы»

Средства хранения быстро наращивают производительность, функциональность и одновременно дешевеют. Это позволяет предприятиям аккумулировать данные, которые прежде по соображениям экономии навсегда удалялись из информационных хранилищ. Если специальным образом организовать сбор, хранение и анализ накопленных данных, по сути трансформировав их в так называемые Большие Данные, можно обеспечить весомые конкурентные преимущества в бизнесе. Но как это сделать с наименьшими издержками и как минимизировать риски в проектах переоснащения систем хранения под такого рода задачи? Вот что думают по этому поводу эксперты ведущих зарубежных и отечественных ИТ-компаний.

Прежде всего зададимся вопросом, нужно ли адаптировать инфраструктуру хранения к работе с Большими Данными. Или же их обработка не накладывает никакой специфики на системы хранения? Все опрошенные эксперты считают, что специальная подготовка обязательна.

НУЖНО ЛИ АДАПТИРОВАТЬ инфраструктуру хранения к работе с Большими Данными. Или же их обработка не накладывает никакой специфики на системы хранения? Все опрошенные эксперты считают, что специальная подготовка обязательна

Адаптация необходима

Принципиальная разница между традиционной системой хранения и системой, предназначенной для обработки Больших Данных, есть. Она заключается в применении специальных технологий, утверждает Андрей Пивоваров, руководитель группы перспективных технологий предпроектного консалтинга Oracle в СНГ. Технологии Больших Данных позволяют не только хранить данные, но и обрабатывать их там же, где они лежат, то есть анализировать их не передавая на специальные серверы обработки. Тем самым увеличивается скорость обработки. Еще одно свойство технологий такого рода — при масштабировании они одновременно наращивают емкость хранения и вычислительные мощности системы. То есть обновление системы для увеличения ее производительности обычно происходит сразу по всем направлениям: устанавливаются не только дополнительные дисковые полки, но и более мощные процессоры, память и жесткие диски в серверы. Эти технологии Больших Данных в обозримом будущем не смогут полностью вытеснить классические системы хранения, но в ряде задач они могут быть более эффективными, считает Пивоваров.

Сергей Мазниченко, ведущий инженер Центра разработки инфраструктурных решений компании «Ай-Теко», справедливо замечает: «Когда мы говорим о Больших Данных в системах хранения, то прежде всего подразумеваем расширенную емкость и пропускную способность системы. Поэтому возможность использования системы хранения, не подготовленной специальным образом для работы с Большими Данными, совсем не очевидна».

Действительно, любая система хранения имеет ограничения по емкости и пропускной способности, и, когда предприятие сталкивается с этими ограничениями, эффективность ее работы снижается. Только если система хранения в состоянии обеспечить объем, необходимый для хранения массива данных компании, и при этом не достигается предела масштабирования по емкости и пропускной способности, ее можно использовать в проектах в данной области, считает Мазниченко, и поясняет: «Это связано с тем, что задачи анализа Больших Данных (в отличие от обработки транзакций в реальном времени) не предъявляют высоких требований по количеству операций ввода-вывода, и обмен данными идет преимущественно в последовательном режиме».

Николай Ульрих, руководитель сектора дисковых подсистем хранения данных компании «Техносерв», обращает внимание, что проблематика Больших Данных не ограничивается вопросами хранения больших объемов данных, характерных для традиционных систем хранения, а включает в себя задачи, связанные с управлением накопленным контентом и его анализом.

«Принципиально важно, что Большие Данные — это новый комплексный подход в ИТ, требующий глубокой проработки, грамотного выбора стратегии управления. Ошибка на любом из этапов планирования может привести к глубоким разочарованиям при последующей эксплуатации комплекса и росту капитальных расходов. Понимая, что такое Большие Данные, можно выработать специальные требования к системам хранения. Они должны обеспечивать необходимые объемы дискового пространства, возможность расширения системы в соответствии с ростом количества данных и количеством операций ввода-вывода, необходимых для обслуживания пользователей и работы инструментов анализа данных», — говорит Ульрих.

Денис Андриков, заместитель технического директора по работе с заказчиками компании «Открытые технологии», замечает, что за термином «Большие Данные» кроется не эффективная обработка данных на накопителях, пусть и превосходящих все мыслимые и немыслимые размеры, а новая идеология использования информации. Системы хранения в такой идеологии являются лишь инструментом. А на первом месте стоит логическая модель, показывающая на уровне абстракций взаимодействие данных с бизнесом. Неотъемлемой частью этой модели является нормативно-справочная информация и методология управления жизненным циклом данных.

Снижаем затраты

В современных условиях постоянной оптимизации ИТ-бюджетов предприятия, решившие начать работу с Большими Данными, озабочены главным образом тем, как с минимальными затратами подготовить существующую систему хранения к эффективной обработке и использованию потенциала Больших Данных. Эксперты дают на этот счет весьма конкретные практические рекомендации.

Николай Ульрих настаивает на том, что при подготовке систем хранения к работе с Большими Данными следует учитывать все значимые факторы: загруженность имеющихся вычислительных и дисковых ресурсов, тип систем хранения, стоимость расширений для существующих систем, общую стоимость владения. Каждый из этих факторов ключевым образом влияет на принятие решения по обновлению систем хранения для работы с Большими Данными и соответствующим образом способен уменьшить затраты на модернизацию систем хранения. В ряде случаев проще и экономически выгоднее разворачивать Большие Данные на новых, специально для этого предназначенных комплексах, считает он.

Андрей Шапошников, заместитель директора центра проектирования вычислительных комплексов компании «Инфосистемы Джет», резонно замечает, что, решая проблемы хранения и обработки Больших Данных, предприятие-заказчик и проектировщик должны выбрать оптимальные технологии. Очень важно при этом соблюсти баланс между стоимостью решения, нуждами компании, производительностью систем и предполагаемым объемом данных. И конечно, не стоит забывать, что работа с большими объемами данных не обязательно подразумевает применение новомодных технологий — на рынке есть множество классических решений, которые позволяют работать с Большими Данными традиционными способами, напоминает Шапошников.

Александр Хлуденев, заместитель генерального директора по перспективным направлениям бизнеса компании «Крок», прежде всего заметил, что основными задачами применительно к Большим Данным являются хранение и обработка слабоструктурированных и неструктурированных данных. Стоимость хранения такого рода информации с применением специализированных технологий Больших Данных, даже с учетом создания хранилища с нуля, будет ниже по сравнению с традиционными подходами к построению систем хранения. Например, в пилотном проекте «Крока» для крупного оператора связи затраты на создание системы обработки Больших Данных были снижены более чем в десять раз за счет применения специализированных технологий.

«Кроме того, если приоритет отдается минимизации затрат, то решение для работы с Большими Данными можно построить на недорогих вычислительных устройствах и системах хранения, обеспечив горизонтальную масштабируемость системы. Что касается ПО, то можно воспользоваться доступными приложениями Open Source, позволяющими при наличии компетенции построить вполне эффективную и работоспособную систему. Однако решение будет более результативным и надежным, если воспользоваться продуктами таких лидеров рынка, как IBM, EMC, Oracle», — заявил Хлуденев.

Компания Oracle, к примеру, предлагает интегрированный программно-аппаратный комплекс Big Data Appliance. Это готовая платформа для работы с Большими Данными, и она легко интегрируется с другими технологическими платформами, скажем, с базой данных Oracle.

«Сейчас многие заказчики присматриваются к гибридным решениям, где первым эшелоном хранения и обработки данных будут традиционные технологии, а для архивных данных будут использоваться технологии Больших Данных. Компания Oracle, понимая это, выпустила ряд адаптеров, предназначенных для более тесной интеграции частей этих систем», — сообщил Пивоваров.

Мазниченко рекомендует для получения достаточной скорости обработки Больших Данных использовать горизонтально масштабируемые системы хранения и специализированные решения для параллельного распределения нагрузки. Например, NetApp FAS с масштабированием до 24 контроллеров и технологией Infinite Volume позволяет получить сетевой диск объемом до 20 Пбайт, а NetApp E-Series обеспечивает пропускную способность до 8 Гбайт/с. Также Мазниченко упоминает решения на базе Hadoop, позволяющие обрабатывать массивы данных объемом в сотни петабайтов, параллельно распределяя нагрузку между множеством серверов и систем хранения.

Ульрих добавляет, что одним из вариантов при выборе системы хранения для Больших Данных могут быть кластерные расширяемые сетевые системы хранения (scale-out clustered NAS) EMC Isilon и HDS High Performance NAS. Эти системы достаточно легко расширяются как по дисковому пространству, так и по вычислительным мощностям. Кроме того, они обладают весьма простым интерфейсом управления.

Рискованное дело

Все опрошенные нами эксперты подтвердили, что проекты, нацеленные на работу с Большими Данными, — рискованные и не всегда достигают намеченных целей.

«Безусловно, любые новые технологии являются риском для устоявшихся бизнес-процессов. Либо это риск снижения эффективности обработки при внедрении нового неизученного решения, либо риск потратить выделенный бюджет впустую, не добившись какого-либо результата. Консерватизм ИТ-директоров тоже увеличивает риск. Лишь очень небольшое число таких руководителей можно отнести к инноваторам, стремящимся попробовать все новое и неизведанное», — отмечает Андриков.

Шапошников подчеркивает, что переход на новую модель работы с Большими Данными требует весомых затрат. Придется сильно изменять архитектуру программного продукта, на котором реализован процесс работы с Большими Данными. «Простого выхода здесь не будет — изъять фрагмент сложившейся архитектуры и механически перенести его на новое технологическое решение не получится», — заявил он.

«Да, такие проекты, безусловно, могут иметь повышенный риск, так как являются скорее бизнес-ориентированными, чем технологическими. Цель этих проектов — не просто получить дополнительные знания, а использовать их с выгодой для бизнеса. И если первая задача техническая, то насколько эффективно сведения будут использованы в дальнейшем — вопрос стратегии компании, а не примененных технологий», — констатирует Хлуденев.

Эксперт «Ай-Теко» рискованность подобных проектов связывает с невозможностью гарантировать достижение в полном объеме того, на что компания рассчитывает в результате обработки и анализа Больших Данных. «Но риск определенно оправдан. Возможности, которые дает анализ Больших Данных, слишком привлекательны для бизнеса, чтобы отказываться от них», — подчеркивает Мазниченко.

Как добиться успеха

Риски, сопутствующие проектам в области Больших Данных, можно минимизировать, утверждают участники опроса.

Сергей Мазниченко, ведущий инженер Центра разработки инфраструктурных решений компании «Ай-Теко», считает, что ключом к успеху любого проекта, в том числе и в области Больших Данных, является серьезная подготовительная работа. Прежде всего необходимо провести анализ рисков проекта и возможности возврата инвестиций. Должны быть приняты решения по набору необходимых данных, их объему и скорости обработки. Следует выбрать оптимальное техническое решение, отвечающее поставленным требованиям. Должны быть учтены риски потери массива данных и риски, связанные с информационной безопасностью и соблюдением законодательства в области персональных данных пользователей. Использование облачных мощностей позволяет минимизировать или по крайней мере оптимизировать инвестиции на первых этапах и оценить возможности выбранной технологии. И конечно, наличие профессиональной команды, которая будет вести проект, минимизирует риски проекта и позволит адекватно просчитать бюджет.

Андрей Шапошников, заместитель директора центра проектирования вычислительных комплексов компании «Инфосистемы Джет», тоже советует подходить к реализации проектов Big Data с максимальной предусмотрительностью. Эксперт рекомендует готовить имеющиеся наборы данных к новому типу анализа и в то же время устанавливать приоритеты, цели и ограничения для отдельных подразделений компаний, оценивать уровень компетентности сотрудников в вопросах, относящихся к данным, в масштабах всей организации, а не только отдела ИТ. «Краткие практические рекомендации такие: поддерживайте `гигиену` данных; поймите, какую ценность представляют данные; разработайте систему измерений; заранее продумайте все последствия использования данных и, наконец, подготовьтесь действовать на базе новых знаний — Большие Данные дают возможность своевременно генерировать идеи и приступить к их реализации быстрее, чем когда бы то ни было», — резюмирует Шапошников.

В компании «Крок» считают: для того чтобы минимизировать риски, нужно изначально рассматривать и рассчитывать активность в области Больших Данных как бизнес-проект, в котором информационные технологии — лишь инструмент реализации. «Нужно заранее исследовать и определить круг задач проекта, готовность компании к возможным изменениям, а также рыночную необходимость в оптимизации услуг или продуктов, и исходя из всего этого уже рассчитывать этапность выполнения проекта и возврат инвестиций», — отмечает Александр Хлуденев, заместитель генерального директора по перспективным направлениям бизнеса компании «Крок».

Эксперты «Открытых технологий» предлагают начинать проекты по Большим Данным с построения логической модели, а потом уже делать кросс-анализ — где, какая и на каких дисках или лентах информация лежит. Подобная методология позволяет снизить риск и подготовить руководство к необходимости осознанного старта проектов в области Бльших Данных. Параллельно возникнет необходимость решать вопросы управления загрузкой/выгрузкой и преобразованием данных и всего комплекса средств управления данными. «В любом случае, даже на первый взгляд неудачный проект принесет как минимум понимание, что с информационными потоками надо что-то делать, что ручная фильтрация, селекция, выбор из массива нужных данных и продвинутые средства кросс-анализа — это насущная необходимость. Данных действительно с каждым годом становится все больше и больше. Так или иначе, рынок заставит вести работу в этом направлении», — убежден Денис Андриков, заместитель технического директора по работе с заказчиками компании «Открытые технологии».