За последние пять лет рынок Больших Данных серьезно повзрослел: согласно выводам аналитиков Wikibon, продажи соответствующих решений и сервисов выросли во всем мире с 7 млрд долл. до 38,4 млрд долл. За это же время рынок в России поднялся фактически с начальной отметки до примерно 500 млн долл. годовых продаж. Прошедшее пятилетие также дало мощный старт применению в корпоративном секторе многих инноваций, таких как Hadoop и NoSQL. В экспертной среде радикально изменилось общее представление о Больших Данных, что обусловило необходимость по-новому взглянуть на инфраструктурные решения для реализации этой популярной концепции.
Четыре новых «V»
Все вроде бы привыкли к классическому определению, указывающему на принадлежность данных к разряду Больших. Это известная аббревиатура из трех латинских «V»: Volume (большой объем), Velocity (высокая скорость накопления и обработки), Variety (многообразие типов и форматов). Теперь же специалисты говорят о новом условном обозначении «7V». Заявлено, что к упомянутым первым трем признакам Больших Данных прибавляются еще четыре: Veracity (достоверность данных, ибо лишь проверенные данные могут принести пользу), Variability (изменчивость, так как одни и те же данные могут иметь разное значение в зависимости от контекста), Visualization (визуализация – возможность представить анализируемые данные в доступной форме), Value (ценность – из данных можно извлечь полезную информацию и знания, чтобы улучшить бизнес-результаты).
Произошедшая переоценка Больших Данных и выявление их новых качеств требуют соответствующей поддержки на инфраструктурном уровне, считают участники пятого, юбилейного форума BIG DATA 2016, организованного издательством «Открытые системы».
Форум показал, что инновации в области инфраструктуры Больших Данных сейчас сосредоточены на нескольких ключевых направлениях. Во-первых, это дальнейшее развитие линейки специализированных программно-аппаратных комплексов (appliances). Во-вторых, появление и массовое распространение инструментов Open Source и их активная поддержка вендорами, прежде развивавшими только проприетарные разработки. В-третьих, всевозможные попытки упростить инфраструктуру Больших Данных. Четвертое – переход к облачным решениям, в том числе для анализа данных. Наконец, разработчики уделяют повышенное внимание вопросам безопасности, надежности инфраструктурных решений и снижения стоимости владения ими.
Два подхода
По своей тональности и содержанию доклады и презентации на форуме BIG DATA 2016 продемонстрировали два разных подхода. Одни эксперты, констатируя, что Большие Данные – это громадный стек программных и аппаратных технологий, оптимистично утверждали, что работа с ними в действительности проста (если использовать предложенные ими решения и подходы). Другие, напротив, фокусировали свое внимание на том, как нелегко добиться нужного результата.
Например, специалисты EMC вживую продемонстрировали, как на аппаратной платформе Isilon, кооперированной с программной системой виртуализации VMware Big Data Extensions, развертывание готовой к применению и оптимизированной под разные дистрибутивы Hadoop инфраструктуры Больших Данных можно осуществить всего за десять минут.
Геннадий Федоров, технический консультант Intel, в своем докладе «Большие Данные – не значит большие проблемы» рассказал о решении Data Analytics Acceleration Library. По сути это набор оптимизированных строительных блоков для всех этапов и уровней систем анализа данных. Инструментарий был разработан той же командой, которая создает математические библиотеки для процессорных ядер Intel. Поэтому, делают вывод в корпорации, архитектуры на основе DAAL позволяют выжать из процессоров Intel максимальную производительность при работе с Большими Данными.
Заочные оппоненты реагировали на это скептически: разве быстрое развертывание и предельная производительность гарантируют общую успешность проекта и фактическую пользу от работы с Большими Данными? Помимо инфраструктуры для достижения позитивных результатов, нужны детально проработанные сценарии извлечения знаний, согласующиеся с текущими бизнес-задачами использования последних.
Евгений Степанов, руководитель направления HPE Big Data Platform в России, в своем выступлении отметил: рынок решений для Больших Данных сейчас перенасыщен, однако очень часто эти решения не оправдывают ожиданий организаций и многие проекты терпят фиаско. В частности, из-за того, что большинство инструментов для работы с ними (такие как реляционные технологии) появились в 70-х годах прошлого века и их современные версии пришли к нам из устаревшей парадигмы ИТ.
Многие представители заказчиков, выступая на форуме, указывали на серьезные проблемы, с которыми они столкнулись при выполнении проектов Больших Данных.
Усложняя, упрощай
Чтобы Большие Данные стали доступнее для заказчиков, некоторые поставщики инфраструктурных решений делают ставку на развитие специальных программно-аппаратных комплексов.
«Мы стараемся упростить клиентам вход в мир Больших Данных. Потому что это нелегкая технология с точки зрения освоения и начала работы с ними», – заявила ведущий технический специалист Oracle Наталья Горбунова.
По ее словам, разработки Oracle для инфраструктуры Больших Данных идут главным образом в трех направлениях: хранение, унифицированный доступ и анализ. Все эти задачи предлагается решать посредством адаптированных к их специфике систем, по максимуму использующих как свои программные, так и аппаратные возможности. У Oracle имеются две линейки таких систем: Exadata для реляционных баз данных и BigData Appliance, основанная на инновациях самой Oracle, Cloudera и Intel.
Как утверждает Горбунова, BigData Appliance – это готовая инфраструктура для развертывания Hadoop-кластера, а также баз данных NoSQL. В частности, конфигурация полной стойки BigData Appliance, интегрированная с 18 серверами Oracle Sun x86, с возможностью подключения через высокоскоростные каналы InfiniBand и Ethernet обеспечивает очень простое развертывание процессов хранения, унифицированного доступа и анализа Больших Данных, а также прозрачное управление этими процессами. На машине используется собственная ОС Oracle Linux, которая оптимизирована с учетом нагрузок, свойственных Hadoop. И для таких же нагрузок сконфигурирована машина Oracle Java.
BigData Appliance – симбиоз «правильной» аппаратной платформы, «правильной» операционной системы и «правильного» ПО, непосредственно связанного с обработкой Больших Данных (Cloudera CDH, Cloudera Manager и Cloudera RTQ), подчеркивают в Oracle.
Как отмечалось выше, EMC тоже фокусируется на упрощении инфраструктуры Больших Данных. Технический консультант компании Михаил Владимиров сообщил, что решение Isilon запущено почти полтора десятка лет назад, но в последнее время в нем появились серьезные инновации, призванные обеспечить экономичность инфраструктуры, ее упрощение и снижение операционных расходов.
«Isilon позволяет упростить работу тем администраторам, кому инфраструктура Hadoop представляется новой и сложной. Используя наше решение, они будут иметь дело с привычными инструментами виртуализации, с классическими системами хранения данных, но при этом смогут воспользоваться новыми возможностями высокоскоростного доступа к данным и их быстрого резервирования», – подчеркнули в EMC.
Конечно, заказчик может собрать отдельные вычислительные машины в кластер самостоятельно и установить на него свободное ПО для хранения и обработки Больших Данных, но тогда ему придется проделать большую работу по инсталляции, конфигурации созданного комплекса. Наверняка возникнут сложности с обеспечением нужной производительности и масштабируемости, сетевого взаимодействия. Все эти вопросы заранее решены в системах, подобных Oracle BigData Appliance или EMC Isilon.
Помнить о безопасности
Еще один акцент разработчиков в развитии инфраструктурных решений смещен в область безопасности Больших Данных.
Владимиров напомнил, что разоблачитель глобальной электронной слежки Эдвард Сноуден смог опубликовать свои сенсационные данные благодаря тому, что в структуре АНБ США занимал позицию Data Scientist. Он, в отличие от своих коллег-администраторов, имел доступ к широкому спектру информации, а не к отдельным узким сегментам системы, глядя на которые невозможно сделать какие-либо выводы.
Это важный урок. И из него следует, что, запуская проект Больших Данных, организациям очень важно грамотно выстроить механизмы разграничения полномочий и доступа к данным. Поэтому в Isilon, например, встроен ряд инновационных функций для обеспечения безопасности: контроль доступа на базе ролей, зоны безопасного доступа, шифрование данных, схема «одна запись, многократное чтение» (WORM). Система безопасности Isilon интегрирована с провайдерами аутентификации Kerberos, Active Directory, LDAP, а также поддерживает внешний аудит файловой системы.
Открыто и экономично
Некоторые разработчики за основу стратегии развития инфраструктуры Больших Данных приняли продукты с открытым исходным кодом.
Например, компания Teradata «взяла под свое крыло» решение Presto и начала активно продвигать его в сообществе Open Source и среди заказчиков.
«Главная за последний год наша инновация – серьезный сдвиг в сторону Open Source, к работе с такими решениями, как Presto, Hadoop и т. п. Мы полностью вбираем их в свою экосистему и, например, только для развития Presto выделили 16 разработчиков», – подчеркивает руководитель направления Big Data в российском подразделении Teradata Андрей Суворкин.
Продукт Presto пока не получил широкого распространения на рынке. Он был разработан в компании Facebook для своих нужд, но с 2013 года является полностью открытым и распространяется абсолютно свободно.
Суворкин так объясняет необходимость поддержки Presto: «Концентрация пользы в объеме данных – величина непостоянная. И это обусловливает различные подходы к работе с ними. Для каждого типа данных нужен инструмент, который наиболее эффективно решит те или иные задачи. Но такие инструменты должны быть объединены в общую структуру, реализующую так называемое логическое хранение данных, когда данные можно бесшовно использовать и обрабатывать наиболее подходящими способами. Это не совсем виртуализация, но нечто похожее на нее по сути».
Средством, реализующим подобную концепцию и позволяющим получить доступ к данным независимо от того, в каких репозиториях они хранятся, является Presto. Этот продукт поддерживает разные дистрибутивы Hadoop и другие источники данных, включая реляционные базы данных, источники потоковых данных и пр. Он построен на базе технологии in-memory и обеспечивает очень высокую скорость обработки данных. В архитектурном плане Presto представляет собой высокооптимизированное к задачам анализа данных Java-приложение.
Весной 2015 года Teradata начала оказывать услуги платной поддержки Presto. Если заказчики готовы имплементировать этот продукт в свою экосистему хранения и обработки данных, то Teradata может предоставить им необходимую техническую поддержку на коммерческих условиях. Такая поддержка может быть оказана как из облака, так и на объекте у заказчика.
«Эпоха программно-аппаратных комплексов для Больших Данных, может быть, еще не уходит совсем, но в данный момент сжимается, и нам нужно переводить свои решения в облако. Это тоже установившаяся тенденция», – заявил Суворкин.
Облака для аналитики и домашнего хранения
Юрий Попов, руководитель направления по продвижению платформы данных Microsoft в финансовом секторе, подчеркивает, что на сегодняшний день все фазы аналитического процесса Больших Данных могут осуществляться в облаке. Загрузка, обработка, хранение и доставка для работы с аналитическими инструментами и приложениями – все эти операции могут осуществляться на базе сервисов и инфраструктуры Microsoft Azure.
«Если мы говорим о Больших Данных, то должны сделать наше решение максимально масштабируемым. Но чем сложнее преобразования, которые мы производим с данными, и чем сложнее процессы в рамках аналитического решения, тем сложнее это решение масштабировать», – замечает Попов.
Разумеется, обеспечить масштабирование в облаке намного проще, чем в условно замкнутой корпоративной системе.
В Microsoft утверждают, что хранилище так называемого озера данных в Azure обеспечивает единый репозиторий, в котором можно держать данные любого типа и объема, предоставлять доступ к ним с любой нужной скоростью и без внесения изменения в приложение при масштабировании данных. Новая распределенная служба аналитики Azure, построенная на базе Apache YARN, которая тоже динамически масштабируется, позволяет заказчикам сконцентрироваться на бизнес-задачах, а не отвлекаться на сложные процессы управления распределенной инфраструктурой. Вместо того чтобы развертывать и настраивать оборудование, нужно всего лишь формировать запросы для преобразования данных и получения важных выводов, подчеркивают в корпорации.
Есть еще одна облачная «инновация» для мира Больших Данных, которая обусловлена не требованиями бизнеса, а законодательными нормами в части локального хранения и обработки персональных данных. Эти нормы подтолкнули российские компании к освоению рынка облачной работы с данными. Например, недавно на рынок облачного хранения для сектора B2B вышла группа Mail.ru.
Как пояснил Дмитрий Соколов, руководитель проекта «Облако Mail.ru», компания сначала развивала сервисы облачного хранения данных для собственных корпоративных нужд и для частных пользователей. Но затем, освоив нужные технологии на высоконагруженных проектах и достигнув определенного качества работы с ними, вышла на открытый рынок бизнес-пользователей. Новый сервис облачного хранения Mail.ru основан на инфраструктуре из четырех дата-центров. В них поддерживается полная репликация данных по схеме, в которой каждый файл хранится в двух копиях на разных дисках. Все ЦОД находятся в России, что в свете современного законодательства может рассматриваться как конкурентное преимущество, за которым стоят и самые настоящие технические инновации.
***
Согласно исследованиям IDC, лишь 23% данных, накопленных в организациях и на предприятиях, пригодны для потенциальных инноваций, несущих пользу бизнесу. И только 0,5% в итоге приносят пользу. Несомненно, этот процент можно повысить, если использовать инновационные инфраструктурные решения для работы с данными, особенно в комплексе с продуманными организационными подходами и обоснованной методологией извлечения полезных знаний из Больших Данных.