По мнению Андрея Пивоварова, руководителя группы перспективных технологий предпроектного консалтинга Oracle СНГ, в России уже имеется немало заказчиков, ясно представляющих себе возможности технологий Больших Данных и изучающих сценарии их монетизации. Причем речь идет не только о Hadoop и хранении больших объемов данных, но и о сборе в реальном времени огромных потоков данных и их обработке.
— На каких направлениях, связанных с технологиями Больших Данных, сегодня концентрируются в Oracle?
Корпорация направляет свои усилия на создание оптимизированных программно-аппаратных комплексов, интеграцию Больших Данных, развитие собственной базы данных NoSQL, ускорение доступа к Большим Данным, их безопасность, визуализацию Больших Данных, а также на методологию построения систем Больших Данных. Именно в этих областях у заказчиков сегодня возникают наибольшие проблемы. На них указывает и эволюция Hadoop — одного из ключевых элементов технологий Больших Данных. Изначально эта технология существовала как программная система с открытым кодом, и развивало ее сообщество энтузиастов-разработчиков для задач обработки логов веб-сайтов. Поэтому, например, в ней изначально не было необходимых функций безопасности, таких как разграничение доступа пользователей к данным, ведь ее создателей больше заботило другое — загрузить большие массивы данных и эффективно их обработать.
Немало возникает и вопросов, связанных с архитектурой СУБД, в организациях, где есть Большие Данные. В Oracle работает группа архитекторов, которые собирают примеры использования и готовят документы с рекомендациями, касающимися, в частности, построения гибридных систем, включающих обычные СУБД, Hadoop, NoSQL, средства бизнес-аналитики, Data Discovery и пр. Своими наработками они делятся с заказчиками.
— Кластеры Hadoop нередко создаются на основе недорогих серверов. Почему в Oracle стали предлагать фирменное программно-аппаратное решение?
Заказчики, которые попытались создать кластер Hadoop своими силами из простых, недорогих компонентов, вынуждены были тратить много времени и средств на то, чтобы обеспечить интеграцию отдельных узлов, синхронизацию его работы, установку обновлений, ремонт и замену узлов и т. д. Чтобы помочь заказчикам, создающим кластер Hadoop, в его развертывании и эксплуатации и добиться его высокой производительности, надежности и доступности, корпорация разработала свое оптимизированное программно-аппаратное решение — кластер Hadoop из скоммутированных между собой узлов с предустановленным дистрибутивом Cloudera.
Андрей Пивоваров: «В России уже немало заказчиков, ясно представляющих себе возможности технологий Больших Данных и изучающих сценарии их монетизации» |
— Нередко обмен данными между имеющимися в организации системами баз данных и Hadoop превращается в отдельную проблему. Что можно здесь посоветовать?
Действительно, заказчики хотят, чтобы кластер Hadoop, часто используемый для хранения не только накапливаемых или собираемых неструктурированных данных, но и ранее собранных структурированных данных, вписался в их ИТ-ландшафт и при этом не требовал серьезных дополнительных расходов на команду специалистов по Hadoop. Специальный инструментарий позволяет описать данные на Hadoop как таблицу СУБД Oracle, к которой можно получить доступ посредством SQL. Обработка таких запросов частично переносится на кластер Hadoop, с его помощью, например, можно отфильтровать данные, существенно уменьшив их объем (что важно, поскольку их необходимо передавать через сеть), и затем отправить результаты фильтрации на обработку в СУБД. Также есть возможность в одном запросе задать поиск по реляционной базе данных и по Hadoop — это может быть полезно, если старые структурированные данные перенесены на хранение в кластер Hadoop.
Когда кластеры Hadoop соседствуют с реляционными СУБД, нередко возникают проблемы со скоростью обмена данными между ними. Эффективно решать их позволяют оптимизированные коннекторы, например для интеграции СУБД Oracle с Hadoop, с их помощью можно увеличить скорость доступа к данным из одной базы в другую в разы по сравнению с бесплатными аналогами.
— Есть ли смысл визуализировать Большие Данные, не прибегая к их серьезной предварительной обработке?
Да, есть. Один из автопроизводителей — наших заказчиков, используя решения Data Discovery, анализирует жалобы клиентов: изучает неструктурированную информацию, содержащуюся в жалобах, находит закономерности и глубже исследует проблемы, которые за ними стоят. Например, если обнаруживается, что в жалобах часто встречаются слова «скрип», «поворот руля» и при этом известно, что авторы жалоб ездят на машинах определенных партий какой-то модели, то есть смысл тщательно исследовать эти партии на предмет дефектов.
Решения класса Data Discovery позволяют, применяя различные способы визуализации, быстро понять, есть ли в данных интересные закономерности, и если они есть, то исследовать их более тщательно, применив традиционный подход. Если же данные из нового источника неинтересны, то можно быстро убрать его из рассмотрения, не тратя время и деньги на интеграцию источника с хранилищем данных.
— Среди Больших Данных встречаются не только большие массивы, но и потоки данных. Какие есть возможности для их сбора и обработки?
Один из наших заказчиков проводит испытания авиадвигателей и во время прогона собирает данные от датчиков, записывает их с помощью нашей распределенной СУБД класса NoSQL, а затем анализирует. Эта СУБД вобрала огромный опыт фиксации в реальном времени большого количества мелких транзакций, таких как показания систем АСУ ТП.
Другой наш заказчик — сотовый оператор — отслеживает местонахождение абонентов, и если обнаруживает, что клиент заехал в торговый центр, который является партнером оператора, то предлагает подготовить информацию о персональных скидках и отправляет ее клиенту по SMS. Здесь используется другой наш инструментарий, который позволяет отслеживать информационные потоки, выявлять в них с помощью шаблонов некие события и оперативно на них реагировать.
— На какие технологии Больших Данных наблюдается спрос в России?
Использование технологий Больших Данных в России входит в стадию зрелости. Чаще всего этими технологиями Hadoop интересуются крупные предприятия — в первую очередь банки, телекоммуникационные компании и розничные сети, причем разговор с ними идет о вполне конкретных бизнес-задачах и технологиях. Интерес к Hadoop вполне объясним: эта технология позволяет собрать воедино и хранить не только те данные, что обычно загружались в хранилища, но также старые структурированные данные, неструктурированные данные из открытых источников и пр.
Есть немало примеров, когда российские заказчики сначала создают у себя экспериментальные лаборатории по Большим Данным, с помощью которых выявляют возможности монетизации этих технологий, определяют перспективные сценарии их применения. А те заказчики, которые выходят на определенный уровень зрелости и начинают использовать Hadoop в масштабах предприятия, уже часто обращаются к нам за промышленным решением. Им мы как раз и предлагаем программно-аппаратные решения для работы с Hadoop.
Что касается обработки больших потоков данных, то основной спрос мы отмечаем со стороны производственных компаний — нефтегазовой отрасли, транспорта, машиностроения, телекома и некоторых других. Есть спрос и на сбор и хранение данных из Интернета — он наблюдается в первую очередь со стороны банков, использующих эти данные для скоринговой оценки клиентов.