В надежде привлечь больше пользователей Apache Hadoop к своим сервисам анализа данных компания Google оснастила инструментарий BigQuery возможностью выполнения запросов сразу к нескольким таблицам данных.
СЕГОДНЯ С ПОМОЩЬЮ BIGQUERY можно перейти к бизнес-анализу, используя SQL-подобные запросы. При этом вы тратите гораздо меньше усилий и получаете значительно более высокую скорость, чем раньше |
«Объединение таблиц терабайтной величины для анализа данных всегда представляло собой весьма сложную задачу и требовало наличия хороших навыков работы с MapReduce, мощного оборудования и большого запаса времени, — указал, анонсируя обновление, менеджер по продукту Google BigQuery Джу-Кей Квек. — Сегодня с помощью BigQuery можно перейти к бизнес-анализу, используя SQL-подобные запросы. При этом вы тратите гораздо меньше усилий и получаете значительно более высокую скорость, чем раньше».
В Google утверждают, что использование BigQuery вместо Hadoop поможет пользователям сэкономить деньги, поскольку в этом случае они оплачивают только обрабатываемые запросы, а не ресурсы, выделяемые для поддержки всех компонентов Hadoop.
Сервис BigQuery, запущенный в 2010 году, позиционировался Google как интерактивное средство анализа больших объемов данных. С помощью BigQuery пользователь передает набор данных Google, после чего получает возможность выполнять запросы к ним посредством соответствующего API.
Обновленная версия расширяет уже имеющийся функционал сервиса. Новый оператор JOIN позволяет объединять результаты запросов к нескольким источникам данных. Ранее инструкцию JOIN можно было применять лишь к наборам данных размером не более 8 Мбайт. У новой конструкции JOIN EACH никаких ограничений на размеры данных нет.
В результате эффективность использования сервиса Google в качестве замены Hadoop MapReduce повышается. Многие задания Hadoop проектируются для объединения больших объемов данных, полученных из двух или более источников. Но для этого разработчикам приходится описывать процессы MapReduce с нуля, а это требует больших затрат времени. Инструкция JOIN EACH позволяет быстро получить единый результирующий набор данных из двух больших таблиц с общим ключом.
В обновлении BigQuery появилось еще несколько новых функций. Улучшена поддержка отметок времени: теперь у клиентов есть возможность импорта временных отметок из других систем и включения отметок времени в запросы. Кроме того, пользователи могут добавлять колонки к уже существующим таблицам, определять закладки для наборов данных, к которым они имеют доступ, и получать автоматические электронные уведомления о предоставлении им доступа к новому набору данных.