«Это настоящий прорыв в технологиях СУБД, — заявил один из основателей и генеральный директор Splice Machine Монте Цвебен. — До недавних пор объединение разнородной рабочей нагрузки в рамках одной СУБД представляло очень сложную задачу. Компаниям приходилось обрабатывать транзакции в реальном времени на одной платформе, а затем переносить все данные на другую платформу с помощью технологий ETL (extract, transform, load) и уже там анализировать их».
Такая архитектура приводила к существенным задержкам при принятии решений: фактически компании были вынуждены оперировать вчерашними данными.
В новой СУБД применяется метод изоляции ресурсов — компоненты Hadoop и Spark управляются отдельными процессами, которым выделяются свои собственные ресурсы. В результате сложные запросы оперативной аналитической обработки (online analytical processing, OLAP) не мешают выполнению запросов оперативной обработки транзакций (online transaction processing, OLTP).
Устанавливая уровни приоритетов для запросов OLAP, пользователи могут быть уверены, что важные отчеты не будут блокированы процессами массовой пакетной обработки, потребляющими все доступные ресурсы кластера. В новой версии появилась также консоль расширенного управления, позволяющая следить за выполнением запросов и визуализировать каждый из этапов.
«Процедуры анализа не влияют на транзакции и не мешают их обработке, — подчеркнул Цвебен. — При наличии гибридной архитектуры вы можете одновременно управлять нагрузкой разного характера и принимать решения на основе актуальной информации».
Такой подход идеально удобен для самых разных сценариев, начиная от цифрового маркетинга и заканчивая различными приложениями: Интернета вещей, мобильными, операционными, веб-приложениями и приложениями социальных сетей, а также ускорением процедур ETL, управлением озерами данных и снижением нагрузки на хранилища данных.
По признанию экспертов, до недавних пор объединение разнородной рабочей нагрузки в рамках одной СУБД представляло очень сложную задачу |
«Формируя доступную операционную платформу, предназначенную для одновременной поддержки рабочей нагрузки OLTP и OLAP, Splice Machine 2.0 предлагает бизнесу уникальный и мощный способ проведения анализа в реальном времени и выполнения оперативных запросов, не жертвуя при этом производительностью, — отметил вице-президент компании Cloudera по продуктам Чарльз Зедлевски.
Архитектура Splice Machine 2.0 предусматривает выполнение федеративных запросов к внешним базам данных и файлам с использованием Virtual Table Interfaces (VTI). Возможно также применение всех ранее созданных библиотек Spark для машинного обучения, потокового анализа, интеграции данных и графового моделирования.
Таким образом, с помощью VTI даже реляционная СУБД сможет обрабатывать неструктурированные данные.
«Появляется реальная возможность выполнять запросы к внешним данным, в том числе и неструктурированным, — указал Цвебен. — Кроме того, у нас есть интерфейс, представляющий собой, по сути, стандартный интерфейс Hadoop и обладающий всеми преимуществами обработки неструктурированной информации средствами Hadoop и Spark. Мы можем обратиться к своей базе данных и получить оттуда согласованные в транзакционном отношении данные. После обработки они помещаются обратно также с использованием транзакций. Таким образом, организации смогут воспользоваться всеми достоинствами баз данных NoSQL, не выплескивая вместе с водой и ребенка. На SQL написаны уже миллиарды строк кода. Не думаю, что компаниям имеет смысл их переписывать. К тому же SQL обладает более мощными средствами по сравнению с NoSQL. Разработчики создают корпоративные приложения, имея за плечами 30-летний опыт использования SQL. Мы вполне обоснованно полагаем, что нашим клиентам вряд ли захочется переписывать весь этот код и тратить миллионы долларов на переобучение персонала».
Заявку на участие в тестировании Splice Machine 2.0 уже направила компания Wells Fargo.
«Для сферы финансовых услуг характерен экспоненциальный рост объемов данных, причем их анализ не терпит отлагательства, — заявил глава подразделения исследований и разработок Wells Fargo Джесси Лунд. — Это заставляет нас искать новые архитектуры, позволяющие одновременно справляться как с операционной, так и с аналитической нагрузкой.