Основной интеллектуальный капитал SAS — программы для статистического анализа, создававшиеся в течение 36 лет с момента создания этой компании. За этот период «железо», на котором они работают, пережило не одну смену поколений — мэйнфреймы и мини-ЭВМ, ПК и Unix-серверы. Наступает время специализированных аналитических машин (appliance) и конвергентных инфраструктур, то есть разного типа сборок из компьютерных лезвий, систем хранения и сетей, предназначенных в основном для частных корпоративных облаков. Но требуется не просто перенести приложения на новую аппаратную платформу, нужно учесть еще два неизвестных прежде фактора — многократный рост объемов данных, а также перевод аналитики в режим, близкий к реальному времени.
SAS VISUAL ANALYTICS СОЧЕТАЕТ в себе высокопроизводительные средства анализа и графический интерфейс визуализации данных |
SAS ответила на эти вызовы выпуском линейки для высокопродуктивной аналитики, состоящей из нескольких продуктов под общим названием High-Performance Analytics. Сегодня линейка HPA включает три взаимодополняющие технологии, различающиеся по тому месту, где именно происходит распараллеливание данных. Первой была SAS Grid Computing, поддерживающая распределенную обработку процессов в кластерной среде, это решение несколько напоминает частное облако. Затем были выпущены продукты класса in-database, где распределенная обработка достигается путем переноса вычислений внутрь хранилища данных, то есть вычисления перенесены из аналитического сервера SAS непосредственно в СУБД.
Очередным шагом стало создание категории продуктов и решений, в которых воплощена технология, называемая in-memory, то есть распределенные вычисления выполняются непосредственно в оперативной памяти. Новое решение позволяет осуществлять аналитику сверхбольших объемов данных не за часы, как прежде, а за минуты, буквально в реальном времени. Впервые о нем стало известно год назад, в декабре оно было представлено в США, а в конце мая состоялась московская премьера.
Ускорение аналитики достигается путем эффективного распараллеливания данных между устройствами оперативной памяти определенного количества серверов и исключения лишних обменов с дисками. Достигаемая скорость работы позволяет расширить область применения аналитических методов и существенно повысить качество решений. Естественно, для обработки в память требуется соответствующая аппаратно-программная платформа. Как чисто софтверная компания, SAS рассчитывает на использование того, что называют сейчас аналитическими платформами, то есть на интегрированные системы, построенные по архитектуре с массовым параллелизмом, поддерживающие MapReduce и современные СУБД — как SQL, так и NoSQL. В первую очередь это будут изделия от EMC Greenplum, а также от Teradata, с учетом нового функционала, привнесенного недавно купленной компанией Aster Datа. Впрочем, может быть обеспечена работа и на любом наборе серверов-лезвий. Для этого SAS готовит собственную реализацию Hadoop, созданную на основе свободной версии. Это будет «готовый к любому железу» пакет, сочетающий гибкость файловой системы Hadoop Distributed File System со скоростью обработки данных в памяти. Кроме того, в арсенале SAS появился интеграционный сервер Enterprise Data Integration Server, который расширяет круг поддерживаемых аналитических платформ. Он позволяет связать HDFS с широким спектром СУБД — Oracle, DB2, Microsoft SQL Server, Teradata, Teradata Aster, Sybase, Netezza, EMC Greenplum, MySQL.
SAS Visual Analytics — еще один продукт, работающий по технологии in-memory. Он сочетает в себе высокопроизводительные средства анализа и графический интерфейс визуализации данных. Продукт позволяет бизнес-пользователям и аналитикам самостоятельно анализировать большие объемы данных и получать точные, наглядные и удобные для интерпретации отчеты. Такие отчеты можно публиковать в Интернете, а благодаря приложениям для мобильных устройств с ними можно работать, например, на iPad. Это означает, что на встречах, в командировках или при удаленной работе у менеджеров, маркетологов, исследователей и других пользователей, которым нужны аналитические данные и выводы, сохраняется доступ к нужной информации. Они могут ею пользоваться и принимать на ее основе взвешенные решения.
Анализ занимает всего несколько секунд, максимум — несколько минут, что дает бизнесу значительную фору по времени перед конкурентами. Поскольку пользователи работают с данными напрямую, самостоятельно, не делая запросов в ИТ-службу, меняется весь процесс проведения анализа и принятия решений. В свою очередь ИТ-специалисты освобождаются от рутинных операций по обработке пользовательских запросов на предоставление доступа к информации и создание новых представлений данных и разовых отчетов. И компания может направить высвободившиеся ресурсы на решение других важных задач.