Развитие вычислений в оперативной памяти стало возможным благодаря колоссальному росту мощности современного аппаратного обеспечения. Наибольшее применение эта технология нашла в области бизнес-анализа.
Бизнес-аналитика становится для компаний все более доступной. С одной стороны, вендоры разрабатывают такие продукты, которые за счет оптимального подбора значений настроек по умолчанию позволяют не только математикам, но и просто бизнес-пользователям применять средства интеллектуального анализа данных, прогнозирования, базовой статистики. С другой стороны, интерфейсы программных продуктов становятся все более дружественными. Сегодня уже можно построить сложную прогнозную модель буквально за несколько кликов мыши.
«Нет смысла сложные, критичные для бизнеса модели строить за несколько секунд. Разумно потратить на них большее время, но выиграть в точности», Андрей Свирщевский, руководитель направлений аналитики и гарантирования доходов компании «SAS Россия/СНГ» |
«Есть и еще один критерий доступности — доступность финансовая», — подчеркивает Андрей Свирщевский, руководитель направлений аналитики и гарантирования доходов компании «SAS Россия/СНГ». В последнее время становятся доступными мощные средства аналитики за очень адекватную стоимость — сотни тысяч или несколько миллионов рублей. Такие инвестиции вполне по силам даже небольшим компаниям.
Вместе с тем для сохранения конкурентоспособности поставщикам приходится проводить колоссальную работу над повышением производительности своих систем.
«В сфере бизнес-аналитики можно отметить три основные тенденции: развитие технологий обработки в оперативной памяти, значительно дополняющих традиционные BI-возможности, переход к облачным вычислениям и мобильность», — считает Михаил Чиженко, руководитель направления бизнес-аналитики «SAP СНГ».
Направление резидентных вычислений приобретает важность из-за роста объемов корпоративных данных, подлежащих обработке. Существующие системы не справляются с ее обработкой в адекватные сроки, время их отклика существенно увеличивается. Требуются принципиально иные технологии, позволяющие ускорить процессы аналитики. Кроме того, на эту тенденцию накладывается другая, называемая «всепроникающим BI», которая проявляется в необходимости обеспечить массовую самостоятельную работу пользователей. Они работают с данными в диалоговом режиме и, вполне естественно, ожидают мгновенной реакции на поставленные вопросы. С традиционным подходом к аналитике такую возможность реализовать возможно, но сложно и весьма дорого. Когда запрос пользователя выполняется несколько минут, ни о какой интерактивности речи быть не может.
Резидентные технологии позволяют увеличить скорость работы систем в сотни раз, что дает возможность перевести работу с данными на новый уровень.
Снимая ограничения
«Как показывает мой опыт общения с заказчиками, современная BI-система должна быть легкой в освоении», — уверен Юрий Зинченко, руководитель BI-практики компании Digia RUS, российского подразделениея Digia Plc, одного из ведущих системных интеграторов и разработчиков программного обеспечения в Финляндии.
Второе требование — масштабируемость и возможность изменений.
Наконец, проект не должен стоить больших денег.
«Самое главное — качество информации. Пользователю должна доставляться необходимая информация в нужных разрезах, — уверен Свирщевский. — Для выполнения многих аналитических задач скорость работы системы не является такой уж критичной. Большинство серьезных бизнес-решений принимается руководителями не на ежеминутной основе. Подавляющее количество информации может доноситься с ежедневным регламентом».
«Фактически резидентные технологии являются прямым проводником бизнес-аналитики в массы», Михаил Чиженко, руководитель направления бизнес-аналитики «SAP СНГ» |
Однако у этого правила есть важные исключения, и главным из них является интерактивный анализ данных. Здесь речь идет о такой области работы, как визуализация данных и выявление закономерностей. Если это разовый анализ данных бизнес-пользователем, то для него бывает важно быстро разобраться в сложившейся ситуации, провести сравнительный анализ подразделений, понять причины возможных отклонений и сделать правильные управленческие выводы. Если же речь идет о построении промышленных математических моделей, на основе которых будут приниматься важные для бизнеса регламентные решения (например, выдача кредитов), то визуализация и выявление закономерностей — только предварительный этап анализа. Как подчеркивает Свирщевский, цена ошибки при построении окончательной модели крайне высока, поэтому крупным компаниям в данном случае нецелесообразно использовать ускоренные вычисления в оперативной памяти. Оперативная память серверов не бесконечна, и в случае применения резидентных вычислений придется делать подвыборку данных. Как следствие, такая модель будет менее точной. «Нет смысла сложные, критичные для бизнеса модели строить за несколько секунд. Разумно потратить на них большее время и выиграть в их точности», — говорит он.
Однако в небольших и средних компаниях небольшой объем данных и невысокая сложность решаемых задач могут позволить решить их непосредственно в оперативной памяти. Кроме того, существуют узкие бизнес-задачи, в которых анализ может и должен проводиться только интерактивно.
«Я считаю, что резидентные технологии — хорошее дополнение к классическим средствам аналитики. Когда речь идет о десятках миллионов записей и сложных задачах, об их применимости можно говорить далеко не всегда», — резюмирует Свирщевский.
«Понятно, что серьезным системам требуется большой объем оперативной памяти. Однако в этом случае важна роль оптимизации», — говорит Зинченко. Например, можно дробить разные задачи по различным базам данных с целью оптимизации производительности и использования оперативной памяти серверов.
«Аппаратная платформа в предлагемых SAP решениях может практически неограниченно масштабироваться», — добавляет Чиженко. Например, лезвийные системы подразумевают возможность добавления любого количества серверов, объединяя их, и фактически все упирается в стоимость оборудования. Физические ограничения, конечно, существуют, но находятся далеко за пределами ожидаемых требований от систем. На практике с ними сталкиваться пока не приходилось.
Обычно BI-системы дают возможность пользователю работать лишь на агрегированном уровне, до уровня транзакции мало кто доходит. Но для более точного исследования многих проблем этот уровень необходим. Резидентные системы, благодаря хранению большого объема данных и гарантированно невысокому времени отклика, позволяют проводить такой анализ.
Вычисления в оперативной памяти нужны там, где требуется быстрый доступ к большому объему накопленной информации. Во-первых, не в каждой организации такие объемы накоплены, а во-вторых, не всегда для принятия решений принято обращаться к ним. Другим аспектом является необходимость в анализе детальной информации.
При этом заинтересованность компаний в подобных решениях больше зависит не от их размеров, а от отрасли. Типичными примерами «целевой аудитории» могут служить телекоммуникационный и финансовый сектора, а также торговые компании.
Проводник в массы
Сообщения с ИТ-рынка показывают, что компании продолжают достаточно активно внедрять традиционные BI-системы; интерес к относительно молодым резидентным технологиям пока невелик.
«Следует смотреть на историю ИТ-проектов в компаниях. С большой вероятностью внедрение ERP одного из мегавендоров приведет к внедрению аналитической системы того же производителя в обмен на разного рода «специальные условия»», — отмечает Зинченко. Однако тенденция такова, что бизнес-пользователи играют все большую роль в выборе удобных для использования продуктов. Это постепенно меняет рынок, что открывает дорогу приложениям BI, работающим по технологиям обработки данных в оперативной памяти. Кроме того, осторожность пользователей связана с крайне ограниченным количеством представленных решений. До недавнего времени активнее других концепцию вычислений в оперативной памяти продвигала компания QlikTech, и это вполне логично: она является пионером. Лишь недавно на рынке появилось решение SAP HANA, что стало знаковым событием — выход на рынок одного из крупных поставщиков означает, что к нему будут «подтягиваться» и остальные.
«Вычисления в оперативной памяти могут быть двух видов: на рабочих станциях и на серверах, — говорит Свирщевский. — К первой категории относится продукт SAS JMP, который существует уже более 20 лет и широко распространен». В настоящее время SAS создает решения, ориентированные на использование оперативной памяти серверов. Это позволит колоссально увеличить производительность, особенно при использовании в сочетании как с распределенными вычислениями, так и с недавно разработанным подходом, позволяющим анализировать данные без извлечения их из промышленных СУБД.
«Переход вендоров на резидентные технологии не так прост, как может показаться. Создаваемые решения представляют собой программно-аппаратный комплекс, и с этим связаны значительные сложности», — говорит Чиженко. Недостаточно выбрать произвольный сервер и загрузить данные в его оперативную память — нужно обеспечить оптимальную загрузку памяти и процессоров, отсутствие «узких мест».
Тем не менее процесс движения конкурентов в сторону резидентных систем уже начался. От этих технологий не уйти, они будут захватывать рынок.
«Фактически резидентные технологии являются прямым проводником бизнес-аналитики в массы», — уверен Чиженко. Они позволяют сделать работу интерактивной, обеспечивая режим диалога с данными. Как известно, процесс анализа является многоитерационным. В самом начале пользователь может даже не знать, как именно сформулировать вопрос к BI-системе. Это происходит путем последовательного приближения.
Если в процессе такого анализа каждый шаг будет выполняться слишком долго, велика вероятность того, что пользователь остановит процесс исследования, а результаты будут недостаточно точными.
Мгновенные ответы на возникающие вопросы стимулируют активность пользователей в аналитической деятельности. Это в конечном итоге влияет на эффективность принимаемых решений, а значит — на результаты компании.
«Ценность BI-системы для бизнеса — это конгломерат, включающий такую крайне важную вещь, как оперативность внедрения, а также скорость работы, — отмечает Андрей Педоренко, директор департамента ИТ компании «АльфаСтрахование». — Однако существует и еще одна важная деталь — универсальность в использовании различных источников данных».
В «АльфаСтраховании» с 2009 года используется решение QlikView, базирующееся на технологии резидентных вычислений. История его появления в компании довольно любопытна. Изначально консультанты АТК, демонстрировавшие это решение, потерпели полное фиаско — заявленные возможности системы были столь нереалистичны, что в них просто никто не поверил.
Однако при проведении в рамках тендера тестового проекта эта компания справилась с заданием в три раза быстрее остальных. Более того, она стала единственной, кому удалось обработать все три предложенных источника данных.
Как известно, бизнесу абсолютно не важно, на каких технологиях построено решение. А вот скорость получения результатов имеет ключевое значение. Выяснилось, что построение хранилища вовсе не является обязательным условием внедрения BI-системы. «Было крайне важно, что удастся обойтись без построения хранилища. Я понимал, что в противном случае проект растянется на несколько лет и обойдется очень дорого», — признает Педоренко.
QlikView является двухслойным решением, включая средства ETL и аналитические инструменты; в нем отсутствует промежуточный уровень — хранилище данных. Использование вычислений в оперативной памяти позволяет не хранить показатели, а каждый раз рассчитывать их заново. На первый взгляд это кажется бессмысленной потерей времени. Однако скорость расчетов настолько высока, что этот процесс уже воспринимается не как затраты, а как дополнительная возможность.
Динамическая работа QlikView позволяет быстро менять структуру модели, добавлять в нее дополнительные изменения. «Для нас такая гибкость была крайне важна: компания изменяется очень быстро, и аналитическая система должна за этими изменениями успевать», — подчеркивает Педоренко.
Однако если требуется обеспечить анализ исторических данных, средств QlikView недостаточно и необходимы дополнительные решения. В «АльфаСтраховании» эта проблема решена с помощью создания в страховых операционных системах небольших хранилищ, содержащих минимальный набор информации, фиксирующей изменение данных.
Другим важным критерием, влияющим на применимость подобных систем, является объем корпоративной информации. «У нас несколько сотен гигабайт данных, и границ использования решения мы пока не увидели», — констатирует Педоренко.
QlikView в компании используется весьма широко. С его помощью выстроена система отчетности, в том числе для региональных офисов компании, производится расчет резервов и оценка эффективности операционных подразделений, к использованию системы активно подключаются андеррайтеры. Бухгалтерия использует QlikView как альтернативу отчетности, встроенной в операционное решение, — важный показатель удобства системы. Сейчас в компании реализуется проект построения регулятивной отчетности, который в результате может стать коммерческим продуктом АТК для страховой отрасли.
Нельзя сказать, что в итоге решение выходит столь уж дешевым. Значительную роль в этом играет не только стоимость лицензий, но и требования к аппаратному обеспечению, особенно оперативной памяти серверов («АльфаСтрахование» использует серверы с оперативной памятью объемом 256 Гбайт). «Тем не менее это бюджетное решение, вполне доступное средним компаниям», — считает Педоренко.
Использование в BI-системах резидентных технологий (и сам термин in-memory) является хорошим маркетинговым ходом. Проблема заключается в том, что пока еще не все в них верят.