Выяснилось, что не все данные одинаково полезны, а для ответа на вопросы типа «что было, что есть и что будет», возможно, и не потребуются огромные хранилища, в реальном времени аккумулирующие все поступающие из различных источников неструктурированные сведения. Григорий Каневский, архитектор решений Teradata Aster, представивший решения компании на недавнем форуме Big Data 2015, организованном издательством «Открытые системы», рассказал о своем видении аналитики Больших Данных.
- В названии вашего доклада упоминается аналитика с человеческим лицом, что под этим подразумевается?
Основная цель процесса анализа в Aster, включающего сбор, распределение, обработку данных и визуализацию результата, – создание ценности для бизнеса, что в конечном счете означает формирование такого представления информации, которое может быть использовано для принятия решений. Анализ эффективен, когда его проводят не узкие специалисты в области математики, ИТ, бизнеса или в конкретной прикладной области — роль аналитика требует баланса знаний, способности соединить их для постановки задачи и обнаружения закономерностей. Такой специалист, исследователь данных (data scientist) не может знать все, но должен уметь поставить вопрос и получить ценный для бизнеса результат даже при отсутствии информации о структуре или закономерностях анализируемых данных. Иначе говоря, он должен «чувствовать» данные, которые визуализируют средства аналитики.
- Какие средства для этого предлагает ваша компания?
Для поиска ценности в данных предназначена платформа Teradata Aster, реализующая стратегию компании по интеграции всей продуктовой линейки, включающей уже не только традиционные хранилища данных, построенные по принципу «сначала собрали данные, потом записали в одну базу, затем долго хранили и потом, может быть, средствами SQL получили результат». Сегодня речь идет об анализе в динамике, об обработке в реальном времени и о многообразии источников, тесная интеграция которых выполняется с помощью технологии QueryGrid, позволяющей применять один SQL-запрос ко множеству баз и хранилищ как от Teradata, так и от других производителей, а также к кластерам Hadoop. Вместо перемещения данных в QueryGrid сами запросы перемещаются в целевые хранилища и там выполняются.
Такие инструменты позволяют пользователям с любым уровнем подготовки в области программирования, и в частности SQL, работать со сколь угодно большими массивами сырых данных. В конечном счете все данные имеют ту или иную структуру, другое дело, что она неочевидна или неизвестна, а прежде чем браться за анализ, требуется четко представлять, зачем это нужно бизнесу. Разумеется, какая-то подготовка по SQL или языку R полезна; вместе с тем в Aster есть фреймворк AppCenter, который позволяет из готовых блоков, скрывающих от пользователя сложность алгоритмов, создавать веб-приложения для решения конкретных аналитических задач. Такие блоки-ускорители поставляются уже настроенными для различных отраслей (телеком, банки, розничная торговля, индустрия развлечений, здравоохранение и т. д.). Бизнес-пользователи, не знакомые с SQL и не обладающие опытом программирования, с помощью таких веб-приложений могут проводить анализ по выбранным параметрам и получать ответы в виде обнаруженных скрытых связей, оценок лояльности клиентов, ключевых сегментов потребительской аудитории, лидеров мнений, влияющих на принятие решений.
- Есть мнение, что не все данные одинаково полезны...
Инструментарий Teradata Loom позволяет фильтровать массивы сырых данных с нечеткой структурой, «обогащая» их и готовя для анализа. Loom пытается определить структуру файла и помогает аналитику выполнить необходимые преобразования, применяя математические, строковые и другие операции. Тем самым удается выделить из разрозненного массива входящих файлов именно те данные, которые содержат полезную информацию и пригодятся для дальнейшего анализа.
- Какой уровень зрелости бизнеса необходим от клиента Aster?
Уровень, когда представители бизнеса начинают понимать, что можно извлечь ценность из имеющихся данных; обычно это средний или крупный бизнес – компании, имеющие опыт разработки и развития доморощенного аналитического решения и обнаруживающие, что больше вкладывают в него, чем получают взамен. Именно бизнес, ориентированный на результат, заинтересован в применении платформ наподобие Aster, когда оказывается, что собственных ИТ-решений уже недостаточно. Однако следует учесть: развертывание и эксплуатация подобных платформ – это серьезный проект, часто требующий перемен в бизнесе.
Чтобы определить готовность потенциального клиента к пилотному проекту, мы предлагаем ему список из 15 пунктов. Ключевые вопросы — откуда берутся данные, насколько они доступны, есть ли возможность масштабировать источники и инфраструктуру ИТ, поддерживающую их обработку, как распределены данные. Ответы на эти вопросы должны показать в цифрах, какую выгоду получит клиент и за какое время. На всю эту, по сути, консультационную деятельность уходит в среднем от двух до четырех месяцев. Часто оказывается, что потенциальный клиент не может ответить на все вопросы, и тогда не только становится очевидным сам факт неготовности к переменам, но и выявляются факторы, препятствующие этим переменам. К сожалению, люди часто думают, что аналитические платформы, предлагаемые им, — это волшебная палочка. Но успех проекта не в волшебстве, а в реальном взаимном сближении производителя аналитической платформы и заказчика. Мы, конечно, предоставляем профессиональный сервис, но решить все проблемы без понимания особенностей конкретного бизнеса невозможно, а потому компании должны выращивать собственных специалистов по анализу данных.