Все новые и новые медиаресурсы предлагаются сейчас исключительно «в цифре», провайдеры продают цифровые сервисы, магазины физических носителей сворачивают свои стенды, печатные СМИ уходят в Web, чтобы обеспечить оперативный онлайн-доступ к информации и т. п. В формируемом всеми этими источниками потоке данных есть ценные для бизнеса сведения об интересах, предпочтениях и поведении потенциальных или уже имеющихся клиентов, позволяющие, например, выяснить, почему конкретный человек принял решение воспользоваться той или иной услугой либо приобрести конкретный продукт. Бизнес может использовать результаты анализа Больших Данных для целенаправленных маркетинговых кампаний и более точного позиционирования своих продуктов и услуг. Таким образом, информация, в том числе и выловленная в потоке Больших Данных, становится наравне с деньгами одним из двигателей экономики.

 

Интеграция или изоляция?

Повышение доступности бизнес-аналитики революционизирует хранилища данных, которые перестают быть изолированными и способны теперь поддерживать принятие решений в рамках всей корпорации.

Стивен Бробст

Принято считать, что Большие Данные генерируются такими монстрами, как eBay, Twitter, Facebook и Google, но это не означает, что небольшие компании остаются вне игры — ценность информации как экономического инструмента привлекла на рынок обработки данных компании, которые занимаются сбором данных из разных источников и их перепродажей. Уже сейчас небольшие компании путем анализа поступающих потоков сведений могут лучше понять предпочтения и интересы своего клиента, а это позволит персонализировать его, выработать индивидуальный подход и максимально эффективно адресовать ограниченные ресурсы. Например, лояльность клиента магазина явно вырастет, если продавец порекомендует ему купить еще и молоко, а также поменять выбранный йогурт на другой, более отвечающий вкусам покупателя. А все благодаря тому, что у продавца была информация о покупках клиента и данные о его посещениях медицинских учреждений.

 

О Больших Данных с четырех сторон

Большие Данные, облака и аналитика — символы глобальных перемен в ИТ-индустрии. Представители компаний HDS, Teradata, EMC и Fujitsu Technology Solutions рассказывают о своих взглядах на эту тройку.

Леонид Черняк

Однако традиционные реляционные системы управления базами данных оказались неспособны в полной мере удовлетворить текущие потребности бизнеса в обработке больших потоков разнообразных данных. Как следствие, на рынке появились такие технологии, как NoSQL, MapReduce и Hadoop, которые все же не имеют таких элементов построения баз данных, как средства обеспечения безопасности, построения индексов и определения структуры данных (схем). По мнению Стивена Бробста, технического директора компании Teradata, обе стороны заняли ошибочные позиции по отношению друг к другу — в традиционных SQL-системах структура данных играет главенствующую роль, и хорошо, когда такая структура не меняется, что возможно, если в ядро системы заложена единая модель. В NoSQL структура изначально не фиксирована и определяется в момент запроса к базе. Выбор в пользу SQL или NoSQL зависит от задачи, и будущее за продуктами, объединяющими в себе достоинства обеих технологий.

Для решения новых задач бизнеса и получения контроля над Большими Данными требуются новые профессии и инструменты, однако никто не хочет тратить время и усилия на поиск лучшего инструмента для своей специфичной задачи — есть большой риск, что этот инструмент будет непригоден для решения следующей задачи. Недостаток специалистов по Большим Данным и нежелание распыляться на интеграцию слабосвязанных платформ для реализации единого логического хранилища данных рано или поздно приведут к тому, что компании будут искать на рынке унифицированные решения.

Teradata Unified Data Architecture

В январе 2013 года компания Teradata представила архитектуру для реализации логического хранилища данных — Teradata Unified Data Architecture (TUDA), отвечающую как определению V3 Больших Данных ( объем, разнообразие и скорость — Volume,Velocity,Variety), так и определению логического хранилища данных по версии аналитиков Gartner (для решения каждой задачи хранения из конкретной прикладной области — своя технология).

Трехуровневая архитектура TUDA (рис. 1) позволяет хранить и обрабатывать классические реляционные данные (записи из ERP-систем, описание продуктов, транзакции продаж), квазиструктурированные данные, например логи веб-серверов, XML-файлы, метаданные документов, профили участников социальных сетей, ленты новостей, а также неструктурированные данные, такие как медиафайлы. Чтобы обеспечить мгновенный доступ ко всем этим данным, необходимо их правильно разместить внутри логического хранилища. Для этого в TUDA имеется три платформы, решающие задачи определенного типа, связанные с обработкой данных: Hadoop — для быстрой загрузки и хранения больших массивов исторических данных, Aster — для исследования данных c применением функций MapReduce, классическая платформа Teradata Data Warehouse — для обработки реляционных оперативных данных для бизнес-пользователей.

Рис. 1. Архитектура TUDA
Рис. 1. Архитектура TUDA

 

В качестве области первичного размещения данных (data staging) выступает специальный вариант Hadoop, разработанный вместе с компанией Hortonworks, который отличается от стандартной поставки набором средств управления и доступа к данным. Эта платформа достаточно эффективна при хранении неструктурированных, необработанных, исторических данных, не требующих ресурсоемкой предварительной обработки, описания структуры и модели данных. Такая ситуация возникает в следующих случаях: когда загрузка производится путем одноразового извлечения данных из источника; когда работа ведется с долгосрочным хранилищем исторических данных; при исследовании ценности новых источников данных; при генерации отчетов в одной области.

В качестве области исследования данных (data discovery) используется платформа Teradata Aster, которая включает в себя возможность аналитики SQL/MapReduce, позволяющей пользователям применять стандартные языковые конструкции работы с базами данных. Результат работы функции MapReduce (MR) — это всегда таблица, которую можно подать на вход другой функции или обработать средствами классического SQL. Отличительной особенностью реализации Teradata является расширенный набор поставляемых аналитических MR-функций (более 50) для поиска и исследования скрытых зависимостей в Больших Данных: анализ пути (связанных событий) и паттернов; статистика (кластеризация, регрессии, дерево решений); анализ связей (графы, анализ иерархий); текстовый анализ (сентиментальный анализ, расстояние Левенштейна); трансформация (различного вида парсеры).

В качестве области стратегической и оперативной аналитики (data warehousing) используется классическая платформа Teradata DWH с реляционной базой данных и технологиями обработки данных:

  • Teradata Columnar — средство организации построкового и поколоночного хранения данных на физическом уровне;
  • Teradata Temporal — автоматическое сохранение истории изменения данных;
  • Teradata Geospatial — поддержка геопространственных типов данных с набором функций для геопространственных вычислений;
  • хранилище данных с автоматическим размещением часто используемых данных на быстрых носителях, включая и область кэш-памяти, а остальных на более медленных;
  • управление нагрузками на уровне процессора и на уровне операций ввода/вывода, а также аналитическая экосистема, объединяющая несколько геопространственно разнесенных платформ в хранилище с единой точкой доступа (Teradata Unity);
  • «песочница» для аналитиков и разработчиков (Teradata Data Lab), позволяющая проводить тестовые испытания новых процессов обработки данных на единой производственной платформе за счет разделения нагрузки, что помогает ускорить время ввода нового решения в эксплуатационный режим.

Teradata DWH и Teradata Aster связаны с Hadoop через специальный коннектор SQL-H, обеспечивающий средствами SQL доступ к данным Hortonworks Hadoop и возможность их соединения с таблицами, находящимися в хранилище, в рамках одного запроса SELECT. Такой подход облегчает доступ к данным Hadoop для пользователей, знакомых с SQL. Данные из Hadoop выбираются с помощью специальной функции load_from_hcatalog, которая создает таблицу в пуле базы данных, содержащую строки и столбцы данных из таблицы Hadoop, описанной пользователем в Hortonworks HCatalog на стороне удаленной платформы. Запрос к функции может быть частью большего запроса с соединением обычных таблиц и представлений. Данные импортируются в параллельном потоке из узлов Hadoop и передаются обработчикам AMP (access module processor). Данные конвертируются из типов Hadoop в соответствующие типы данных базы.

Аналогичным образом интегрированы платформы Teradata DWH и Teradata Aster. Коннектор состоит из двух функций load_from_teradata и load_to_teradata, использующих параллелизм утилиты Teradata Parallel Transport (TPT) для перемещения данных между двумя системами средствами функций загрузки и экспорта данных Teradata FastLoad и FastExport соответственно.

В качестве платформ для TUDA при реализации операционной части хранилища используется линейка семейств программно-аппаратных комплексов с классической базой данных Teradata 14. Основными платформами здесь остаются Teradata DWH appliance 2700 с возможностью аппаратного сжатия пользовательских данных (до трех раз) и Teradata Active Enterprise DWH appliance 6700 с широкими возможностями управления нагрузками, за счет чего операционное хранилище становится доступным для решения задач в режиме, близком к реальному времени.

Для реализации областей первоначального размещения данных и исследования данных используется новый программно-аппаратный комплекс Teradata Aster Big Analytics appliance, включающий: Teradata Aster 5 с технологией SQL-MapReduce, которая позволяет создавать SQL-запросы с одновременным вызовом MR-функций; набор MR-функций; Apache Hadoop, управляемый посредством Hortonworks HDP 1.1; коннектор SQL-H, обеспечивающий возможность использования данных, хранимых в Hadoop на стороне Aster; внутреннюю сеть InfiniBand между узлами обработки и Teradata Viewpoint — интегрированное управление экосистемой комплекса.

Глубинный анализ данных

Среда TUDA дает бизнес-пользователям средства анализа данных, позволяющие в режиме, близком к реальному времени, оперативно реагировать на конъюнктуру рынка. Наличие платформы для исследования накопленных данных не позволяет операционному хранилищу стагнировать, побуждая бизнес искать новые тенденции, включая аналитику в состав обязательных бизнес-процессов, предваряющих процесс принятия бизнес-решений. Процесс исследований, таким образом, фактически превращается в итерационный цикл (рис. 2), начинающийся с возникновения аналитической идеи и сбора данных (Hadoop/Aster), исследования идеи (Aster) и заканчивающийся оценкой и принятием решения об использовании результатов исследований в операционной аналитике.

Рис. 2. Итерационный исследовательский цикл
Рис. 2. Итерационный исследовательский цикл

 

Среда TUDA может использоваться в любой прикладной области, требующей решения аналитических задач по улучшению сервисного обслуживания или повышения эффективности производства. Например, в телекоме TUDA облегчает решение задачи повышения качества предоставления услуг связи за счет выявления проблем, с которыми сталкиваются абоненты, мониторинга скорости передачи данных в сети и загруженности оборудования в зависимости от активности клиентов. Для решения данной задачи предназначена технология детальной проверки сетевых пакетов DPI (Deep Packet Inspection) по их содержимому, а не только по заголовкам. Обладая такой информацией, можно выполнить статистический анализ пакета, фильтровать передачу тех или иных пакетов в сети, тем самым управляя трафиком, а значит, активностью пользователей и производительностью сети.

Для решения задачи DPI данные собираются, фильтруются и загружаются в среду Hadoop, а затем доставляются в базу Aster для проведения исследований и применения различных аналитических функций. Таким образом, Hadoop в TUDA используется как хранилище большого объема сырых данных, а Teradata DWH и Aster служат для агрегации, консолидации, фильтрации, обогащения хранилища связанными данными об абонентах и сетевой инфраструктуре и для выполнения анализа. В результате провайдер услуг связи может визуализировать проблемные точки сетевой инфраструктуры, сравнивать производительность узлов в зависимости от активности абонентов, идентифицировать потенциально проблемные места сети для точного планирования развития, лучше понимать поведение абонентов в сети и выявлять пользовательские приложения с аномальным поведением, которое может свидетельствовать о деятельности злоумышленников.

В банковской сфере архитектура TUDA поможет повысить лояльность клиентов, особенно из наиболее прибыльных сегментов, и минимизировать их отток к конкурентам. Решение этой задачи возможно путем анализа всей истории взаимоотношений клиента с банком, часто составляющей миллионы записей, хранящихся в репозиториях различных подсистем, которые ведут учет каждого посещения клиентом отделений банка, каждого факта его работы с банкоматами или обращения через online-банк, а также истории его взаимных контактов со службами банка (звонки в службу поддержки, рассылки маркетинговых предложений по разным каналам и т. п.). Результатом анализа может быть выявление череды событий, приведших к закрытию банковских счетов и отказу клиента от того или иного сервиса. Для оптимизации стоимости хранения большого объема данных о взаимодействиях банка с клиентами используется экземпляр Hadoop, для анализа — база Aster и MR-функция nPath, входящая в аналитический пакет и выявляющая наиболее частые события, ведущие, например, к выполнению транзакции закрытия счета. Здесь же оказывается полезной функция объединения результатов анализа с информацией о профиле клиента и историей его транзакций, для того чтобы адресно оказать стимулирующее воздействие на клиента, повышая его удовлетворенность банковскими услугами.

***

Подход, реализуемый в архитектуре Teradata Unified Data Architecture, позволяет представить логическое хранилище данных компании как единое целое, что дает возможность пользователям всех уровней получить полную информацию, необходимую для принятия взвешенных решений. Все части архитектуры интегрированы не только с помощью технологических коннекторов, но и через единый информационный процесс, каждый элемент которого направлен на решение задачи обработки данных и их доставки конечному бизнес-пользователю.

Михаил Ганюшкин (Mikhail.Ganyushkin@Teradata.com) — архитектор решений компании Teradata (Москва).