«Облачные» вычисления представляют собой уникальную платформу для быстрого формирования сложных аналитических решений. Azure располагает удобным механизмом для работы благодаря использованию заранее подготовленных шаблонов.
Если вы отправляетесь в вычислительное «облако» Microsoft Azure ради аналитики, то один из лучших способов, который я могу рекомендовать, — начать с использования заранее подготовленных шаблонов решений Microsoft. Типичное средство, используемое для таких решений, — инструмент «облачной» бизнес-аналитики Microsoft Power BI, который является частью Office 365.
Конкретные шаблоны решения для Power BI можно получить на сайте компании по адресу: https://powerbi.microsoft.com/en-us/solution-templates/. Я остановлюсь на одном из шаблонов, который часто использую при работе с клиентами, — Campaign Brand Management for Twitter (https://powerbi.microsoft.com/en-us/solution-templates/brand-management-twitter/). Этот шаблон содержит набор внутренних «облачных» функций Azure для обращений к Twitter с целью извлечения сообщений, их обработки и объединения с помощью служб Microsoft Azure Cognitive Services для анализа восприятия (https://azure.microsoft.com/en-us/services/cognitive-services/text-analytics/).
Вся концепция решений на основе шаблонов — ключевой элемент «облачных» вычислений. Используя «облако», вы сможете реализовать преимущества концепции быстрого развертывания и удаления сред, а также исключить дорогостоящие работы по построению новых физических сред, которые сохраняют активность, когда не используются.
В Azure мы используем шаблоны JSON для постоянного сохранения, управления и перестроения сред в проектах. Мы можем сохранять определения архитектуры целиком в файлах JSON, что позволяет управлять изменениями и развертываниями с использованием Visual Studio и механизмов управления версиями.
Очень хороший пример — комплект шаблонов решений Azure, известный как Microsoft Cortana Intelligence Gallery (http://aka.ms/cisolutions). В этом наборе шаблонов мы рассмотрим шаблон DW and Data Science (https://gallery.cortanaintelligence.com/Solution/Data-Warehousing-and-Data-Science-with-SQL-Data-Warehouse-and-Spark-2), который сформирует работоспособную среду хранилища данных Azure с тестовыми данными, интегрированными с Apache Spark в HDInsight. В сущности, вы можете организовать комплексные решения анализа Больших Данных в Azure с использованием галереи решений Cortana Intelligence.
С помощью обоих шаблонов можно за несколько минут сформировать «облачные» архитектуры Microsoft Azure с использованием вашей учетной записи Azure. Для построения серверных платформ данных вам потребуется пробная или действующая подписка Azure. В обоих случаях, когда вы просто экспериментируете с шаблоном, обязательно следите за выставлением счетов для вашей учетной записи Azure и приостановите, завершите работу или удалите отдельные компоненты архитектуры в группе ресурсов портала Azure или удалите всю группу ресурсов, когда закончите работу.
Например, на экране 1 показано, что осталось в моей группе SolutionTemplate Resource Group в подписках Azure. Я удалил базу данных Azure SQL, поскольку уже заполнил данными модель Power BI и мог удалить эти компоненты, чтобы избежать дополнительных затрат, связанных с использованием Azure.
Экран 1. Пример работы с шаблоном |
Начнем построение решения Power BI Brand Management для Twitter, загрузив нужный файл по адресу: https://powerbi.microsoft.com/en-
us/solution-templates/brand-management-twitter/. Нажмите кнопку Install Now («Установить») и пройдите по этапам мастера. Решение получает сообщения и обрабатывает их с помощью Microsoft Sentiment Analysis Cognitive Service API, поэтому потребуется задействовать подписку Azure и учетную запись Cognitive Services из портала Azure или бесплатную учетную запись Cognitive Services (см. экран 2).
Экран 2. Power BI Brand Management для Twitter |
Обратите внимание, что после завершения развертывания вы получите приведенную на рисунке архитектуру с учетной записью Azure App Service, которая будет обращаться к Twitter API для запросов Tweet. Вы вводите дескрипторы запроса в мастере, а функция Azure отправит текст сообщения в Sentiment API и сохранит результаты в базе данных Azure SQL. После этого вы сможете использовать заранее подготовленные отчеты Power BI для просмотра аналитики Tweet, с учетом восприятия торговой марки и реакции на всю кампанию.
Рисунок. Архитектура решения Power BI Brand Management для Twitter |
Я неоднократно использовал этот шаблон решения для анализа Twitter, не обязательно связанного с маркетингом продукта. Просто скорректируйте отчеты и панели мониторинга в соответствии с конкретными целями. Наконец, внедряя решение анализа Больших Данных в производственной среде заказчика, я бы добавил концентратор событий в Azure для сбора сообщений в режиме, близком к реальному времени, и привязал его к функции Azure для оценки тональности, сохранив результаты в базе данных SQL, как предусмотрено данным шаблоном, или в формате JSON в Blob Storage или Azure DocumentDB, в зависимости от требований заказчика к пропускной способности.
На экране 3 приводится пример, в котором я использовал Twitter-канал SQL CAT для проведения анализа, используя шаблон Twitter из шаблона Power BI Solution, не имеющий ничего общего с анализом бренда.
Экран 3. Пример использования Twitter-канала SQL CAT для анализа |
Решения Cortana Intelligence Gallery в меньшей степени ориентированы на Power BI, чем шаблон, упомянутый выше. Акцент перенесен на платформу Microsoft Azure Analytics с брендом Cortana Intelligence Suite. Решение Data Warehouse with Spark Analytics (https://gallery.cortanaintelligence.com/Solution/Data-Warehousing-and-Data-
Science-with-SQL-Data-Warehouse-and-Spark-2) демонстрирует тестовое комплексное средство аналитики Больших Данных на основе Data Warehouse и Hadoop в Azure. Перемещение данных выполняется фабрикой данных Azure, интерактивная аналитика данных предоставляется через Apache Spark на экземпляре Hadoop, управляемом Azure HDInsight; развертывается Azure SQL Data Warehouse и вводятся тестовые данные из набора данных Million Song.
После нажатия кнопки Deploy («Развернуть») вы должны ответить на несколько вопросов, связанных с подпиской Azure, которая будет использоваться для установки решения. Те же правила применяются к указанному выше шаблону решения Power BI в отношении выставления счетов и использования текущей учетной записи Azure. Одно из дополнительных преимуществ решения Cortana Intelligence Gallery — возможность управлять развертываниями решений в группах ресурсов Azure из веб-сайта. Просто щелкните ссылку Manage, чтобы увидеть текущие развертывания.
Завершив все действия, вы получите работоспособное решение, которое демонстрирует «облачную» аналитику Больших Данных как в ноутбуках Jupyter, так и в Power BI, для исследования и визуализации необработанных данных и обработки результатов, хранящихся в Azure HDInsight и Azure SQL Data Warehouse.