На конференции Ignite 2017 в Орландо представители Microsoft объявили о выпуске инфраструктуры данных Azure V2 с новыми функциональными возможностями, в том числе потоком управления Control Flow, поддержкой виртуальных сетей VNET, выполнением по требованию On-Demand Spark и службами SSIS в «облаке». Давайте бросим первый взгляд на Azure Data Factory V2.
Итак, Microsoft объявила о предварительной версии службы инфраструктуры данных Azure (ADF) V2. Компания инвестировала средства в расширение службы интеграции данных в Azure с целью охвата новых областей применения. Они оказались очень популярными и получили широкое распространение при решении задач извлечения, преобразования и загрузки данных (ETL) в «облаке» и интеграции данных. Ранее службы ADF отличались заметным акцентом на временные окна и ELT, что позволило реализовать многочисленные проекты по аналитике Больших Данных, в том числе связанные с перемещением данных, распределенными хранилищами данных и машинным обучением. В ADF V2 появился расширенный набор функций оркестровки потоков управления, гибкого планирования на основе времени и триггеров, выполнения по требованию Spark и предоставления служб SSIS в «облаке». Теперь пользователи могут строить архитектуры с помощью ADF на основе модернизации хранилища данных, управляемого данными специализированного приложения SaaS и репликации пакетов SSIS ETL в «облако» без их переработки. В материале по адресу: docs.microsoft.com/en-us/azure/data-factory/introduction приведен обзор версии ADF V2, функции которой представляют собой расширение возможностей ADF V1 (рисунок 1).
Рисунок 1. Структура ADF V2 |
Я планирую опубликовать отдельную статью о службах SSIS в «облаке» с ADF, поэтому здесь мы сосредоточимся на функциях, имеющих значение в каждом из трех сценариев. В следующих публикациях мы более подробно рассмотрим SSIS.
Современное хранилище данных
В ADF V2 можно запланировать конвейеры так, чтобы запускать их в определенное время суток или по внешнему событию. Основное внимание уделяется оркестровке потоков управления, в том числе ветвлению, условному выполнению, параметрам и организации циклов, что позволяет дополнительно загружать данные и создавать сложные рабочие потоки. Новый поиск также очень важен (рисунок 2). В дополнительных материалах на сайте разработчика можно найти дополнительные сведения о планировании (https://docs.microsoft.com/en-us/azure/data-factory/concepts-pipeline-execution-triggers), потоках управления (https://docs.microsoft.com/en-us/azure/data-factory/tutorial-control-flow), поиске (https://docs.microsoft.com/en-us/azure/data-factory/control-flow-lookup-activity) и добавочной загрузке данных (https://docs.microsoft.com/en-us/azure/data-factory/tutorial-incremental-copy-powershell).
Рисунок 2. Оркестровка потоков в ADF V2 |
Управляемое данными приложение SaaS
В этом сценарии пользователи, проектирующие собственные «облачные» приложения с анализом данных, машинным обучением и т. д., нуждаются в поддержке таких пакетов SDK, как Python и REST, подключении к гибридным источникам данных в «облаке», локально и в виртуальных сетях (рисунок 3). В материалах на сайте разработчика приводятся дополнительные сведения о Python SDK для ADF (https://docs.microsoft.com/en-us/azure/data-factory/quickstart-create-data-factory-python), а по приведенному ниже адресу вы найдете подробную информацию об интеграции времени выполнения ADF с поддержкой виртуальных сетей (https://docs.microsoft.com/en-us/azure/data-factory/concepts-integration-runtime).
Рисунок 3. Подключение дополнительных пакетов |
Репликация пакетов SSIS ETL в «облаке» без их переработки
Запуск пакетов SSIS как управляемой службы в Azure дает преимущество перехода на архитектуру интеграции «облачных» данных с минимальными изменениями в коде интеграции данных и рабочих процессах. Кроме того, он позволяет задействовать мощные функции мониторинга и управления ADF для подготовки серверов SSIS без необходимости самостоятельно управлять, устанавливать, обслуживать, применять исправления и выполнять другие действия с SSIS-серверами (рисунок 4). Дополнительные сведения о запуске SSIS в качестве «облачной» службы в ADF можно найти по адресу: https://docs.microsoft.com/en-us/azure/data-factory/tutorial-deploy-ssis-packages-azure.
Рисунок 4. Запуск пакетов SSIS |