Интегрированные решения, предлагаемые компанией Fujitsu Siemens Computers, самостоятельно справляются со многими задачами, которые традиционно «вручную» выполнял оператор
Человеческий фактор всегда создавал слабые места в вычислительном процессе. Ошибки оператора или системного администратора могут сделать ненадежной любую отказоустойчивую систему. А несвоевременная реакция обслуживающего персонала на возникновение тех или иных событий способна привести к ухудшению качества обслуживания.
Наиболее отрицательные последствия все это имеет для центров обработки данных, и в первую очередь именно для них предназначены так называемые «автономные компьютерные системы» — интегрированные решения, предлагаемые ведущими ИТ-производителями, в том числе компанией Fujitsu Siemens Computers.
Собственно, сам эпитет «автономные» (autonomic), или «самоуправляемые», указывает на то, что системы эти функционируют без вмешательства человека. Понятно, что компьютер и работающие на нем программы уже действуют во многом «сами по себе». Когда же говорится об автономных системах, имеется в виду перенос на плечи аппаратно-программного обеспечения тех функций, которые традиционно «вручную» выполняет оператор или системный администратор.
Автономные системы способны гарантировать обеспечение нужного сервиса пользователям (то есть увеличить доступность) при уменьшении общей стоимости владения. Минимизация TCO обеспечивается за счет упрощения работы обслуживающего персонала и уменьшения объема этой работы, а также оптимизации всей ИТ-инфраструктуры. При этом сам обслуживающий персонал может сосредоточиться на задачах более высокого уровня. Применение автономных систем способствует улучшению использования программных и аппаратных ресурсов за счет их динамической адаптации к текущей рабочей нагрузке.
Концептуальное единство
Общая концепция построения автономных систем от FSC называется SysFrame. Сегодня существует два типа ее конкретных реализаций для двух наиболее популярных корпоративных систем — FlexFrame for Oracle Application Server/Real Application Cluster и FlexFrame for mySAP.
Сама по себе концепция SysFrame является платформенно независимой. Она базируется на применении ряда фундаментальных технологий, которые сами по себе хорошо известны. Среди них в первую очередь нужно указать на виртуализацию ресурсов. Последняя вовсе не обязательно связана с модной ныне виртуализацией серверов, обеспечиваемой средами типа VMWare для х86-совместимых компьютеров. Это может быть вообще виртуализация логических томов жестких дисков, которая обеспечивается сетями хранения.
Вместе с избыточностью, обеспечиваемой путем создания пула функционально эквивалентных устройств, виртуализация помогает обеспечить динамическую реконфигурацию (то есть добавление, удаление или замену) ресурса, необходимую для всех автономных систем. В случае применения мощных многопроцессорных серверов для поддержания динамической реконфигурации могут применяться средства парционирования, или разбиения всего сервера на логические или физические разделы; такие средства реализованы, например, в серверах FSC Primepower.
В функциональном плане концепция SysFrame включает четыре основные группы задач, или функций, — самоконфигурирование, самооптимизация, самолечение и самозащита (частичка «само» означает, естественно, отсутствие вмешательства человека). Смысл этих функций интуитивно понятен. К примеру, самолечение включает автоматическое восстановление при сбоях, а самозащита относится к вопросам компьютерной безопасности.
Остановимся подробнее на ключевом понятии SysFrame — концепции «автономного цикла», который применительно к реализации FlexFrame for Oracle представлен на рисунке. Свой автономный цикл можно изобразить для каждой из перечисленных групп задач автономных систем.
В автономном цикле можно выделить четыре последовательно выполняемых блока действий; используем эту схему для более точного соответствия реализациям FlexFrame для кластеров с серверами Primergy (в оригинальной концепции SysFrame из-за большей детализации представлено пять блоков):
-
мониторинг — действия, включающие отслеживание использования ресурсов, уровня рабочей нагрузки, событий, — в том числе в смысле компьютерной безопасности и т. д.;
-
анализ данных, полученных при мониторинге;
-
адаптация — принятие решений, то есть формирование «мероприятий», набора акций на основе заранее сформулированной политики обработки, которая адаптируется под новую ситуацию;
-
выполнение запланированных мероприятий, обеспечивающее разрешение проблемной ситуации.
Практика автономных систем
FSC предлагает два программных продукта, реализующих концепцию SysFrame, — FlexFrame for mySAP (FF4SAP) и FlexFrame for Oracle (FF4O).
Ограничимся рассмотрением аппаратно-программной платформы, «серверы Primergy плюс ОС Linux». Эта платформа популярна, поскольку основана на недорогих одно- и двухпроцессорных серверах «стандартной» архитектуры. Оба программных продукта базируются на SysFrame.
Помимо общей концепции SysFrame, решения FF4SAP и FF4O базируются на сходной аппаратно-программной конфигурации. В обоих случаях функции автономных систем возложены на отказоустойчивый двухузловой кластер (Control Center, CC). В обоих случаях применяется единая подключаемая к сети система хранения. Наконец, кроме общего пула внешней памяти, используется и общий пул серверов, в качестве которых, в типичном случае, могут применяться серверы-лезвия Primergy. В обоих программных продуктах в системе хранения размещены общие для всех серверных узлов образы Linux и общие для узлов приложения — SAP или Oracle; однако узлы эти в FF4SAP называются прикладными, а в FF4O — вычислительными. И образы операционных систем, и приложения могут динамически загружаться на любой из узлов или, наоборот, «освобождать» любой узел в зависимости от решений, принимаемых автономной системой, направленных на обеспечение оптимизации нагрузки и достижение политики руководства центром обработки данных.
В FF4SAP поддержку адаптивности осуществляет программное обеспечение SAP Adaptive Computing Controller и так называемые «автономные агенты» FlexFrame от FSC. В случае FF4O адаптивность реализуется в первую очередь через программное обеспечение FSC Adaptive Service Control Center (ASCC) и Oracle Grid Control. Остановимся на более новом продукте, FF4O.
Конфигурация аппаратно-программных средств, на которых может работать FF4O, включает два узла СС на базе Primergy (скажем, RX300-S2 или лезвия BX620-S2) и вычислительные узлы (BX620-S2 с процессорами Intel Xeon или BX630 с процессорами AMD Opteron).
На всех узлах устанавливается ОС Linux, например, SUSE Linux Enterprise Server. Программное обеспечение «со стороны» Oracle — из состава Oracle 10g — включает Application Server Cluster и RAC Cluster, а также средства Enterprise Manager Grid Control. Программное обеспечение от FSC включает, кроме ASCC, IP Load Balancer, Gridpack и средства Netboot — для удаленной загрузки на серверах образа операционной системы (через PXE). Набор вычислительных узлов формирует однородную ферму серверов, каждый из них может быть загружен для использования любым сервисом Oracle. Время автоматической подготовки сервера к выполнению таких новых функций (включая загрузку и операционной системы, и приложений) составляет несколько минут. Здесь необходимо отметить, что для каждого сервиса FF4O предполагается использование собственного сервера, что упрощает динамическую адаптацию под рабочую нагрузку.
Перезапуск сервисов осуществляет ASCC, который и реализует все четыре основных функциональных блока автономного цикла. ASCC занимается мониторингом отказов реальных и виртуальных ресурсов, анализирует полученные результаты, принимает решения об адаптации (например, о добавлении сервера с данным сервисом или «деинсталляции» сервера с данным сервисом с целью его последующего применения для других функций).
Мониторинг ASCC осуществляет (используя Grid Control) по отношению к серверу приложений и серверам баз данных на предмет анализа времени ответа, общей производительности, нагрузки, доступности сервисов и приложений. В случае отклонения от установленных «критериев качества» (и, в частности, сбоя какого-либо сервера) ASCC автоматически инициирует заранее определенные действия в соответствии с заранее определенными правилами. Эти критерии и правила формируются при настройке FF4O.
Управление рабочей нагрузкой ASCC осуществляет на основе установленной «политики» в терминах Oracle Grid Control или путем применения адаптации в зависимости от времени, в которое выполняется приложение (скажем, добавление ресурсов для обеспечения потенциально возрастающего объема закупок в Internet-магазине в преддверии Рождества).
ASCC взаимодействует со средствами Grid Control, которые следят за базами данных и серверами приложений. В случае если Grid Control, выполняемые на вычислительном узле, перестанут работать из-за сбоя, ASCC их подгрузит автоматически. Для запуска конкретной службы на каком-либо свободном сервере из пула серверов ASCC использует средства Netboot.
Netboot загружает образ операционной системы, централизованно содержащийся в системе хранения, создавая в ней собственную операционную систему для данного узла. Далее монтируется файловая система, содержащая дерево каталогов приложения. Локальные диски узлов используются только для средств подкачки страниц Linux. За межсетевое взаимодействие ASCC и Netboot отвечает другой компонент FF4O, — Gridpack.
В интегрированный программный продукт FF4O входит еще один предлагаемый FSC компонент, IP Load Balancer. Он «расположен» между локальной сетью, используемой клиентом, и Application Server Cluster, и служит для распределения нагрузки между Web-серверами (и средствами их кэширования), которые обращаются к Java-контейнерам при работе с приложениями Oracle. При этом все программные средства «после» IP Load Balancer работают уже в IP-сети с личными адресами.
Как работает FlexFrame
Общая концепция построения автономных систем от FSC называется SysFrame. Сегодня существует два типа ее конкретных реализаций для двух наиболее популярных корпоративных систем — FlexFrame for Oracle Application Server/Real Application Cluster и FlexFrame for mySAP