Новые возможности отказоустойчивой кластеризации Windows Server 2012

В статье «Диагностика проблем кластеров Windows Server 2008 R2», опубликованной в Windows IT Pro/RE № 10 за 2012 год, речь шла о том, как выявить и устранить неисправности отказоустойчивых кластеров. В частности, были даны рекомендации по получению необходимых данных для диагностики проблем. Группа сопровождения программного продукта Microsoft проанализировала ряд основных неполадок и усовершенствовала соответствующие аспекты отказоустойчивой кластеризации в Windows Server 2012. .

Границы масштабируемости

Для Server 2012 максимальное число узлов в кластере увеличено до 64. При использовании кластера на базе Hyper-V с виртуальными шинами высокой надежности предельное число виртуальных машин увеличено до 4000 на кластер и 1024 на узел.

Помимо расширения границ, диспетчер серверов теперь обладает способностью обнаруживать и обеспечивать возможности удаленного управления. В скомпонованном кластере диспетчер серверов не только позволяет видеть все узлы, включая имя кластера и все виртуальные машины, но и в состоянии определить, где можно осуществлять удаленное управление (экран 1). Эта возможность позволяет включать дополнительные роли и функции на удаленном компьютере.

Экран 1. Настройка удаленного управления

Новый уровень интеграции с AD

Обнаружение в Active Directory (AD) объекта, создаваемого кластером в процессе его построения, выведено на новый уровень. Объект создается кластером в том же организационном подразделении (OU), где находятся узлы. Объект имени кластера (CNO) создается под учетной записью пользователя, запустившего сеанс работы, так что активная учетная запись должна обладать полномочиями просмотра и создания элементов. Чтобы обойти обнаружение или разместить объект в другом OU, это можно указать при создании кластера. Например, чтобы поместить объект имени кластера в OU Cluster, нужно указать следующее имя, см. экран 2.

Экран 2. Помещение имени кластера в OU Cluster

Аналогичный результат достигается с помощью команды PowerShell:

New-Cluster «CN=WIN2012-CLUSTER,OU=Cluster,DC=Contoso,DC=com»–Node WIN2012-Node1,WIN2012-Node2,WIN2012-Node3,WIN2012-Node4

Настройка кворума

Настройка кворума упрощена; реализована новая динамическая модель кворума, теперь активируемая по умолчанию при создании кластера. Можно также вручную удалять узлы из числа участников голосования. Мастер настройки кворума кластера предлагает на выбор три варианта.

Использовать типовые параметры (рекомендуется). Кластер определяет параметры управления кворумом и при необходимости выбирает свидетеля кворума.
Добавить или изменить свидетеля кворума. Пользователь может выбрать свидетеля кворума. Параметры кворума определяет кластер.
Расширенный выбор конфигурации и свидетеля кворума. Параметры управления кворумом и свидетеля кворума определяет пользователь.

При выборе типовых параметров мастер устанавливает динамический тип кворума, при котором число голосов меняется в зависимости от числа узлов-участников. Работа кластера зависит от кворума или консенсуса голосов. Каждый узел в кластере имеет голос. Если используется диск-свидетель или ресурс-свидетель, то это еще один голос. Для поддержания работы кластера необходимо, чтобы работало более половины участников голосования. Рассчитать достаточное число голосов можно по формуле (общее число голосов + 1)/2. У меня в кластере без диска-свидетеля имеется девять узлов. По приведенной выше формуле получается, что для поддержания работы кластера необходимо (9 + 1)/2 = 5 голосов.

Рассмотрим кластер Server 2008 R2 в сравнении с кластером Server 2012. Кластеру Server 2008 R2, включающему девять узлов, для функционирования необходимы пять работающих голосов (узлов). Если работают только четыре узла, служба кластера прекращает функционирование, поскольку остающихся голосов недостаточно. В такой ситуации администратор вынужден вручную запускать кластер и возвращать его в рабочий процесс. В отказоустойчивом кластере Server 2012 в случае отказа одного из узлов число голосов, необходимых для работы кластера, динамически уменьшается. В нашем примере с девятью узлами (голосами) если один узел (голос) выходит из строя, то общее число узлов становится равным восьми. При отказе еще двух узлов это число снижается до шести. Кластер Server 2012 будет продолжать работать, не требуя вмешательства администратора. Динамический кворум – это установка по умолчанию и рекомендуемый параметр настройки для кластеров Server 2012.

Для изменения свидетеля кворума в меню, открываемом щелчком правой кнопки мыши на имени кластера на крайней левой панели, выберите More Actions («Дополнительные действия») и Configure Cluster Quorum Settings («Задать параметры кворума кластера») (см. экран 3). Мастер позволяет задать диск-свидетель, файловый ресурс-свидетель, либо оставить кворум динамическим. В дополнительных настройках задаются узлы, обладающие правом голоса в кластере (см. экран 4). Кворум достигается с участием всех узлов в голосовании. При снятии флажка узел лишается голоса. В приведенном ранее примере с кластером Server 2008 R2, включающим девять узлов, в голосовании участвуют только восемь узлов, поэтому требуется добавление диска-свидетеля или ресурса-свидетеля. Если в кластере Server 2008 R2 или Server 2012 в рабочем состоянии остается только узел, не участвующий в голосовании, служба кластеров останавливается, и требуется вмешательство администратора.

Экран 3. Изменение настроек кворума

Экран 4. Выбор узлов кластера, участвующих в ?голосовании

На следующем экране мастера настройки кворума кластера можно выбрать или отменить выбор динамического кворума (см. экран 5). Как показано на экране, параметр по умолчанию выбран, и он же является рекомендуемым параметром. Изменить настройку кворума и добавить диск-свидетель или ресурс-свидетель можно на следующем экране мастера.

Экран 5. Страница настройки управления кворумом

Проверка кластера

Реализован ряд усовершенствований проверки кластера. В частности, значительно повышена скорость выполнения тестов хранилища. В ходе этих тестов выполняются измерения, позволяющие установить, какой узел может видеть накопители, определить отработку отказов – индивидуальную и групповую, проверить возможности изъятия накопителя с каждого из узлов и т.д. В отказоустойчивых кластерах Server 2008 R2 при наличии большого числа дисков тесты хранилища занимали много времени. Для кластера Server 2012 тесты оптимально организованы и выполняются значительно быстрее. Введен новый параметр, который позволяет выбрать конкретное логическое устройство (LUN) или подмножество устройств в качестве объектов тестирования (см. экран 6).

Экран 6. Страница настройки управления кворумом

Введены новые тесты для общих томов кластера (CSV), Hyper-V и виртуальных машин. Эти тесты позволяют убедиться в том, что в сетевых настройках заданы рекомендуемые параметры, между компьютерами установлены сетевые соединения, настроена быстрая/динамическая миграция, на всех узлах созданы одинаковые сетевые коммутаторы и т.д.

Мониторинг виртуальных машин кластера

Для виртуальных машин высокой надежности в кластере с ролью Hyper-V доступна новая функция мониторинга виртуальных машин Virtual Machine Monitoring. Эта функция позволяет реализовать службы отказоустойчивой кластеризации, относящиеся к мониторингу, внутри виртуальных машин и адекватно реагировать при наличии проблем. Например, для виртуальной машины со службами печати можно организовать контроль службы очереди печати принтера (Print Spooler). Для этого нужно выполнить следующие действия.

В окне управления отказоустойчивым кластером щелкните правой клавишей нужную виртуальную машину.
В открывшемся меню выберите More Actions («Дополнительные действия»).
Выберите Configure Monitoring («Настроить мониторинг»).
Выберите службу или службы, которые требуется контролировать.

Аналогичного результата можно достичь с помощью команды PowerShell:

Add-ClusterVMMonitoredItem –VirtualMachine «VM Name» –Service Spooler

Теперь функция отказоустойчивой кластеризации будет отслеживать состояние виртуальной машины и службы, выполняя периодические контрольные проверки. Обнаруженная неполадка контролируемой службы рассматривается как критическое состояние. При этом на узле регистрируется соответствующее событие, например:

Event ID: 1250

Source: FailoverClustering

Description: Cluster Resource «Virtual Machine Name» in clustered role «Virtual Machine Name» has received a critical state notification. For a virtual machine this indicates that an application or service inside the virtual machine is in an unhealthy state. Verify the functionality of the service or application being monitored within the virtual machine.

Затем выполняется перезапуск виртуальной машины (принудительное, но постепенное выключение) на том узле, где она в данный момент функционирует. При повторном отказе виртуальная машина перемещается на другой узел и вновь перезапускается. Мониторинг виртуальных машин позволяет реализовать необходимый для ваших виртуальных машин режим контроля на более тонком уровне детализации. Дополнительным преимуществом являются периодические проверки работоспособности. Без функции мониторинга виртуальных машин проблемная служба остается в неработоспособном состоянии до вмешательства администратора.

Служба обновления кластеров

Служба обновления кластеров Cluster Aware Updating (CAU) – это очередное нововведение в отказоустойчивой кластеризации Server 2012. Данная функция автоматизирует обновление программного обеспечения (устанавливает исправления безопасности) и поддерживает работоспособное состояние кластера. CAU выполняет следующие действия:

применение обновлений к кластеру;
предварительный просмотр обновлений кластера;
создание или изменение профиля выполнения обновлений;
построение отчета о прошлых циклах выполнения обновлений;
настройка параметров самообновления кластера;
анализ готовности кластера к обновлению.

CAU совместно с агентом обновления Windows (WUA) и службами Windows Server Update Services (WSUS), действующими в данной инфраструктуре, обеспечивает применение важных обновлений Microsoft. Реализуемый CAU процесс обновления включает следующие шаги.

Перевод всех узлов кластера в режим обслуживания.
Удаление ролей узла в кластере. В случае виртуальных машин высокой надежности – выполнение динамической миграции виртуальных машин.
Установка обновлений и всех зависимых обновлений.
При необходимости – перезагрузка узла.
Вывод узла из режима обслуживания.
Восстановление ролей узла в кластере.
Переход к обновлению следующего узла.

CAU можно запустить из диспетчера сервера, диспетчера отказоустойчивого кластера или с удаленного узла. Ниже приведены рекомендации, которые следует учитывать при настройке.

— Не следует настраивать узлы на автоматическое обновление под управлением службы Windows Update или сервера WSUS.

— Все узлы кластера должны быть настроены на использование одного и того же источника обновлений (сервер WSUS, служба Windows Update или служба Microsoft Update).

— Если обновление выполняется с использованием Microsoft System Center Configuration Manager 2007 и Microsoft System Center Virtual Machine Manager 2008, исключите узлы кластера из процесса выполнения требуемых или автоматических обновлений.

— Если для развертывания обновлений используются внутренние серверы распространения программного обеспечения (например, серверы WSUS), убедитесь в том, что эти серверы правильно определяют одобренные обновления для узлов кластера.

— Проанализируйте предпочтительные параметры ролей в кластере. Эти параметры должны обеспечивать распределение ролей по узлам кластера после выполнения процесса обновления.

Альтернативные подключения

В предыдущих версиях подключение к общему ресурсу можно было выполнить только с использованием точки клиентского доступа Client Access Point. Подробнее об этом рассказано в заметке «File Share ‘Scoping’ in Windows Server 2008 Failover Clusters» (http://blogs.technet.com/b/askcore/archive/2009/01/09/file-share-scoping-in-windows-server-2008-failover-clusters.aspx). Единственный вариант установления соединения ограничивал возможности доступа клиентских компьютеров к общим каталогам. Для администраторов это было проблемой, поскольку во многих случаях затрудняло консолидацию серверов, для осуществления которой требовалось учитывать дополнительные аспекты, что, в свою очередь, увеличивало время вынужденного бездействия при выполнении консолидации. В Server 2012 отказоустойчивая кластеризация предусматривает возможность подключаться к общим ресурсам с использованием виртуального сетевого имени, виртуального IP-адреса или псевдонима CNAME, создаваемого на DNS.

Заметим, что для использования псевдонима CNAME необходима дополнительная настройка имени. Например, чтобы организовать доступ к файловому ресурсу с сетевым именем TXFILESERVER по псевдониму TEXAS на DNS, можно построить следующий конвейер команд PowerShell:

Get-ClusterResource «TXFILESERVER» | Set-ClusterParameter Aliases TEXAS

После выполнения этих команд ресурс необходимо отключить от сети и вновь подключить, чтобы псевдоним вступил в действие и по нему можно было подключаться.

При установлении соединения по IP-адресу или альтернативному имени аутентификация будет осуществляться не по протоколу Kerberos, а по протоколу NTLM. Поэтому, хотя установление соединения с использованием альтернативных методов имеет более гибкие свойства, за это придется расплачиваться менее безопасной аутентификацией по NTLM.

Новые возможности общего тома кластера CSV

Новые возможности CSV, перечисленные ниже, облегчают настройку, расширяют пределы допустимой рабочей нагрузки, повышают уровень безопасности и производительности для разнообразных развернутых систем.

Возможности хранения для горизонтально масштабируемых файловых серверов, а не только для виртуальных машин высокой надежности.
Новая файловая система CSV Proxy File System (CSVFS) с единым согласованным пространством имен файлов.
Поддержка шифрования диска BitLocker.
Прямой ввод-вывод для доступа к файлам, повышающий эффективность создания и копирования виртуальных машин.
Устранение отношений зависимости внешней проверки подлинности, когда контроллер домена (DC) недоступен.
Интеграция с протоколом сообщений сервера SMB 3.0 для обеспечения работы с файловыми серверами, виртуальными машинами Hyper-V и приложениями, такими как SQL Server.
Использование функций SMB Multichannel и SMB Direct, позволяющих задействовать несколько сетевых соединений для передачи данных CSV, и сетевых адаптеров с поддержкой протокола прямого доступа к памяти удаленного компьютера RDMA.
Сканирование и исправление ошибок томов с нулевым временем автономности; проблемы выявляются, регистрируются и устраняются при сохранении доступа к накопителям CSV.

Горизонтально масштабируемые файловые серверы

Горизонтально масштабируемые файловые серверы позволяют организовать расширяемое хранилище на базе протокола SMB 3.0 и CSV. Преимущества горизонтально масштабируемых серверов перечислены ниже.

Организация файловых ресурсов в режиме «активный/активный», когда все узлы принимают и обслуживают клиентские запросы SMB. Это обеспечивает прозрачную отказоустойчивость узлам кластера в ходе планового обслуживания и внеплановых мероприятий в случае отказов.
Повышение общей пропускной способности узлов файловых серверов. Устранение проблемы пропускной способности, когда запросы всех клиентских компьютеров приходят на один узел. В таких случаях клиентское соединение прозрачно переключается на другой узел, и обслуживание клиента продолжается без нарушения работы сети. На сегодня горизонтально масштабируемый файловый сервер включает максимум восемь узлов.
CSV выводит скорость проверки диска Chkdsk на новый уровень за счет отказа от этапа автономности. При использовании файловой системы CSVFS проверки Chkdsk не влияют на работу приложений.
Еще одно новшество – кэш CSV, позволяющий повысить производительность для некоторых сценариев, например для виртуальной инфраструктуры рабочих столов VDI.

Горизонтально масштабируемые файловые серверы – идеальное решение для SQL Server и Hyper-V. Концептуально они ориентированы на приложения, при работе которых файлы остаются открытыми на протяжении длительного времени, как для большинства операций над данными. База данных SQL Server или. vhd-файл виртуальной машины Hyper-V предполагают выполнение множества операций с данными (то есть изменения в самом файле), но не так много обновлений метаданных. Данное решение не следует использовать в качестве общего ресурса пользовательских данных, если рабочая нагрузка предусматривает большое число обновлений метаданных NTFS. При использовании файловой системы NTFS обновление метаданных выполняется при осуществлении таких операций, как открытие-закрытие файлов, создание новых файлов, переименование и удаление файлов и т.д., то есть операций, предполагающих внесение изменений в файловую систему на накопителе.

Непрерывное совершенствование

Разработчики Microsoft проделали большую работу, чтобы удовлетворить пожелания пользователей в отношении возможностей отказоустойчивых кластеров. Недостатки, отмечавшиеся в предыдущих версиях, в новой версии превращены в достоинства.