Отрасль центров обработки данных стала неотъемлемой реальностью мира современных информационных технологий. Этот сегмент глобального ИТ-рынка успешно развивается и совершенствуется. В 2017 году, по данным компании 451 Research, число коммерческих ЦОД, предоставляющих розничные и оптовые услуги аренды (colocation) в различных странах мира, приблизилось к пяти тысячам.
С увеличением числа ЦОД все более серьезной задачей становится повышение уровня их готовности, сокращение отказов и сбоев ИТи инженерного оборудования. Согласно аналитическим исследованиям, убытки, которые несут предприятия в результате возникновения нештатных ситуаций, исчисляются сотнями миллионов долларов.
На рынке центров обработки данных, как, впрочем, и в других областях, утверждают эксперты, преуспевают в первую очередь те компании, которым в поисках путей роста удается выйти за рамки традиционных технологических и организационных решений и найти способ совместить зачастую противоречивые требования. Поэтому применение новейших технологий для повышения эффективности, отказоустойчивости и снижения эксплуатационных затрат ЦОД будет расширяться.
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В ЦОД
Искусственный интеллект наделяет машины способностью выполнять определенные интеллектуальные действия, на которые ранее были могут только люди. Благодаря применению новейших технологий, в том числе обеспечивающих визуальное восприятие происходящих событий и распознавание речи, такие машины могут собирать и обрабатывать данные, а также интерпретировать полученные результаты для автоматического принятия операционных решений.
В бизнесе, к примеру, ИИ может использоваться для прогнозирования — на основе данных из различных источников — последствий принятия стратегических бизнес-решений и, таким образом, позволяет оценить реакцию рынка. В промышленности и военном деле он может применяться для организации взаимодействия многочисленных подключенных к сети устройств, включая дроны и роботы, в процессе совместного выполнения ими коллективных заданий.
Владельцы современных центров обработки данных тоже используют искусственный интеллект и машинное обучение (во всяком случае, пытаются делать это) для решения вполне конкретных задач. Такими задачами являются, в числе прочего, сокращение времени простоя за счет прогнозирования рисков возникновения нештатных ситуаций, оптимизация режимов работы серверов и систем хранения данных, снижение энергозатрат, повышение эффективности комплексов охлаждения и оптимизация температурных режимов в машинных залах, рациональное использование ресурсов эксплуатационного персонала.
Компоненты искусственного интеллекта могут быть встроены и в коммерчески доступные платформы управления инфраструктурой ЦОД (Data Center Infrastructure Management, DCIM), что позволяет упростить решение некоторых из перечисленных задач и сократить объем операционных расходов.
Применение искусственного интеллекта в ЦОД начинает приносить плоды.
УПРАВЛЕНИЕ ИТ-ИНФРАСТРУКТУРОЙ
Облачная платформа предиктивного анализа InfoSight, которую компания HPE приобрела вместе с производителем твердотельных систем хранения Nimble Storage, позволяет выявлять и прогнозировать проблемы в ИТ-инфраструктуре.
InfoSight накапливает и анализирует данные, поступающие от датчиков, которые установлены в информационных системах более чем 10 тыс. заказчиков Nimble Storage, и обрабатывая свыше 1 млн событий в секунду. Система должна быстро обнаружить и идентифицировать причину возникшей проблемы, найти пути ее устранения на основе анализа текущей ситуации с использованием всего массива накопленных данных.
В базе данных InfoSight содержатся сведения, собранные в течение нескольких лет. Прогнозная аналитика реализуется облачным ПО компании VoltDB, математический аппарат которого базируется на авторегрессионных моделях прогнозирования и методе Монте-Карло. Это позволяет предвидеть наступление событий определенного рода — к примеру, дефицита емкости накопителей массива хранения или превышения пропускной способности системы ввода-вывода СХД (см. рис. 1).
Облачная платформа HPE InfoSight помогает выявлять и прогнозировать проблемы в ИТ-инфраструктуре |
В InfoSight применяются технологии машинного обучения и анализа значительных объемов информации. С начала 2018 года емкость базы данных, используемых для обучения, значительно возросла, так как теперь сфера действия платформы распространяется и на массивы хранения 3PAR StoreServ, оснащенных операционной системой 3PAR OS 3.3.1.
В первой версии HPE InfoSight для массивов HPE 3PAR реализован ряд интересных функций: анализ стеков виртуальных машин; обнаружение причин, вызывающих снижение производительности виртуальных машин, которые используют ресурсы систем хранения HPE 3PAR; выявление виртуальных машин, создающих проблемы для других рабочих нагрузок СХД.
В ходе использования InfoSight удалось установить, что в случае бизнес-приложений значительная часть проблем с производительностью операций ввода-вывода не связана непосредственно с массивами хранения. Сопоставление данных, полученных InfoSight, с другой диагностической информацией позволяет обнаружить узкие места на всем пути следования данных — от виртуальных машин до накопителей массивов хранения.
Платформа постоянно обучается, подчеркивают в HPE. По мере дальнейшей интеграции InfoSight с продуктами и решениями HPE алгоритмы искусственного интеллекта получат доступ ко все возрастающим объемам данных.
Функциональность InfoSight может стать основой для автономных ЦОД, в которых конфигурирование и системные настройки выполняются без вмешательства эксплуатационного персонала.
В компании Tegile Systems, выпуска ющей гибридные СХД, используют облачное аналитическое ПО интеллектуального управления IntelliCare Cloud Analytics, для мониторинга загрузки емкости массивов хранения, состояния их конфигураций, «здоровья» и производительности.
Облачная система, которая не требует установки серверных агентов, собирает данные с нескольких тысяч массивов хранения, установленных у заказчиков. Их анализ позволяет прогнозировать отказы компонентов, а также возникновение проблем с производительностью и ресурсами массивов.
ИНТЕЛЛЕКТ В КОМПЛЕКСАХ ОХЛАЖДЕНИЯ
Google применяет технологии искусственного интеллекта в своих центрах обработки данных для снижения энергозатрат, которые измеряются миллионами мегаватт-часов в год, а значит, и для сокращения расходов.
Для этого в 2014 году была приобретена компания DeepMind, где созданы программный комплекс AlphaGo, победивший профессионального игрока в го, а также нейронная сеть, способная обучаться видеоиграм. ПО DeepMind, разработанное для ЦОД Google, определяет оптимальные режимы работы системы охлаждения и обеспечивает управление оборудованием в режиме реального времени.
Программный комплекс DeepMind отслеживает более сотни различных параметров, характеризующих состояние инфраструктуры ЦОД или оказывающих на нее влияние. В их числе — показатели нагрузки ИТ-оборудования и скорости вращения вентиляторов в стойках, сведения о кондиционерах, градирнях и теплообменниках, информация о погоде и состоянии окон в помещениях.
В процессе разработки этого ПО учитывались данные о работе ЦОД Google в течение нескольких предыдущих лет. Алгоритмы анализа информации и управления на основе полученных выводов способны к самостоятельному обучению, что позволяет им работать в неопределенных заранее условиях.
В ЦОД установлено множество датчиков, поэтому сравнительный анализ текущих данных и гигантскихмассивов накопленной «исторической» информации, а также использование алгоритмов прогнозирования нейронных сетей позволяют учитывать малейшие нюансы постоянно меняющейся климатической обстановки в машинных залах. В результате, как утверждают разработчики DeepMind, им удается предсказать ожидаемое значение PUE с точностью 99,6%.
Благодаря использованию решений DeepMind на 40% сократились энергозатраты систем охлаждения центров обработки данных, в которых в основном установлено промышленное оборудование. Вклад именно этих систем в энергопотребление инженерного комплекса ЦОД весьма значителен, и оптимизация режимов их работы позволила добиться снижения показателя PUE на 15%.
Элементы искусственного интеллекта применяются также в системе охлаждения центра обработки данных Сбербанка в Сколково, максимальная потребляемая мощность которого составляет около 30 МВт. Этот ЦОД, рассчитанный на установку до 24 тыс. серверов, — крупнейший в нашей стране.
Для поддержания требуемой температуры в его машинных залах используется технология прямого охлаждения атмосферным воздухом, что позволяет климатической системе работать в режиме фрикулинга более 330 дней в году.
За управление отвечает программное обеспечение с компонентами искусственного интеллекта. На основе данных о температуре, погоде и сведений синоптиков это ПО оптимизирует охлаждение оборудования ЦОД и оценивает необходимость формирования запасов холода при прогнозируемом потеплении. Как ожидается, среднегодовое значение PUE в этом ЦОД составит 1,3.
«ИСКУССТВЕННЫЕ ЛЮДИ» КОМПАНИИ LITBIT
В стартапе LitBit работают над созданием цифровых помощников, наделенных искусственным интеллектом, которых в компании называют искусственными личностями (artificial personae). После обучения они приобретают определенные навыки и способны упростить работу различных специалистов, в частности, могут осуществлять автоматизированное управление разнообразными операциями в центрах обработки данных.
Для их обучения используется разработанный в LitBit интерфейс, который помогает общаться с artificial personae и снабжать их необходимыми сведениями. Обучением может заниматься любой сотрудник ЦОД, для этого не требуется знание тонкостей программирования, специализированных алгоритмов и других подобных вещей.
Разработчики поясняют, что на базе их решений могут создаваться цифровые помощники, обладающие инженерными навыками, которые помогут выявить аномалии в работе ЦОД и предотвратить возникновение опасных ситуаций. Утверждается, что такие помощники обладают функциональностью, позволяющей сопровождать и дополнять действия эксплуатационного персонала, а в определенных ситуациях и заменять некоторых специалистов.
Программные «персоны» Litbit получают сведения о внешнем мире с помощью технологий инфракрасного зрения, акустического контроля и обработки звуковой информации. Накопленные первичные данные используются для дальнейшей обработки.
К примеру, цифровых помощников можно научить прогнозировать и затем предотвращать сбои в работе серверов и сетевого оборудования. Для этого они должны анализировать звуки, издаваемые установленными в стойках источниками питания, и сравнивать полученные результаты с акустическими шаблонами, характеризующими стабильные режимы работы этих устройств.
А характеристики звуков и вибраций фальшпола и стоек предоставляют возможность оценить состояние аппаратных систем ЦОД и спрогнозировать деградацию их производительности в случае превышения пороговых значений исследуемых параметров.
Благодаря высокой продуктивности «искусственных личностей», способных обрабатывать сотни тысяч параметров в секунду, появляется возможность согласованно управлять в реальном времени различными системами центров обработки данных, а также накапливать полученные данные и использовать их для последующего анализа.
Цифровые помощники, поясняют в LitBit, способны взаимодействовать со сторонними службами, отправлять сообщения через корпоративный мессенджер Slack или выполнять голосовые команды Amazon Echo. Они осуществляют онлайнобработку естественного языка и поддерживают когнитивные вычисления.
В конце 2017-го началось внедрение технологий LitBit в канадской компании ROOT Data Center, предоставляющей услуги аренды площадей в двух центрах обработки данных в Монреале. Там намерены исследовать возможности «персон» LitBit для обеспечения безотказной работы ЦОД.
На первом этапе планируется применять искусственный интеллект помощника по имени Алекс для мониторинга работы дизель-генераторов. Установленные в корпусах ДГУ микрофоны способны улавливать звуковые отклонения от нормальных режимов работы, что позволяет прогнозировать дальнейшее поведение этих систем и предвидеть потенциальные отказы.
Как ожидается, за счет формирования и обучения различных инженерных помощников эксплуатационного персонала удастся повысить эффективность работы ROOT Data Center.
Технологию LitBit намерены использовать и в CBRE Group. Эта крупнейшая в мире компания со штаб-квартирой в Лос-Анджелесе оказывает услуги в сфере коммерческой недвижимости. Ее специалисты приступили к обучению цифрового помощника, которого назвали Remi (Risk Exposure Mitigation Intelligence): он должен освоить стандартные режимы функционирования оборудования, установленного в 800 центрах обработки данных, расположенных в разных странах мира.
Такое обучение, полагают в CBRE Group, позволит сконцентрировать опыт эксплуатационного персонала всех ЦОД в единой базе знаний, доступ к которой (в том числе посредством мобильных устройств) получит каждый специалист службы эксплуатации.
РОБОТЫ ЗАМЕНЯЮТ КОММУТАЦИОННЫЕ ПАНЕЛИ
В американской компании Wave2Wave разработана роботизированная система коммутации волоконно-оптических кабелей, которая автоматизирует формирование перекрестных соединений в узлах обмена трафиком (meet-me room) центров обработки данных.
Такие узлы (их называют также пиринговыми) обеспечивают не только подключение ЦОД и арендаторов их сервисов к каналам связи телекоммуникационных компаний, но и коммутацию таких соединений, в том числе для взаимодействия с новыми провайдерами услуг связи и непосредственного обмена данными между различными арендаторами сервисов ЦОД.
Созданная в Wave2Wave роботизированная платформа переключения оптических соединений (Robotic Optical Management Engine, ROME) за несколько секунд осуществляет оптические кросс-коммутацию без участия человека.
Эта платформа расширяет функциональность программного управления сетевой инфраструктурой, распространяя действие методов SDN (Software-Defined Networking) на ее нижний, физический уровень.
Устройства ROME, размещаемые в 19-дюймовых стойках, «прозрачны» по отношению к протоколам и скорости передачи трафика. Узел их логического управления (Logical Control Unit) устанавливается в шасси форм-фактора 1RU и работает на базе операционной системы реального времени и созданного для ROME программного обеспечения.
Управление механическими компонентами ROME осуществляется контроллерами Robotic Control Unit. Они используют системы с сервоуправлением, которые перемещают с точностью до одного микрометра две роботизированные «руки», захватывающие оптические кабели.
Основные модели оптических кроссов Wave2Wave — ROME 250 и ROME 500 на 256 и 512 волоконно-оптических соединений соответственно (см. рис. 2). Они выпускаются в модификациях с одномодовыми и многомодовыми (OM4) волоконно-оптическими кабелями.
Рис. 2. Платформа ROME распространяет действие методов программного управления на физический уровень сетевой инфраструктуры |
Эти автоматизированные коммутационные панели занимают вместе с узлом логического управления пространство 11RU в стандартной стойке. По данным разработчиков, установленные соединения сохраняются даже при отключении питания устройств ROME.
В компании Wave2Wave считают, что робототехника и искусственный интеллект могут применяться для автоматизации управления различными системами центров обработки данных. К примеру, ROME можно использовать для связи серверов и устанавливаемых в стойках коммутаторов top-of-rack, а также размещать их в различных местах сети ЦОД с дистанционным централизованным управлением.
ДРУГИЕ ПРИМЕРЫ
Машинное обучение открывает новые возможности в сфере управления центрами обработки данных. Анализ огромного числа переменных и учет множества одновременно действующих факторов все чаще оказываются невыполнимой задачей даже для высококвалифицированных специалистов, обладающих значительным опытом эксплуатации ЦОД.
В британской компании Romonet создали облачную платформу прогностической аналитики, которая способна анализировать стоимость активов ЦОД, оценивать влияние на нее инфраструктурных изменений и прогнозировать суммарную стоимость владения ЦОД (Total Cost of Ownership, TCO). Точность работы прогностической модели Romonet, по данным компании, достигает 97%.
Согласно опубликованным данным, в Intel применяют технологии Romonet, чтобы продемонстрировать преимущества процессоров, способных работать при повышенной температуре. Установка таких процессоров в серверах снижает TCO ЦОД.
Romonet внедряет в свою платформу технологии машинного обучения и моделирования, чтобы, используя накопленные за несколько лет данные и предиктивную аналитику, получать все более точные результаты. Моделирование, по данным компании, может осуществляться без установки многочисленных датчиков на основании сведений, содержащихся в проектной документации ЦОД.
В калифорнийском стартапе Coolan (компания входит в состав Salesforce. com), созданном одним из основателей Facebook Open Compute Project, решили с помощью машинного обучения и предиктивной аналитики повысить уровень готовности центров обработки данных, снизить число отказов и связанных с ними простоев.
Разработанное в компании решение собирает, агрегирует и хранит данные, характеризирующие состояние серверов заказчиков, режимы работы системы электроснабжения и т. п. Выдаваемые системой рекомендации о необходимости замены серверов и других мер позволяют более точно управлять инфраструктурой.
Salesforce приобрела Coolan для поддержки программы унификации своих ЦОД, предусматривающей сокращение типов серверов и повышение уровня автоматизации их эксплуатации.
В компании Vigilent из Кремниевой долины используют искусственный интеллект и машинное обучение для оптимизации в реальном времени температурных режимов в ЦОД и серверных помещениях. Обучение систем Vigilent начинается с момента их ввода в действие и продолжается в процессе дальнейшей эксплуатации.
Сбор данных о температуре для ПО динамического управления системой охлаждения Vigilent Dynamic Cooling Management осуществляется ячеистой сетью беспроводных датчиков, установленных в различных точках машинных залов. Важнейшим компонентом этого ПО является модуль DCIM Toolkit.
В компании поясняют, что предложенные ее разработчиками решения способны оптимизировать распределение тепла в ЦОД, устранить точки перегрева, повысить утилизицию охлаждающего оборудования, до 40% мощности которого в среднем расходуется нерационально.
Решение Vigilent, оптимизирующее соотношение мощности охлаждения и реальной ИТ-нагрузки, используется совместно с системой Siemens Demand Flow для управления работой холодильных машин, установленных в ЦОД. Кроме того, компания Schneider Electric заключила партнерское соглашение с Vigilent, чтобы встроить модуль Cooling Optimize в комплекс управления инфраструктурой ЦОД StruxureWare for Data Centers.
В компании Mindi Technologies, зарегистрированной два года назад в Великобритании, разрабатывают систему Autopilot на основе технологий искусственного интеллекта для прогнозирования различного рода нештатных событий в ЦОД, включая отказы ИТ- и инженерных комплексов, сбои системного ПО, проблемы с энергоснабжением, инциденты безопасности.
Сначала специалисты Mindi Technologies намерены заняться интеллектуальной балансировкой распределения ИТ-ресурсов серверов, одновременно поддерживающих несколько рабочих нагрузок, что даст возможность прогнозировать потребности в ресурсах и обеспечить стабильность работы приложений. В дальнейших планах — оптимизация загрузки серверов, позволяющая сократить число физических машин в ЦОД.
Amadeus IT Group, поставщик ИТ-сервисов для отрасли авиаперевозок, намерен применить искусственный интеллект платформы IBM Watson для мониторинга инфраструктуры центра обработки данных, в котором установлено более 10 тыс. серверов. В компании озабочены неэффективностью ручного мониторинга непредвиденных ситуаций и регулярными затруднениями при устранении проблем в условиях постоянного расширения спектра решаемых задач и повышения их сложности. Поэтому в Amadeus IT Group стремятся максимально автоматизировать управление, а также использовать искусственный интеллект для составления прогнозов и своевременного исправления неполадок без привлечения персонала.
ЛЮДИ И КОМПЬЮТЕРЫ
Согласно исследованиям компании Accenture, благодаря использованию искусственного интеллекта, в 2035 году рост экономики может составить 14 трлн долларов, а показатели рентабельности во всех сферах хозяйственной деятельности повысятся в среднем на 38%.
В Gartner считают, что почти треть центров обработки данных, попытки которых внедрить искусственный интеллект и машинное обучение окажутся безрезультатными, к 2020 году окажутся экономически неэффективными.
В свете подобных прогнозов внедрение искусственного интеллекта и других новейших технологий для автоматизации процессов в отрасли ЦОД является перспективным и востребованным решением.
С ростом масштабов ЦОД, как уже отмечалось, многие проблемы уже невозможно решить вручную. «ЦОДостроение» идет по пути создания программноуправляемых, самооптимизирующихся и самовосстанавливающихся центров обработки данных, персонал которых освобождается от многих рутинных операций. Вследствие автоматизации, роботизации и стандартизации постоянное присутствие в машинных залах высококвалифицированных специалистов служб эксплуатации ЦОД становится необязательным, и вполне естественно возникает вопрос о возможном сокращении персонала.
Однако многочисленные исследования аналитиков, опросы руководителей ИТ-предприятий и центров обработки данных свидетельствуют о том, что квалифицированных специалистов, работающих в области информационных технологий, не хватает. Поэтому высвобождающиеся в ходе автоматизации сотрудники не останутся без дела, но им, возможно, придется получать новые знания.
В PricewaterhouseCoopers, к примеру, считают, что в течение ближайших пяти лет нужно будет гораздо больше специалистов в области аналитики и робототехники.
Искусственный интеллект и машинное обучение способны значительно повысить эффективность центров обработки данных. Сегодня отрасль ЦОД находится в самом начале пути их внедрения, изменения парадигмы управления и распределения задач эксплуатации между людьми и компьютерами.