Модернизация и стратегические ИТ

В конце 2008 года в российском правительстве был поднят вопрос о модернизации и уходе от сырьевой направленности. Один из аспектов такой модернизации – стратегические ИТ, первоочередные задачи развития которых были обнародованы в начале 2010 года: кластерные суперкомпьютеры уровня петафлопной пиковой производительности (Саров и МГУ); высокопроизводительные рабочие станции для инженерных расчетов; системное и прикладное программное обеспечение для важнейших отраслей промышленности; электронный документооборот; обеспечение образования; электронные торги.

В этом перечне, однако, пока нет еще одного направления, соответствующего более узкому пониманию стратегических ИТ – как специальных стратегических ИТ, для развития которых в середине прошлого десятилетия в США, Японии и Китае [1,2] были начаты программы федерального уровня по созданию перспективных высокопродуктивных суперкомпьютеров стратегического назначения (СКСН). Похожие работы велись и в России.

Важность темы специальных стратегических ИТ и создаваемых с их применением СКСН обусловлена тем, что после преодоления уровня производительности в несколько петафлопов, в период 2010-2015 годов за рубежом планируется создать СКСН с реально развиваемой на конкретных задачах экзафлопной производительностью. Это будут качественно новые суперкомпьютеры, позволяющие решать новые задачи национальной безопасности и важнейшие научно-технические задачи. Приобретение СКСН – современных и будущих – практически невозможно, поскольку специальные стратегические ИТ по важности сравнимы сегодня с новейшими военными разработками.

Технологии и проекты

Выделяют четыре уровня применения высокопроизводительных систем: лаборатория, отдел, предприятие, государственная служба. Типичные организации последнего уровня: центры Лос-Аламос, Ливермор, Арзамас и Снежинск, вычислительные центры разведывательных служб (АНБ, ЦРУ), системы управления войсками (генеральные штабы и главные штабы родов войск). Это уровень применения СКСН. Технологии создания и использования СКСН принято называть стратегическими ИТ, в этом и состоит более узкое понимание этого термина.

Стратегические ИТ можно разделить на коммерчески доступные (общие) и специальные стратегические ИТ, которые в большей степени определяют глобально значимый уровень СКСН и лидирующие позиции современного государства. Именно здесь используются самые последние результаты фундаментальных исследований в областях построения процессоров, коммуникационных сетей, памяти, вычислительных моделей, программных средств, микроэлектронных и оптических технологий.

Во врезках даны примеры зарубежных проектов развития специальных стратегических ИТ и создания на их основе СКСН, общими свойствами которых являются глобально адресуемая память объемом в десятки петабайтов и способность достигать реальной транспетафлопной производительности даже при решении задач, требующих интенсивной нерегулярной работы с памятью. Сегодня здесь лидируют США, где осуществляются программы DARPA HPCS; федеральный план 2004 года организации фундаментальных исследований и разработок; программа DARPA PCA создания бортовых суперкомпьютеров нового полиморфного типа, адаптируемых как к выполнению высокопроизводительного счета, так и к режимам интенсивной нерегулярной работы с памятью.

Проблемы

Первая проблема – крайне низкая реальная производительность современных суперкомпьютеров (0,1-5% пиковой), которую они развивают на многих стратегических задачах, причем увеличение количества узлов только усугубляет ситуацию, а это означает не только катастрофически неэффективное использование оборудования и напрасные затраты энергии, но и невозможность решения важнейших для государства задач.

Вторая проблема – низкая реальная продуктивность программирования суперкомпьютеров. Третья проблема – ослабление прямого влияния закона Мура на рост производительности процессорных ядер (началось с 2002-2003 года) и ожидание прекращения его действия после 2015 года, если не будут приняты меры. Это означает, что роста производительности микропроцессоров просто за счет улучшения технологий уже не будет, нужны изменения в архитектуре и микроархитектуре. Появление многоядерности – первая реакция такого типа на ослабление действия закона Мура.

Четвертая и пятая проблемы – обеспечение масштабируемости производительности и отказоустойчивости, рост энергопотребления и сложности теплоотвода.

Почему происходит падение реальной производительности? Причина в том, что операции даже с внутриузловой памятью выполняются слишком долго, в сотни раз медленнее, чем операции в процессоре. Если же работать через единое адресное пространство с памятью многих узлов, как требуют современные задачи, то добавляются еще тысячи тактов на прохождение коммуникационной сети. Такая диспропорция времен выполнения операций с памятью и в процессоре получила название «стена памяти».

Для ряда задач эта «стена» себя не проявляет – при их решении можно эффективно использовать быструю кэш-память небольшого объема (задачи с хорошей пространственно-временной локализацией, Cache Friendly). Однако приложения, непосредственно связанные с обеспечением национальной безопасности, такой локализацией не обладают – это системы с интенсивным доступом к данным (Data Intensive System, DIS), в таких приложениях обращения к одним и тем же участкам памяти редки, а адреса обращений к памяти слабо предсказуемы. Именно на DIS-задачах и происходит падение реальной производительности из-за простоя процессоров при ожидании данных из памяти.

Требования

Формулировка требований к СКСН, а также оценка их характеристик производится сейчас с использованием набора разнообразных тестов [1] – применение только какого-либо одного теста не позволяет адекватно оценить возможности системы. Например, суждение о возможностях системы на основе лишь ее высоких пиковых характеристик производительности на тесте Linpack будет неполным, поэтому попадание в Top 500 считается среди специалистов эфемерной победой. Для создаваемых СКСН требуется получить производительность более 2 PFLOPS по тесту Linpack, что можно считать небольшим продвижением по отношению к современному уровню. Более важна цель на тесте Random Access добиться производительности 64000 GUPS (Giga Updates Per Second – «миллиард коррекций в секунду»). Например, рекорд конца 2009 года на лидере Top 500, суперкомпьютере IBM BlueGene/P, – 117 GUPS, а для кластеров «Ломоносов» (Россия) и «Млечный путь» (Китай) – лишь единицы GUPS, хотя эти системы располагаются в верхних, престижных строках Top 500.

В 2010 году должны появиться первые СКСН, построенные в рамках программы DARPA HPCS: Cray Baker и IBM PERCS (Blue Waters). По оценке на тесте Linpack, их производительность будет 2-3 PFLOPS и 10 PFLOPS соответственно, однако об оценках в GUPS разработчики пока стараются не упоминать – это принципиальные и закрытые от широкой общественности параметры. Однако зачем нужны такие экзотические по современным понятиям суперкомпьютеры с невиданными характеристиками в GUPS? В таблице приведена чувствительность задач из разных прикладных областей к шести основным характеристикам суперкомпьютеров.

Обычно в модных сейчас рассуждениях по поводу суперкомпьютеров упоминается лишь первая из характеристик, названных в таблице, однако в эпоху Интернета и информационных войн много важнее остальные. Наиболее чувствительны к таким характеристикам задачи обработки и анализа разведывательной информации.

Перечень ключевых приложений для СКСН программы DARPA HPCS, имеющих уникальные возможности работы с огромной глобально адресуемой памятью, дается в [1]: оперативное предсказание погоды и состояния мирового океана; радиоэлектронная разведка; разведка, наблюдение, рекогносцировка; распространение загрязнений в воздушной среде; разработка вооружений; неуязвимость и скрытность («стелс-технологии»); техническое проектирование крупногабаритных летательных аппаратов, кораблей и сооружений; биотехнологии. Можно добавить традиционные для СКСН задачи разработки ядерных боезапасов и контроля боеготовности ядерных арсеналов, а также новые задачи социологии, в том числе боевой социологии сетевых войн, задачи обнаружения террористических угроз. Это все области, где отставание рано или поздно обернется угрозой национальной безопасности той или иной страны. К сожалению, сегодня работы по новым специальным стратегическим ИТ и перспективным СКСН в России практически не ведутся.

Итак, важнейшие требования к перспективным СКСН:

  • обеспечение высокой производительности на задачах класса Cache Friendly;
  • повышение на три-четыре порядка производительности на задачах класса DIS;
  • увеличение объема доступной через общее адресное пространство памяти на четыре–шесть порядков;
  • достижение уровня продуктивности программирования в 10-40 раз выше современного;
  • обеспечение повышенной защищенности от информационных атак;
  • повышенная отказоустойчивость и готовность;
  • обеспечение адаптивности к особенностям задач.

Для выполнения этих требований в зарубежных программах создания СКСН применяются три основные стратегии:

  • обеспечение эффективности за счет работы с памятью и сетью со скоростью, определяемой не задержками выполнения операций с ними, а их пропускной способностью;
  • использование управляемой локализации не только данных при вычислениях, но и вычислений при данных;
  • использование метода управления высокопараллельными и асинхронными вычислениями посредством потоков данных.

Применяемые стратегии определили архитектурные особенности этих СКСН, которые состоят в следующем:

  • существенно преобразованная архитектура процессора за счет введения массовой мультитредовости в его организацию (одновременное выполнение аппаратурой множества потоков команд с быстрым переключением между потоками), аппаратной поддержки работы
    с сегментно-страничной глобально адресуемой памятью, расширенным набором выполняемых операций с памятью, повышенной
    отказоустойчивостью;
  • адаптивная коммуникационная сеть высокой связности, оптимизированная по задержкам и пропускной способности, отказоустойчивости и энергетике для работы с огромными потоками как коротких,
    так и длинных пакетов сообщений;
  • модули памяти с высокой пропускной способностью выполнения операций с ней, возможностью выполнения операций с памятью повышенной сложности, вплоть до небольших вычислений, со значительными возможностями коррекции ошибок.

Контроль

«Потемкинские деревни» в виде пиковых характеристик и оценок на тесте Linpack с местом в Top 500 сегодня никого не устраивают – слишком большую цену заплатили в США за этот самообман, поэтому для контроля изделий, разрабатываемых в рамках программ DARPA HPCS/PCA, были сформированы две федеральные системы оценочных тестов: HPC Challenge для стационарных суперкомпьютеров и HPEC Challenge для бортовых. Дополнительно был принят интегральный тест APEX-MAP для оценки эффективности подсистемы памяти. Этот тест автоматически изменяет сочетание пространственно-временной локализации обращений к памяти и для каждого такого сочетания определяет характеристику обращения к памяти. По итогам измерений строится APEX-поверхность (рис. 1).

Рис. 1. Характеристика подсистемы памяти на тесте APEX-MAP

Поверхность из рис. 1 показывает зависимость количества тактов процессора, затрачиваемых на обращение к памяти, от пространственно-временной локализации этих обращений. Для идеального СКСН такая поверхность должна быть горизонтальной, к чему и стремятся в проектах по перспективным СКСН. На поверхности показано место разных важных приложений по среднему для них количеству тактов процессора, приходящемуся на одно обращение, характерной для них пространственно-временной локализации. Большая часть приложений имеет разную временную локализацию, но почти все – плохую пространственную: после выполнения обращения следующее обращение происходит по непредсказуемому адресу.

Кроме APEX-поверхности, используется также метод визуализации в виде kiviat-диаграмм, на лучах которых, соответствующих тестам пакета HPC Challenge, откладываются достигнутые на них результаты. За единицу берутся результаты для лучшего на этом тесте суперкомпьютера. Идеальный суперкомпьютер будет иметь kiviat-диаграмму в виде единичной окружности. Требования по абсолютному значению характеристики для каждого теста оцениваются экспертами, например, для Random Access это 64000 GUPS, но для его достижения пока далеко.

Ответственность за проведение оценочного тестирования по программам DARPA HPCS и DARPA PCA возложена на независимую организацию – известную и уважаемую в военных кругах Линкольновскую лабораторию Массачусетского технологического института.

Горизонты

Петафлопный барьер пиковой производительности на СКСН преодолен, и сегодня уже обсуждается концепция транспетафлопных и экзафлопных систем [3, 4].

На рис. 2 показаны перспективы ускорения двух задач при повышении частоты процессора и уменьшении времени обращения к памяти. Видно, что сокращение времени обращения к памяти влияет сильнее, а чем хуже пространственно-временная локализация, тем более заметно это влияние. Преодоление такой зависимости (проблемы «стены памяти») остается актуальным на следующие несколько лет при построении уже экзафлопных систем.

Рис. 2. Возможное ускорение задач с разной пространственно-временной локализацией за счет повышения частоты процессора (Clock Factor) и сокращения времени выполнения обращения к памяти (Latency Reduction)

Примерная структура суперкомпьютера экзафлопного уровня производительности была предложена Томасом Стерлингом – она содержала 128 тыс. гетерогенных мультитредово-потоковых микропроцессоров (додекатроны) и модулей массовой памяти (PS-модули), взаимодействующих через оптическую WDM-сеть DataVortex (сеть с уплотнением передачи сообщений на разных длинах волн). Каждый додекатрон содержит перестраиваемое решающее поле из 256 АЛУ (тактовая частота 32 ГГц, пиковая производительность поля 8 TFLOPS), по периметру которого располагаются  12 мультитредовых ядер с памятью и сетевыми интерфейсами (тактовая частота 16 ГГц, тысячи тредов, пиковая производительность 4 TFLOPS, операции над короткими векторами, память ядра – 512 Мбайт). Характерно, что в этом суперкомпьютере проблема «стены памяти» решается за счет массовой мультитредовости и потоковой архитектуры.

СКСН: Россия

На протяжении ряда лет с небольшим бюджетным финансированием выполнялся инициативный проект создания перспективного петафлопного СКСН «Ангара», ориентированный на применение обычных микроэлектронных технологий и обычных технологий сборки. Надлежащую государственную поддержку этот проект так и не получил, хотя некоторые работы еще продолжаются. В настоящее время ведется организация нового проекта, ориентированного на применение более мощных архитектурных принципов и новейших технологий создания экзафлопных систем (рабочее название – «Тайфун»).

В соответствии с программой модернизации сегодня в России создаются научные центры, среди задач которых развитие стратегических ИТ и освоение новейших микроэлектронных технологий. Разворачивание в этих центрах работ по специальным стратегическим ИТ и перспективным СКСН могло бы стать важным вкладом в процесс модернизации. Организацию работ по этим направлениям целесообразно было бы начать с создания рабочих групп экспертов и независимого государственного Центра оценочного тестирования суперкомпьютеров. Далее для этих работ можно было бы создать управляемый государственным куратором консорциум исполнителей. При этом необходимо использовать возможности университетской науки, способных молодых людей, ищущих самореализации в амбициозных российских проектах мирового уровня.

Однако реальность такова, что в области специальных стратегических ИТ без зарубежных технологий не обойтись – доступ к ним возможен в результате совместных проектов с нашим интеллектуальным вкладом по направлениям, где еще сильны отечественные специалисты. Новейшие технологии при реализации СКСН сейчас важны, как никогда раньше. Например, сегодня перспективны технологии 3D-компоновки микроэлектронных изделий, и здесь сильно продвинулась компания IBM [5], продемонстрировавшая в 2007-2008 годах технологию 3D TSV (through silicon vias). Суть ее в создании сквозных соединений по площади кремниевых кристаллов между слоями сборки, которые проходят через специальный промежуточный слой, имеющий каналы для охлаждающей жидкости. Эта технология позволяет в 100 раз поднять пропускную способность внешних интерфейсов кристалла, что значительно повышает возможности обеспечения толерантности к задержкам памяти. Разработками этого направления сейчас занимаются в Германии и Бельгии, Сингапуре, Гонконге и Индии.

Новейшие технологии имеют ключевую роль в создании СКСН экзафлопного класса, которые, по мнению большинства специалистов, будут массово-мультитредовыми и потоковыми. Эти технологии резко усиливают пропускную способность интерфейсов микропроцессорных кристаллов, коммуникационных сетей и памяти, что очень важно, поскольку именно на высокой пропускной способности базируется главная идея обеспечения толерантности экзафлопных СКСН к задержкам выполнения операций с памятью и сетью – работать на скорости, определяемой темпом выполнения операций, а не временем их выполнения. Применение новейших технологий возможно при наличии интеллектуальных решений в области архитектуры и нового программного обеспечения, соответствующего массово-мультитредовой и потоковой модели вычислений, а также решений по обеспечению отказоустойчивости, и такие решения в России имеются.

Литература

  1. J.Dongarra, et all. DARPA’s HPCS Program: History, Models, Tools, Languages. 2008.
  2. David K.Karper, Naoki Hirose, Debbie Chen, Asian HPC Update (Japan, China, India),april 2008.
  3. ExaScale Computing Study: Technology Challenges in Achieving Exascale Systems. DARPA Information Processing Techniques Office, Air Force Research Laboratory, September 28, 2008.
  4. ExaScale Software Study: Software Challenges in Extreme Systems. DARPA Information Processing Techniques Office, Air Force Research Laboratory, September 14, 2009.
  5. IBM Cools 3-D Computer Chips With Water, Science Daily, June 7, 2008.

Павел Забеднов (zabednov@vneshtechnika.ru) – директор ФГУП «ВO «Внештехника», Павел Зотов (pavel.zotov@gmail.ru), Леонид Эйсымонт (verger-lk@yandex.ru) –сотрудники ЗАО «ВТ-Консалтинг» (Москва).


СКСН: США

О работах компании Cray по программе создания перспективных СКСН уже писали (например, «Программа создания перспективных суперкомпьютеров», «Открытые системы», № 9, 2007), а о деятельности IBM по проекту PERCS известно меньше.

Основной микропроцессор IBM PERCS – Power 7. Он имеет восемь ядер, в каждом по четыре треда; используется SMT-мультитредовость, которая сложнее, чем, например, в мультитредовых микропроцессорах проекта «Ангара» и микропроцессоре ThreadStorm суперкомпьютера Cray XMT. Вычислительный узел IBM PERCS представляет собой многосокетную плату с общей памятью, содержащую 32 сокета для микропроцессоров Power 7. Таким образом, с общей памятью узла могут одновременно работать 1024 треда. Это второй результат в мире, рекорд у компании Sun Microsystems – 2048 тредов в восьмисокетной плате с 256-тредовыми микропроцессорами Niagara-3. Чем больше таких тредов, тем выше толерантность (нечувствительность) системы к задержкам выполнения операций с памятью.

Особый интерес представляет коммуникационная сеть IBM PERCS, построенная на базе свернутой сети Клоса, но имеющая некоторые особенности. Во-первых, на каждом уровне сети стоят полные коммутаторы, а выход на них возможен с «перескоком» промежуточного уровня (при передаче сообщение будет всегда проходить только один линк). Во-вторых, коммутаторы перестраиваемые и могут устанавливать коммутацию каналов для задач с явно выраженными закономерностями (шаблонами) обменов. В-третьих, продумана схема экономии энергии, поскольку сеть отнимает половину энергетики машины, а линки потребляют энергию, даже если по ним нет передачи сообщений. Сделано так, что, когда пакет идет по линку, то первый его блок включает, а последний выключает линк, это экономит около 50% энергии.

СКСН: Китай

В рамках программы 863 [2] должен быть создан суперкомпьютер с HPP-архитектурой (Hyper Parallel Processing). Важнейшую роль в этой программе играет Национальный университет оборонных технологий, ставший известным в связи с созданием гетерогенного суперкомпьютера «Млечный путь». При разработке HPP-суперкомпьютера ставится цель создания высокопродуктивного СКСН с оригинальной архитектурой, высокой масштабируемостью и транспетафлопной реальной производительностью на актуальных вычислительных приложениях (включая DIS-класс), обладающего глобально адресуемой памятью, использующего гиперузлы на заказных многоядерных массивно-мультитредовых микропроцессорах собственного производства и высокоскоростную надежную коммуникационную сеть с оптическими линками. В 2010 году должен завершиться этап модельной отработки принципов работы этого СКСН на кластерном суперкомпьютере Dawning 5000B.

СКСН: Япония

Финансирование программы перспективных СКСН ведется с 2006 года [2], и первым стал совместный проект Next Generation Supercomputer Project с институтом физики и химии RITKEN в качестве головного исполнителя и участием компании Fujitsu. Основные пункты программы NGSP:

  • достижение производительности на задаче Linpack в 10 PFLOPS к 2012 году;
  • разработка суперкомпьютера на собственном суперскалярном 8-ядерном микропроцессоре Fujitsu, созданном по 45-нанометровой технологии и пиковой производительностью 128 GFLOPS, имеющем высокую отказоустойчивость;
  • построение коммуникационной сети с топологией трехмерного тора и высокой отказоустойчивостью.

Японские специалисты близки к созданию сетей с терабитной пропускной способностью, в которых используются технологии передачи по оптическим линиям одновременно на разных длинах волн (Wavelength Division Multiplexing, WDM). Лучшая сегодняшняя коммуникационная сеть Infiniband QDR 4х имеет дуплексную пропускную способность линка 40 Гбит/с, а существующие опытные образцы WDM-сетей – 320-400 Гбит/с и могут быть улучшены до терабитного уровня.

 


Таблица. Чувствительность задач из разных областей приложений к базовым характеристикам суперкомпьютеров