Oрганизация вычислений в научных отраслях

Инфраструктура grid [1-3] способна кардинально изменить привычные представления об организации вычислений. Предполагается, что подобные структуры смогут объединить региональные и национальные вычислительные компьютерные инфраструктуры для создания всеобщего ресурса. Само название «grid» выбрано по аналогии с электрическими сетями (power grid), предоставляющими всеобщий доступ к электрической мощности. Подобно электрическим сетям, в grid предполагается интегрировать большой объем географически удаленных компьютерных ресурсов. Если доступ к вычислительным grid-структурам будет всеобщим, надежным, постоянным и согласованным, а также недорогим, то их влияние на развитие вычислений окажется революционным.

Предпосылки и сферы применения grid

Как прогнозируется, эволюционные изменения в полупроводниковых технологиях и архитектуре микропроцессоров приведут в ближайшие пять лет к десятикратному увеличению вычислительных мощностей. Уже сегодня возможности рядовых пользователей, подключенных к цифровым каналам связи с предоставлением комплексных услуг, сравнимы с теми возможностями, которыми обладали суперкомпьютерные центры 10-15 лет назад.

Технологическое основание для создания grid-инфраструктур дают уже существующие волоконно-оптические сети, высокопроизводительные процессоры, параллельные архитектуры, протоколы связи, математическое обеспечение распределенных структур, механизмы обеспечения безопасности. Реализация grid потребует продолжения серьезных исследований во всех перечисленных областях.

Безусловно, усилия по развертыванию grid-инфраструктур имеют смысл только в том случае, если они будут востребованы большим числом пользователей. Выделяют несколько категорий потенциальных пользователей: специалисты по вычислительной технике, ученые-экспериментаторы, научные ассоциации и коммерческие фирмы. grid-инфраструктуры найдут применение для глобального решения проблем охраны окружающей среды, для целей обучения и образования. Неизбежным видится быстрое проникновение grid из исследовательской сферы в бытовую.

Среди основных направлений использования grid на данный момент можно выделить:

распределенные супервычисления, решение очень крупных задач, требующих огромных процессорных ресурсов, памяти и т.д.;
«высокопоточные» вычисления (High-Throughput Computing), позволяющие организовать эффективное использование ресурсов для небольших задач, утилизируя временно простаивающие компьютерные ресурсы;
вычисления «по требованию» (On-Demand Computing), крупные разовые расчеты;
вычисления с привлечением больших объемов распределенных данных (Data-Intensive Computing), например, в метеорологии, астрономии, физике высоких энергий;
коллективные вычисления (Collaborative Computing).

Можно разграничить и классы пользователей grid-инфраструктур: от конечных пользователей и системных администраторов grid до разного уровня разработчиков, организующих базовую структуру и grid-службы, а также создающих наборы инструментальных средств и grid-приложения.

Важнейшим компонентом grid-инфраструктуры является промежуточное ПО, которое будет обеспечивать безопасный доступ к данным большого объема в универсальном пространстве имен, перемещать и тиражировать данные с высокой скоростью из одного географически удаленного узла на другой и организовывать синхронизацию удаленных копий.

Grid и физика высоких энергий

Поскольку мы в течение длительного времени занимаемся организацией вычислений для физических экспериментов, в особенности для физики высоких энергий, то более подробно остановимся на современных требованиях к вычислительным ресурсам для этого направления физики, а также на описании конкретных проектов для физики высоких энергий, где начато воплощение концепции grid.

Физика частиц всегда способствовала значительному прогрессу компьютерных технологий. Примером тому может служить Всемирная Паутина, созданная в Европейском Центре Ядерных Исследований (CERN). Физика частиц скоро предоставит широкие возможности для испытаний grid-систем — мощных управляемых распределенных систем информации. К 2005 году в CERN планируется запуск нового ускорителя Большой Адронный Коллайдер (LHC — Large Hadron Collider), на четырех крупных физических установках которого в течение 15-20 лет будут ежегодно собирать данные объемом порядка нескольких Пбайт. Поскольку обработка данных такого масштаба является беспрецедентной задачей, требуются специальные усилия для создания средств организации хранения данных и последующего доступа к ним. Экспериментальные данные будут записываться во время физических экспериментов со скоростью от 100 Mбайт/с до 1 Гбайт/с и затем храниться в CERN без изменений (так называемые «сырые» данные). Однако вследствие географической отдаленности тысяч участников — физиков из университетов и институтов разных стран мира, возникнет необходимость хранить часть данных в распределенных региональных центрах, что позволит использовать вычислительные мощности и средства хранения данных этих региональных центров, а не только мощности CERN. Таким образом, будут созданы условия для анализа и обработки данных не только в CERN, но и во всех организациях, участвующих в работах, так, что не будет необходимости обращаться к расположенным в хранилищах CERN данных.

Данная модель сочетает в себе два аспекта grid-технологий: вычислительный (computational grid) и информационный (data grid). Подобные структуры могут найти свое применение не только в физике высоких энергий, но и в биоинформатике, экологии, метеорологии.

Для ускорителя LHC в рамках проекта MONARC было осуществлено моделирование распределенных вычислительных центров. В проекте ставились следующие цели и задачи:

моделирование вычислений для LHC;
разработка базовых моделей вычислений, включая стратегию, приоритеты и политику для эффективного анализа данных международными сообществами;
изучение и обобщение базовых требований по вычислительным и сетевым ресурсам и управлению данными;
обеспечение максимальной производительности каждого отдельного набора ресурсов, входящего в grid-структуру.

Для LHC была предложена иерархическая структура вычислительных центров, включающая вычислительные центры пяти уровней (Tier), каждый со своим объемом ресурсов и различными возможностями сетевого доступа. Нулевой уровень (Tier 0) — главный центр в CERN, первый уровень (Tier 1) — крупные национальные центры ведущих стран мира, второй уровень (Tier 2) — региональные центры, а также менее крупные центры третьего (Tier 3) и четвертого (Tier 4) уровней. Требования по ресурсам для центров нулевого и первого уровней представлены в таблице 1.

Хотя критерии для региональных центров второго уровня еще не зафиксированы, в их число войдут географическая распределенность, широкий доступ к высокоскоростным сетям, а также наличие вычислительных мощностей в диапазоне от 10 до 50K SpecInt95.

Практическая реализация таких распределенных центров включает в себя разработку промежуточного ПО, вычислительные структуры, организацию работы с данными, системы отладки и приложений для конкретной научной сферы. Промежуточное ПО будет обеспечивать эффективные, стандартные и прозрачные методы доступа к данным для осуществления кэширования данных, тиражирования и миграции файлов в гетерогенной среде: необходимо обеспечить управление универсальным пространством имен, эффективный перенос данных между вычислительными узлами, синхронизацию удаленных копий, доступ и кэширование данных на глобальном уровне, а также интерфейс к системам управления массовой памятью.

Проект EU Data Grid

Перечисленные во врезке «Инфраструктура обработки распределенных данных» проекты могут быть в той или иной мере полезны в контексте европейского проекта EU Data Grid для физики высоких энергий, биоинформатики и системы наблюдений за Землей. Общим во всех этих исследованиях является разделение данных по различным базам, распределенным по всем континентам. Основная их цель — улучшение эффективности и скорости анализа данных посредством интеграции глобально распределенных процессорных мощностей и систем хранения данных, доступ к которым будет характеризоваться динамическим распределением по grid-инфрастуктуре, что предполагает управление репликацией и кэшированием.

Можно выделить две основные категории в работе с данными физических экспериментов: «производство» данных и их анализ конечным пользователем. Производство данных включает получение экспериментальных данных, распределенное моделирование физических событий, реконструкцию событий и частичную переработку. Анализ данных конечным пользователем включает интерактивный и удаленный анализ. Наиболее часто используемые данные потребуется хранить в памяти с наиболее быстрым доступом. В процессе анализа будут создаваться новые сложные объекты событий, которые будут сохраняться для дальнейшего анализа. Значительное количество времени будет затрачиваться на чтение объектов (их поиск и чтение из дискового кэша или с ленты). В силу независимости событий, их обработка предполагает крупномодульный параллелизм, основанный на высокой степени свободы в управлении вводом/выводом, что позволит обрабатывать события параллельно на различных вычислительных узлах. Задачи управления данными будут состоять в организации стандартного и быстрого переноса файлов из одной системы хранения в другую. Важными задачами также являются управление распределенным иерархическим кэшем, обеспечение проблем безопасности и прав доступа для пользователей.

В проект EU Data Grid вовлечено множество организаций, специалистов по программному обеспечению и ученых. Архитектура создаваемой grid-инфраструктуры должна быть достаточно простой, гибкой, масштабируемой, предполагающей быстрое создание прототипов и, конечно, отвечающей требованиям распределенной обработки. Проект включает в себя несколько рабочих пакетов:

создание для всех рассматриваемых отраслей (физики высоких энергий, биологии и наблюдения Земли) приложений, осуществляющих прозрачный доступ к распределенным данным и высокопроизводительным вычислительным ресурсам;
управление рабочей загрузкой (распределенное планирование и управление ресурсами);
управление данными (создание интегрированного инструментария и инфраструктуры промежуточного слоя для согласованного управления и разделения петабайтных объемов данных c эффективным использованием ресурсов);
мониторинг (доступ к информации о состоянии и об ошибках в grid-инфраструктуре);
управление кластерами, состоящими из тысяч вычислительных узлов;
создание виртуальной частной сети, объединяющей вычислительные ресурсы и ресурсы данных, участвующие в отладке grid-инфрастуктуры;
управление массовой памятью (создание глобального grid-интерфейса к существующим системам управления массовой памятью).

В качестве основы промежуточного программного обеспечения для проекта EU Data Grid выбран набор инструментальных средств Globus.

В рамках работ по созданию средств управления данными рассматривается несколько слоев служб. К службам верхнего слоя относятся управление тиражированием (Replica Management), оптимизация запросов и управление шаблоном доступа (Query Optimization & Access Pattern Management). К службам промежуточного слоя — организация пересылки, поиска и доступа к данным. Нижележащие службы — это собственно системы управления хранением данных (Castor, HPSS или локальные файловые системы) и системы управления метаданными. Средствами управления тиражирования копии файлов или метаданных будут помещаться в распределенный иерархический кэш. Для выполнения этой задачи необходимо обращение к блоку пересылки данных в промежуточном слое, который, в свою очередь, будет использовать средства доступа к данным или указатели к метаданным, хранящимся под управлением тех или иных систем управления хранением данных или метаданных. Перечисленные компоненты должны обеспечивать надлежащие механизмы безопасности.

Стержневой проблемой управления данными в инфраструктуре data grid является гетерогенность репозиториев данных. Задача должна решаться для различных систем хранения данных: системы управления типа HPSS, Castor, UniTree (http://www.unitree.com) или Enstore (http://www-isd.fnal.gov/enstore/ design.html); дисковые системы типа DPSS (http://www-itg.lbl.gov/DPSS); распределенные файловые системы; базы данных. При такой гетерогенной организации хранения данных очень сложным является решение проблемы наименования и доступа. При иерархической организации управления памятью (Hierarchical Storage Management — HSM) обеспечивается автоматический и прозрачный доступ к хранилищу данных, состоящему из лент, промежуточного дискового хранилища данных и дисков быстрого доступа. В подобной иерархической системе данные переносятся сначала с лент на локальный дисковый кэш до начала grid-переноса данных. При этом запросы должны группироваться таким образом, чтобы достичь оптимального монтирования лент, что требует организации внутренних каталогов и механизмов переноса данных с ленты на диск.

Тиражирование данных может рассматриваться как процесс управления копиями. Это также есть стратегия кэширования, при которой идентичные файлы доступны в нескольких местах grid-инфраструктуры. Главная цель тиражирования — достижение более быстрого доступа к данным за счет их местонахождения в локальном кэше или в ближайшей копии. Иначе говоря, осуществлять перенос файла по всей глобальной сети для каждого единичного запроса не приходится. Каждая реплика должна синхронизироваться с другими репликами. Качество реплики зависит от протоколов обновления и сетевых параметров grid-инфраструктуры. Должна быть также выработана стратегия обновления и создания реплик. Создание реплик особенно актуально при объемах данных порядка нескольких петабайт.

Тиражирование метаданных требует использования механизма связи на каждом grid-узле. Инструментальный набор средств Globus предоставляет две возможности: сокеты и коммуникационную библиотеку Nexus более высокого уровня. В подсистеме коммуникации должны быть реализованы различные протоколы тиражирования (синхронные и асинхронные методы обновления). Replica Manager обеспечивает службы доступа высокого уровня и оптимизирует глобальную пропускную способность с использованием grid-кэшей. Анализ запроса пользователя приводит к оптимальному выполнению этого запроса, а в соответствии с анализом множества запросов принимается решение о создании или уничтожении реплики. Replica Manager осуществляет глобальное кэширование, в то время как за создание локальных кэшей отвечают системы массовой памяти.

Связующим элементом в grid-системе является служба управления метаданными — каталогами с именем и указателем на расположение единичных или реплицированных файлов, информацией по мониторингу (статус, пропускная способность и т.п.), информацией по конфигурации grid (описание сетей, коммутаторов, кластеров, узлов и ПО), стратегиями гибкого динамического управления. Именно эта служба обеспечивает интеграцию разнообразных, децентрализованных и гетерогенных составляющих grid.

Многие аспекты обеспечения безопасности в grid-инфраструктуре тесно связаны с управлением данными, в особенности, организация grid-кэшей и стратегия синхронного тиражирования. В распределенной системе хранения данных, включающей реплики, запрос оптимизируется за счет существования нескольких копий файлов. Оптимальная схема выполнения запроса зависит от ряда динамических и статических факторов: размер файла, к которому требуется доступ; уровень загрузки данных для обслуживания запрашиваемого файла; метод/протокол, по которым будет осуществлен доступ и перенос файла; пропускная способность сети, расстояние и трафик внутри grid; стратегия управления удаленным доступом. Оптимизация запросов может производиться на разном уровне гранулярности. Например, можно запрашивать не весь файл, а отдельные объекты по их идентификаторам (object identifier — OID) согласно картам размещения информации.

Виртуальные grid-структуры

Целесообразно остановиться на описании проекта Grid Physics Network, цель которого — создание так называемых виртуальных grid-структур, в которых будут накапливаться и обрабатываться научные данные.

В настоящее время идет подготовка нескольких научных экспериментов нового поколения, к которым относятся не только уже упомянутые эксперименты в области физики высоких энергий, но и эксперименты с использованием интерферометров для регистрации гравитационных волн бинарных пульсаров, новых сверхсвезд и иных экзотических объектов (эксперимент LIGO), а также автоматизированная цифровая космическая съемка с очень высоким разрешением (более 1012 пикселей), которая позволит значительно развить систематическое изучение звезд, галактик и крупномасштабных космических структур (эксперимент SDSS). Все эти эксперименты рассчитаны на длительный период и предполагают накопление и последующую обработку массивов данных.

В течение двух следующих десятилетий на ускорителе LHC на нескольких отдельных крупных физических установках (CMS, ATLAS, ALICE и LHCb) будет проводиться исследование взаимодействий частиц с целью поиска новых физических явлений и частиц. Примерно столь же долго на LIGO будут регистрироваться и анализироваться космические гравитационные волны наиболее энергетических природных объектов. Проект SDSS предполагает крупномасштабную космическую съемку для создания подробного каталога астрономических данных. Все перечисленные эксперименты характеризуются широчайшей географической разобщенностью их участников. Задачи, поставленные в этих экспериментах, являются беспрецедентными с точки зрения их практической реализации, поскольку потребуется:

отделять очень малые полезные сигналы от колоссальных фонов;
обеспечивать быстрый и прозрачный доступ к экспериментальным данным, находящимся в огромных хранилищах (от 100 Тбайт на начальном этапе до 100 Пбайт в последующие десять лет);
обеспечивать прозрачный доступ также и к распределенным процессорным ресурсам (от терафлопов сейчас и до петафлопов к 2010 году);
организовывать процесс доступа к данным и их анализу из различных точек земного шара по сетевым каналам высокой пропускной способности.

Требования к вычислительным и архивным ресурсам для этих экспериментов различны. Наибольшие процессорные затраты необходимы для LIGO (петафлопный уровень). Объемы данных у LHC будут значительно больше, чем у LIGO, а у LIGO — значительно больше, чем у SDSS.

Эксперимент SDSS уже находится в рабочей стадии, а в LIGO съем данных начнется с 2002 года. Ускоритель LHC и его физические установки будут запущены после 2005 года, поэтому в проекте Grid Physics Network намечено постепенное создание двух десятков так называемых региональных центров второго уровня согласно классификации, предложенной в проекте MONARC: 2-3 для SDSS, 5 центров для LIGO и 12 центров для LHC (по 6 для установок CMS и ATLAS соответственно).

Авторы проекта Grid Physics Network опираются на значительное число уже разработанных и апробированных приложений, ориентированных на использование в распределенных системах. В рамках проекта Particle Physics Data Grid тестировались приложения для использования распределенных баз данных в физике высоких энергий. В проекте China Clipper создаются модели анализа данных в распределенных системах. В рамках проекта Globus разработан комплекс программного обеспечения промежуточного уровня. В проекте MONARC выполнено моделирование компонентов grid и их взаимодействие. В проектах Nile (http://www.nile.cornell.edu/) и Condor созданы системы удаленной обработки заданий. В проекте GIOD (http://pcbunn.cithep.caltech.edu/) исследовались массовые перемещения объектных данных между удаленными узлами.

***

Одновременно с Grid Physics Network в США будут развертываться сходные grid-инфраструктуры и для других отраслей научных исследований. Планируются работы по созданию глобальной информационной системы, содержащей данные наблюдений за Землей (3 Пбайт данных уже к 2001 году). Создания grid требуют и проекты по исследованию головного мозга человека и изучение генома человека, и проекты по объединению уже накопленных и собираемых астрофизических и географических данных, и метеорологический анализ спутниковых данных. Это далеко не полный перечень запланированных (и в основном подкрепленных реальным финансированием) проектов реализации концепции grid. В ряде стран Европы сейчас также идет создание национальных grid-сегментов. Таким образом, концепция grid сегодня уже не является неким искусственным понятием, а становится объединяющей и обобщающей стратегией развития вычислений во всем мире. Поскольку в нашей стране ведутся исследования практически во всех перечисленных выше областях, следует незамедлительно ставить вопрос о насущной необходимости создания локального grid-сегмента в России [6] на уровне междисциплинарной государственной программы.

Владимир Кореньков (korenkov@cv.jinr.ru), Елена Тихоненко (eat@cv.jinr.ru) — сотрудники Объединенного института ядерных исследований (Дубна).

Литература

1. J. Foster, K. Kesselman, editors. GRID: a Blueprint to the New Computing Infrastructure. Morgan Kaufman Publishers, 1999
2. Виктор Коваленко, Дмитрий Корягин. Вычислительная инфраструктура будущего. «Открытые системы», 1999, №11-12
3. Валерий Васенин. Internet: от настоящего к будущему. «Открытые системы», 2000, №12
4. Виктор Коваленко. Проблемы сетевых файловых систем. «Открытые системы», 1999, №3
5. V. Korenkov. Status and Perspectives of JINR Computing Center, in Proceedings of Int.Conference HIPER?98, pp. 224-227, Zurich, Switzerland
6. А.В. Жучков, В.А. Ильин, В.В. Кореньков, «Некоторые аспекты создания глобальной системы распределенных вычислений в России», труды Всероссийской научной конференции «Высокопроизводительные вычисления и их приложения», сс. 227-231, Черноголовка, 2000

Инфраструктура grid

Вычислительная grid-инфраструктура — распределенная программно-аппаратная компьютерная среда, в которой организован функционально надежный, согласованный, устойчивый и недорогой доступ к конечным вычислительным ресурсам.

Функциональная надежность позволяет предоставить пользователю гарантии получения им длительного предсказуемого доступа к ресурсам всех компонентов grid. Конечный пользователь должен иметь полную информацию о всех характеристиках производительности, включая полосу пропускания канала связи, времена задержек, искажения, производительность компьютеров, программные службы, безопасность и надежность конфигурации. Согласованность предполагает стандартизацию всех grid-служб, интерфейсов, а также способов работы пользователей. Устойчивость доступа как возможность постоянного взаимодействия к ресурсам не означает, что имеется некий универсальный доступ; речь может идти о некотором формальном подключении к grid-службам с последующей оплатой по аналогии с услугами электрических сетей. Стоимость будет зависеть от широты распространения grid.

**Табл. 1. Требования к региональным центрам для LHC**
Для LHC была предложена иерархическая структура вычислительных центров, включающая вычислительные центры пяти уровней
Уровень	Произ- водите- льность	Дисковая память	Емкость робото- систем	Сетевое соеди- нение
Tier 0	600K SpecInt95	560 Tбайт	2,5 Пбайт	от 622 Mбит/с
Tier 1	200K SpecInt95	200 Tбайт	500 Tбайт	от 155 Mбит/с

Вернуться

Инфраструктура обработки распределенных данных

Несколько проектов, подобных Globus [2] (http://www.globus.org) и Legion (http://www.cs.virginia.edu/legion), непосредственно направленные на создание вычислительных grid-структур, сейчас дополняются поддержкой средств управления данными. Однако есть и ряд проектов, в которых задача поддержки приложений с интенсивной обработкой распределенных данных решается с самого начала: Particle Physics Data Grid (http://www.cacr.caltech.edu/ppdg), Grid Physics Network (http://www.phys.ufl.edu/~avery/mre/), Storage Request Broker (http://www.npaci.edu/DICE/SRB), China Clipper (http://www-itg.lbl.gov/Clipper/).

АРI-интерфейс глобального доступа к вторичной памяти (Global Access to Seconadary storage — GASS), входящий в набор инструментальных средств Globus, обеспечивает задачи управления данными, но ограничивается удаленными операциями ввода/вывода для файлов, управлением локальных кэшей файлов и переносом файлов в клиент-серверной среде с поддержкой различных протоколов. Разработчики Globus сейчас решают проблемы управления данными, включая управление репликами и оптимизацию переноса файлов через глобальные сети. Философия Globus не предполагает обеспечения функциональности высокого уровня, но создает основу для разработки более сложных инфраструктур поверх базовых средств.

В проекте Legion обеспечивается базовая функциональность управления данными, но здесь нет управления репликами, оптимизации переноса файлов и управления загрузкой данных.

Проект Particle Physics Data Grid направлен на создание базовой grid-инфраструктуры, обеспечивающей высокоскоростные переносы данных и прозрачный доступ, что предполагает управление репликами, организацию высокоскоростных сетей и установление связи с различными брокерами памяти.

В проекте Storage Request Broker обеспечивается стандартный интерфейс к разнородным системам памяти и глобальный доступ к реплицированным данным. Также разрабатываются способы доступа к данным, основанные на их атрибутах (а не на физическом местоположении). Эти способы доступа опираются на каталог распределенных данных Metadata Catalog (http://www.npaci.edu/DICE/SRB/mcat.html), централизованную систему распределенной базы данных, которая обеспечивает стандартный интерфейс и механизмы хранения, организации и формирования запросов к данным, независимо от их местоположения.

Проект China Clipper имеет своей целью организацию высокоскоростного интегрированного доступа к множественным архивам данных, отыскания ресурсов и автоматического оказания посредничества, а также всестороннего мониторинга сетей в оперативном режиме и гибкого распределенного управления контролем доступа и стратегии для территориальных ресурсов со сложным администрированием.

Проект Grid Physics Network представляет собой программу фундаментальных исследований по реализации концепции виртуальных данных.

Файловые системы и удаленные вычисления

Традиционные распределенные файловые системы Network File System (NFS) и Andrew File System (AFS), обеспечивают удобный интерфейс для удаленного ввода/вывода в однородном пространстве имен файлов, но не поддерживают многоузловые реплики и возможности коллективного и управляемого ввода/вывода [4]. Напротив, параллельные файловые системы, такие как Vesta и Galley, обеспечивают коллективный ввод/вывод, но не предоставляют возможности адресации в сложных конфигурациях и не решают проблемы безопасности в сетях. Наконец, системы удаленного выполнения заданий позволяют производить спланированное выполнение заданий на удаленных компьютерах, но не поддерживают интерфейсов параллельного ввода/вывода или доступа к параллельным файловым системам. В современных распределенных базах данных тиражирование стало уже неотъемлемым компонентом в смысле синхронизации единичных транзакций на репликах, но проблема переноса больших объемов данных пока не ставилась.

Ни одна из этих систем не отвечает ситуациям, для которых характерно значительное число географически удаленных пользователей, петабайты данных, а также интенсивные вычисления.

Опыт работы ОИЯИ с системами распределенных вычислений и баз данных

В Объединенном институте ядерных исследований вопросами интеграции компьютерных ресурсов и повышением эффективности их использования занимаются уже более 40 лет. Еще в 1993 году здесь проходило международное совещание по метакомпьютингу, где обсуждались основные направления развития распределенных вычислений.

Институт располагает пионерским для России опытом использования системы пакетной обработки Condor, в которой процессорное время и другие ресурсы, расположенных по всему миру серверов и рабочих станций, предоставляются всем участникам. При этом администратор каждого из компьютеров может сформулировать свое собственное понимание «загруженности». В результате участники этой динамически развивающейся системы, не теряя ничего, приобретают возможность резко ускорить обработку своих заданий.

В 1994 году пул SPARC-станций ОИЯИ был включен в европейский пул ресурсов с центром администрирования в Амстердаме (Голландия). Этот пул, в свою очередь, был составной частью объединенного пула с центром администрирования в университете штата Висконсин (США). К сожалению, неудовлетворительное состояние российских внешних коммуникаций в тот момент не позволило эффективно внедрить использование системы Condor, особенно для задач, требовавших большого количества обменов при обработке данных (для вычислительных задач, где не требуется передача больших массивов информации, использование этой системы оказалось вполне приемлемым даже при несовершенных телекоммуникациях). В результате создания небольшого пула ОИЯИ получил доступ к 250 рабочим станциям в США и Европе, которые использовались для расчетов в физике высоких энергий. Несмотря на то что система была разработана более 10 лет назад, она и по сей день является достаточно удачным и не утратившим актуальность средством эффективного использования ресурсов.

С 1997 года вычислительные мощности центральных серверов ОИЯИ составили основу Суперкомпьютерного центра (СКЦ) [5], ядром которого стала параллельная машина SPP-2000 и автоматизированная ленточная библиотека ATL-2640, допускающая две технологические схемы использования: с помощью программных средств HP OmniBack (автоматическое резервное копирование институтских компьютеров) и HP OmniStorage (управление мигрирующей файловой системой). Как показывает опыт, возможностей стандартного ПО не всегда достаточно для организации высокоэффективной эксплуатации программно-аппаратного комплекса, и требуются дополнительные усилия для оптимизации работы центра. Для интеграции в среду суперкомпьютерного центра средств автоматического резервного копирования и виртуализации дисковой памяти было проведено исследование с целью определения надежности функционирования и выбора конфигурации с максимальной скоростью выполнения резервного копирования.

С целью решения задачи мониторинга служб и ресурсов СКЦ был апробирован ряд современных свободно распространяемых продуктов, в том числе esm, mat и mon. В результате, была выбрана и эксплуатируется система mon, осуществляющая постоянную проверку центральных серверов и служб. В СКЦ ведутся работы по расширению функций данной системы, модификации интерфейсов сбора статистики и способов его представления.

В течение последних десяти лет в ОИЯИ был создан ряд кластеров на различных платформах: от кластеров на базе компьютеров VAX и Sun до Linux-кластеров, собранных из ПК. За 1999-2000 годы создано несколько ферм из ПК совокупной производительностью примерно 1,5K SPECint95. На этих фермах используются различные системы пакетной обработки: NQS, PBS, Condor (последний в рамках одной фермы для оптимального использования всех компьютеров фермы). Одна из ферм вошла в состав СКЦ как специализированная стойка для проведения расчетов физических экспериментов. На ней установлен набор инструментальных средств Globus с целью проведения совместных работ с российскими и зарубежными коллегами.

На протяжении ряда лет ОИЯИ является ведущей организацией проекта БАФИЗ по созданию и развитию распределенной сети баз данных и знаний в области ядерно-физических исследований. В рамках этого проекта еще в 1995 году был разработан Web-интерфейс для доступа к системам управления базами данных.

Участвуя в совместных с рядом физических институтов (НИИЯФ МГУ, ИТЭФ, ИФВЭ) работах по созданию регионального центра для LHC в России мы вплотную подошли к осознанию необходимости создания локального grid-сегмента в России. Поскольку информационно-вычислительная инфраструктура ОИЯИ характеризуется наличием оборудования разных производителей (HP, DEC, Sun Microsystems), разнообразием архитектур и операционных систем (HP-UX, SPP-UX, Sun Solaris, DYNIX, Windows NT, Linux), то в контексте будущего использования grid-технологий важным моментом для нас является интеграция различных элементов СКЦ и кластерных решений, включая использование системы массовой памяти на базе HP OmniStorage.