Понятие «планирование непрерывности бизнеса» (Business Continuity Planning, BCP) появилось сравнительно недавно и сегодня вызывает большой интерес у топ-менеджеров отечественных компаний.
Понятие «планирование непрерывности бизнеса» (Business Continuity Planning, BCP) появилось сравнительно недавно и сегодня вызывает большой интерес у топ-менеджеров отечественных компаний. Насколько методики и технологии обеспечения непрерывности бизнеса могут быть полезны?
Oбеспечение непрерывности бизнеса является одним из важнейших стратегических направлений развития любой компании. Это обусловлено необходимостью сохранять устойчивость и стабильность функционирования компании и ее информационной системы в различных условиях неблагоприятного воздействия внешних и внутренних факторов техногенного и/или природного характера.
Сегодня известно довольно много угроз и разрушающих факторов, неблагоприятно влияющих на деятельность коммерческих и федеральных структур и организаций. Например, перевод на два и более часа корпоративной информационной системы в состояние «отказ в обслуживании» по причине инфицирования ранее неизвестными вирусами или враждебными апплетами может нанести серьезный ущерб бизнесу компании. Для парирования возникающих угроз любому предприятию жизненно важно разработать и поддерживать в актуальном состоянии план восстановления бизнеса в чрезвычайных ситуациях.
Планирование восстановления после происшествия
Сегодня в России стремительно растут объемы передаваемой и обрабатываемой информации в корпоративных информационных системах. В этих условиях ИТ-службы отечественных компаний так заняты освоением новых технологий, что у них не хватает времени на обеспечение бесперебойной работы и безопасности систем. Это обычная проблема в циклах постоянного освоения новых технологий. Однако по мере «взросления» компаний и их систем все большее значение приобретают такие процессы, как резервное копирование данных и способность поддержания непрерывного доступа клиентов к приложениям.
Достаточно давно стало известно, что любой стремительно развивающийся вычислительный центр рано или поздно становится отдельной точкой сбоя. Одновременно пришло осознание того, что это может оказать значительное воздействие на непрерывность критичных вычислительных функций бизнеса. В результате непрерывность самого бизнеса может оказаться под угрозой.
План восстановления после происшествия (Disaster Recovery Plan, DRP) является частью плана непрерывности бизнеса и позволяет определить необходимые процедуры восстановления в случае возникновения инцидентов.
В методологии планирования восстановления «происшествие» определено как внезапное, незапланированное катастрофическое событие, которое не позволяет выполнять критичные процессы. Происшествие может привести к значительному ущербу по отдельным операциям, тотальной потере оборудования или невозможности персонала добраться до этого оборудования.
План восстановления после происшествия позволяет возобновлять нормальное функционирование и работоспособность информационной системы компании, обеспечивая максимально оперативное возвращение организации к нормальной деятельности. Так как многие критически важные бизнес-процессы зависят от технологической инфраструктуры, состоящей из приложений, данных и аппаратного обеспечения, план восстановления, как правило, концентрируется именно на бизнес-приложениях и разрабатывать его следует для всех критичных приложений.
Возобновление работоспособности информационных систем не обязательно осуществляется с помощью одних лишь технических решений в автоматическом режиме. План восстановления может использовать и некоторые процедуры, выполняемые вручную. Например, такие как анализ требований к непрерывности бизнеса, составление плана парирования внешних и внутренних воздействий, разработка регламентов восстановления и пр. Решение вернуться к «ручным» процедурам вместо того, чтобы создавать и поддерживать избыточную отказоустойчивую ИТ-инфраструктуру принимается на основе анализа предполагаемых затрат.
Время восстановления и критичность данных являются ключевыми моментами планирования восстановления после происшествия. Наличие плана восстановления уменьшает риск того, что время нарушения бизнес-процесса превысит допустимый для бизнеса компании интервал времени вынужденного простоя. Например, гарантируется восстановление после сбоя в течение двух часов, получаса и 15 минут.
Для качественного выполнения плана восстановления необходимо знать допустимое время восстановления (Recovery Time Objective), а также конечные цели восстановления (Recovery Point Objective). Стратегия технического восстановления после инцидента основывается на комбинации этих требований.
Процедура восстановления после происшествия состоит из определенных правил, процессов и дисциплин, гарантирующих, что критичные бизнес-процессы продолжат функционирование даже в случае, если произойдет сбой одного или более телекоммуникационных ресурсов или ресурсов обработки информации, от которых зависят операции. К ключевым элементам плана восстановления после происшествия относятся: формирование группы планирования; оценка рисков и аудит; определение приоритетов для приложений и сетей; разработка стратегии восстановления; подготовка оборудования и документирование плана; разработка критериев и процедур верификации; реализация плана.
В состав группы планирования входят сотрудники каждого бизнес-подразделения. Они должны понимать действующие в компании бизнес-процессы, иметь представление об используемых технологиях и участвовать во всех процедурах планирования восстановления после происшествия.
Анализ рисков и их воздействий на бизнес должен включать в себя анализ по крайней мере десяти «наихудших» потенциальных происшествий. Затем каждому бизнес-процессу и приложению/системе должен быть присвоен определенный уровень приоритетности. Цель создания такого списка — обеспечение жизнеспособного, эффективного и экономически целесообразного процесса восстановления во всех технологических областях. Важно поддерживать этот список актуальным, проводить полную инвентаризацию оборудования, помещений, поставщиков и контактных точек. Таблица 1, составленная согласно рекомендациям международного стандарта ISO 17799:2, может использоваться для классификации приложений и/или систем организации.
Классификация приложений/систем |
В настоящее время подготовлено более десятка различных стандартов и спецификаций управления безопасностью, детально регламентирующих процедуры планирования и поддержки непрерывности бизнеса, среди которых наибольшую известность приобрели международные и национальные спецификации и стандарты, такие как ISO 17799-2002 (BS 7799), NIST, COOP, HIPAA Gramm-Leach-Bliley, The Expedited Funds Availability, SAS 78/94.
Определение приоритетов восстановления приложений
Приложения классифицируются как критически важные, критичные, существенные или некритичные — в соответствии с классификацией поддерживаемых ими бизнес-процессов. Кроме того, для названных приложений определяются показатели допустимого времени и цели восстановления.
Системное время восстановления
Для оценки общего времени восстановления отдельного бизнес-процесса определяется системное время восстановления (System Recovery Time). С тем чтобы гарантировать восстановление бизнес-процесса в течение допустимого времени, необходимо планировать порядок приоритетов, в соответствии с которым и будет производиться восстановление аппаратных средств и компонентов систем. Например, согласно плану восстановления после происшествия, гарантированное восстановление хостов системы и соответствующих приложений должно начинаться в течение 15 минут. Хост-системы и связанные компоненты выполняют приложения, которые представляют бизнес-процессы. Должны быть определены компоненты инфраструктуры аппаратных средств, необходимые прикладным системам и данным, поддерживающим соответствующие бизнес-процессы. Также необходимо идентифицировать все прикладные зависимости, компоненты сетевой инфраструктуры и поддерживающий персонал.
Существует несколько способов определения системного времени восстановления. Для того чтобы обеспечить допустимое время восстановления бизнес-процесса, рассматривается несколько сценариев восстановления и выбирается лучший из них. В целом для успешного определения системного времени восстановления необходимо выбрать критичные для компании бизнес-процессы; определить допустимое время и конечную цель восстановления. Это же необходимо предлагать и в отношении всех приложений, поддерживающих выбранные бизнес-процессы, хост-систем приложений и времени восстановления для хост-систем и приложений.
Использование резервного копирования
Достижение конечной цели восстановления происходит как в штатных, так и во внештатных ситуациях. Если в случае происшествия программы и данные потеряны, то следует обратиться к архиву для их восстановления. Для этого необходимо выполнить процедуру резервного копирования.
Состояние приложений и хост-систем, поддерживающих критичные бизнес-процессы, зависит от профессионализма и компетенции обслуживающего персонала. Таким образом, подготовка персонала, компетентного в вопросах восстановления инфраструктуры, поддерживающей бизнес-процессы, — ключевой момент планирования восстановления после происшествия.
Тестирование плана
Для того чтобы тестирование процедуры восстановления после происшествия было максимально эффективным, цели и критерии успеха должны быть четко определены. Их наличие — залог эффективности не только отдельных элементов плана восстановления, но и плана обеспечения непрерывности бизнеса в целом. Существует два основных критерия успешности восстановления.
- Время восстановления. Помимо теста восстановления, после системного сбоя тестируется и подтверждается временной промежуток для оповещения об аварии и оценки происшествия. Тестируются стандартные вычислительные процедуры и деревья вызовов для подтверждения точности процедур и контактной информации.
- Системное время восстановления. Задача восстановления подтверждает, что конечная цель восстановления может быть осуществлена в любое время за рамками теста восстановления после системного сбоя. Проверяются и подтверждаются стандартные вычислительные процедуры и действующие протоколы.
Тестирование плана восстановления после происшествия — непростая процедура. Общая задача плана обеспечения непрерывности бизнеса — продолжать бизнес-процессы, в то время как задача плана восстановления — моделировать по частям или целиком существующую промышленную ИТ-среду на альтернативном месте до того момента, как будут возобновлены обычные операции.
Применение плана восстановления после происшествия
Наличие плана восстановления критично для надежной защиты бизнеса компании. Планы должны отражать изменения в окружающей обстановке. Принципиальна проверка процессов управления на предмет их изменений с целью корректной эксплуатации плана. Если есть области, в которых не предусмотрена практика управления изменениями, ее следует ввести. Многие программные продукты по восстановлению рассматривают это как одно из требований.
Таким образом, план непрерывности бизнеса возобновляет бизнес-процессы в целом, а план восстановления после происшествия восстанавливает работоспособность ИТ-систем. Задача планирования восстановления после происшествия заключается в том, чтобы максимально оперативно возобновить работоспособность систем, поддерживающих как критичные бизнес-процессы, так и обычные операции.
Программа реагирования на инциденты
Для успешного восстановления непрерывности бизнеса необходимо разработать программу реагирования на инциденты (Incident Response Program). Под инцидентом безопасности понимается неблагоприятное событие в информационной системе и/или сети или угроза того, что такое событие может произойти. Инцидентами могут быть: неавторизованный доступ, атаки злоумышленников, вирусные атаки и пр. Независимо от вероятности инцидента важно, чтобы все шаги, предложенные программой, были осуществимы.
Для создания и поддержки программы реагирования на инциденты необходимо сформировать группу людей, ответственных за обработку инцидентов и соответствующим образом подготовленных — группу реагирования на компьютерные инциденты (Computer Incident Response Team). В зависимости от размера организации численность группы может варьироваться. Участники группы реагирования ответственны за документирование процессов разработки приложений, классификацию инцидентов, определение средств и технологий, используемых для обнаружения вторжения. Кроме того, они решают, должен ли быть исследован инцидент и каким образом (то есть юридические агентства, судебная работа и т. д.), а также поддерживают безопасность сети и обучают сотрудников в рамках всей организации.
Программа реагирования должна разрабатываться в соответствии с политикой и процедурами информационной безопасности и присутствовать как в электронном виде, так и в твердой копии. При каких-либо значительных исправлениях их коррекция должна происходить одновременно. Для облегчения этого процесса имеет смысл создать дистрибутивный список в корпоративной электронной почте для рассылки таких исправлений, чтобы все участники группы были осведомлены о любых изменениях или корректировках.
Инструментальные средства обеспечения непрерывности бизнеса
Сегодня на рынке представлен достаточно широкий спектр программного обеспечения для автоматизации процессов планирования и управления непрерывностью бизнеса. Такое программное обеспечение позволяет использовать универсальные архитектуры баз данных для упрощения процедур анализа рисков и развития планов по восстановлению и непрерывности бизнеса.
Кроме того, ПО способно упростить процессы поддержки текущих планов непрерывности бизнеса, синхронизировать и поддерживать актуальную информацию, используя интерфейсы других приложений, корректировать управление компанией с учетом планов непрерывности бизнеса.
В целом программное обеспечение планирования и управления непрерывностью бизнеса можно условно разделить на следующие категории.
- Автономные средства оценки воздействий на бизнес. Здесь ввод данных производится вручную менеджерами и затем экспортируется в поддерживаемые средства обеспечения непрерывности бизнеса.
- Генераторы планов непрерывности бизнеса. Эти средства представляют собой, по сути, экспертные системы с определенными базами знаний и позволяют сгенерировать актуальный план обеспечения непрерывности бизнеса компании.
- Базы данных планирования непрерывности бизнеса. Отображают необходимую информацию о планировании непрерывности бизнеса с учетом специфики деятельности компании.
- Средства совместного распределенного планирования непрерывности бизнеса. Эти средства позволяют реализовать некоторый корпоративный стандарт обеспечения непрерывности бизнеса в распределенной вычислительной среде.
В табл. 2 рассмотрены характерные особенности некоторых программных продуктов.
Так, например, RSM McGladrey основное внимание уделяет решениям по обеспечению непрерывности бизнеса в области бухгалтерской деятельности, а SunGard рассматривает вопросы планирования и управления непрерывностью бизнеса в контексте решений и услуг по обработке финансовой информации в корпоративных информационных системах. Типичные особенности программных продуктов обеспечения непрерывности бизнеса следующие:
- иерархически гибко настраиваемая структура;
- развитые функции планирования и управления непрерывностью бизнеса;
- возможность сопровождения и расширения вводимых планов непрерывности бизнеса для значительного количества бизнес-единиц и подразделений;
- возможность интеграции с другими приложениями для управления проектами и ресурсами;
- автоматизированные процедуры оценки воздействия на бизнес;
- развитая система электронных подсказок и помощи;
- поддержка современных Intranet-технологий.
В России вероятность техногенных и природных катастроф достаточно высока, чрезвычайные ситуации возникают чуть ли не ежедневно. При этом спектр угроз в области экономической, физической и информационной безопасности, а также перечень уязвимостей технической и информационной инфраструктуры в отечественном бизнесе постоянно растет. Понятно, что использование планов непрерывности бизнеса требует дополнительных затрат. Однако каждая компания получает ряд существенных преимуществ: быстрое и эффективное восстановление бизнеса в чрезвычайных ситуациях; минимизация финансовых потерь, удовлетворение требований клиентов, акционеров, руководства, аудиторов и других заинтересованных структур; уменьшение стоимости страховых контрактов и пр.
Таким образом, целесообразность планирования непрерывности бизнеса в каждой отечественной компании сегодня уже не вызывает сомнений.
Сергей Петренко — эксперт управления профессионального сервиса компании «АйТи», SPetrenko@it.ru
Ольга Ремизова — консультант управления профессионального сервиса компании «АйТи», info@it.ru
Поставщики решений и услуг
В настоящее время сложился достаточно развитый, структурированный рынок услуг и решений в области обеспечения непрерывности бизнеса. Характеристика некоторых предложений на этом рынке позволит составить представление о нем.
- Computer Alternate Processing Sites (CAPS) — оказывает консалтинговые услуги в области непрерывности бизнеса BCP, а также анализа воздействия на бизнес.
- Hewlett-Packard Business Continuity and Recovery Services — предлагает услуги планирования и тестирования BCP.
- IBM Business Continuity and Recovery Services (бизнес-составляющая IBM Global Services) — предоставляет консалтинговые услуги, включая анализ и управление рисками, планирование и поддержку BCP, антикризисное управление, оценку и планирование восстановления; службы восстановления — включая полностью оборудованные резервные компоненты технической инфраструктуры.
- SunGuard Availability Services оказывает полный спектр услуг по обеспечению требуемого уровня непрерывности и доступности корпоративных информационных систем.
- Business Protection Systems International (BPSI) предлагает набор средств Business Protector для создания и поддержания планов непрерывности бизнеса.
- Computer Security Consultants Inc. (CSCI) предлагает программный продукт восстановления RecoveryPАС.
- LBL Technology Partners реализует программу развития BCP LBL Contingency Planner, совместимую с Microsoft Office.
- Recovery Point Systems предлагает решение по восстановлению критичных функций бизнеса Integrated Disaster Recovery Site (IDRS).
- RSM McGladrey предлагает программу планирования непрерывности бизнеса Business Continuity Planning System на основе анализа и управления бизнес-рисками.
Состав работ
Стандартная схема планирования непрерывности бизнеса компании может включать в себя следующие работы:
- анализ бизнес- и информационно-технологических процессов, выявление наиболее критичных элементов операционной деятельности и технологической инфраструктуры компании с точки зрения их влияния на непрерывность основных бизнес-процессов;
- определение стратегий восстановления информационных и других технических систем в случае возникновения отказов и сбоев, а также обеспечение непрерывности бизнеса в чрезвычайных ситуациях;
- разработка и внедрение технической инфраструктуры компании, позволяющей поддерживать требуемый уровень непрерывности бизнеса;
- разработка плана обеспечения непрерывности бизнеса, его поддержка, эксплуатация и сопровождение.
Пример обеспечения непрерывности бизнеса |
Как правило, под планированием непрерывности бизнеса понимается процесс создания и поддержания в актуальном состоянии плана мероприятий, позволяющих если не парировать, то по крайней мере минимизировать возможные потери компании (финансовые, юридические, имиджевые и др.) в условиях активного воздействия внутренней и внешней среды. Формально этот процесс заключается в подготовке и сопровождении пакета документов, в которых отражаются наиболее опасные для компании угрозы, регламентируются вопросы распределения обязанностей и ответственности между сотрудниками компании, содержатся планы оповещения и действий в чрезвычайных ситуациях и пр. Например, план обеспечения непрерывности бизнеса может содержать перечень мероприятий, позволяющих парировать такие угрозы, как отказы аппаратных средств; разрушение блоков питания или элементов телекоммуникационной инфраструктуры компании; сбой приложений и баз данных; ошибки, связанные с человеческим фактором; вирусы, черви, «троянские кони» и т. д.; атаки злоумышленников; террористические акты; пожары; наводнения, удары молнией и другие стихийные бедствия.
Тщательно составленный документированный план обеспечения непрерывности бизнеса показывает, какие цели и задачи компании являются приоритетными в чрезвычайных ситуациях.
Пример плана обеспечения непрерывности бизнеса
Основные положения плана обеспечения непрерывности бизнеса (актуальность, основные цели и задачи, способы решения).
Оценка воздействия на бизнес:
- классификация возможных угроз непрерывности бизнеса;
- сценарии чрезвычайных ситуаций;
- уязвимости инфраструктуры бизнеса;
- определение возможного ущерба в случае происшествий;
- оценка остаточных рисков.
Деятельность компании в чрезвычайной ситуации:
- первоначальное реагирование на чрезвычайную ситуацию (оценка опасного события, объявление чрезвычайной ситуации, оповещение необходимого круга лиц, ввод в действие плана);
- мероприятия, обеспечивающие непрерывность деятельности компании в чрезвычайной ситуации и восстановление ее нормального функционирования.
Поддержание готовности к обеспечению непрерывности бизнеса:
- контроль правильности и корректировка содержания плана;
- составление списка адресов и процедуры рассылки плана;
- разработка программы повышения квалификации и ознакомления сотрудников с действиями, необходимыми для восстановления деятельности компании после происшествия;
- подготовка к опасным событиям, обеспечение безопасности и предотвращение бедствий;
- проверка готовности компании к действиям в чрезвычайной ситуации и обеспечению непрерывности бизнеса;
- резервное копирование критически важных данных и приложений.
Информационное обеспечение:
- приоритетные бизнес-процессы компании;
- списки внутренних и внешних ресурсов — технических средств, программного обеспечения, средств связи, документов, офисного оборудования и персонала;
- учетная информация о техническом, программном и другом обеспечении, необходимом для восстановления бизнеса компании в случае чрезвычайной ситуации;
- список лиц, которых необходимо оповестить о чрезвычайной ситуации с указанием адресов и телефонов;
- вспомогательная информация — планы и схемы, маршруты перевозок, адреса и т. п.;
- описание детальных пошаговых процедур, обеспечивающих четкое выполнение всех предусмотренных мер;
- функции и обязанности сотрудников компании в случае возникновения непредвиденных обстоятельств;
- сроки восстановления деятельности в зависимости от типа возникшей чрезвычайной ситуации;
- смета расходов, источники финансирования.
Техническое обеспечение:
- создание, поддержка и эксплуатация аппаратно-программных средств обеспечения непрерывности бизнеса;
- создание и поддержка резервного помещения.
Организационное обеспечение, состав и функции групп, ответственных за поддержку непрерывности бизнеса в случае происшествия. Формируются следующие группы:
- анализа и управления рисками;
- антикризисного управления;
- реагирования на инциденты;
- восстановления;
- обеспечения работы в резервном помещении;
- административной поддержки.