Книга: ИТ Сервис-менеджмент. Введение

13.4. Виды деятельности

13.4. Виды деятельности

На рис 13.1 показаны виды работ, выполняемые в рамках процесса ITSCM. Цифры обозначают подразделы раздела 13.4, в которых описывается тот или иной вид деятельности.


Рис. 13.1. Модель Процесса Управления Непрерывностью ИТ-Сервисов (на основе модели OGC)

13.4.1. Определение охвата (области действия)[212] Процесса Управления Непрерывностью ИТ-сервисов

При инициализации процесса ITSCM необходимо рассмотрение всей организации в целом и выполнение следующих действий:

Определение политики – определение политики организации в отношении Управления Непрерывностью ИТ-сервисов следует осуществить по возможности быстрее и довести ее до сведения каждого сотрудника организации, чтобы все знали о необходимости процесса ITSCM. Руководство должно продемонстрировать свое твердое намерение реализовать данный процесс.

Определение области действия процесса и других важных для процесса областей – при выборе подхода к оценке риска и Анализу воздействия на бизнес (Business Impact Analysis) и методов их выполнения используются страховые требования, стандарты качества, такие как серия ISO-9000, стандарты Управления Безопасностью, например, BS7799 и общие принципы определения политики в области бизнеса. На этом этапе также определяются соответствующая структура менеджмента и процессов на случай чрезвычайной ситуации.

Выделение ресурсов – развертывание ИТ-среды на случай чрезвычайных обстоятельств потребует значительных затрат на персонал и ресурсы. Должно быть проведено обучение персонала для подготовки к выполнению второго этапа процесса ITSCM (Требования и стратегия).

Подготовка проектной организации – рекомендуется использовать формальные методы Управления Проектом, такие как PRINCE 2, совместно с программным обеспечением, предназначенным для целей планирования.

13.4.2. Анализ воздействия на бизнес[213]

Перед проведением анализа ИТ-услуг рекомендуется установить причины, почему компании необходимо включать Процесс Управления Непрерывностью ИТ-сервисов в общий Процесс Управления Непрерывностью Бизнеса, и определить потенциальное воздействие серьезных сбоев услуг. В некоторых случаях при возникновении чрезвычайной ситуации бизнес некоторое время еще может функционировать, и тогда основное внимание уделяется восстановлению услуг, в других случаях бизнес не может работать без ИТ-услуг, поэтому основное внимание уделяется предотвращению чрезвычайных ситуаций. В большинстве случаев необходимо найти баланс между этими двумя крайностями.

Среди возможных причин внедрения этого процесса могут быть следующие:

• защита бизнес-процессов;

• быстрое восстановление сервиса;

• необходимость выдержать конкуренцию;

• сохранение позиций на рынке;

• сохранение прибыльности;

• защита репутации компании.

Эти причины могут быть комбинированы. В финансовой сфере, например, в торговле валютными средствами, отсутствие информации о рынке ведет к приостановке торговли (основного бизнес-процесса), что означает потерю денег. Более того, если существует государственное требование регистрировать все валютные операции с использованием специализированной системы, то можно продолжать ведение бизнеса даже в случае повреждения этой системы, но рано или поздно это требование все равно будет нарушено, и тогда возможно наложение штрафа. В обоих случаях компания может потерять заказчиков и свои позиции на рынке.

Анализ сервисов

После того, как определена необходимость внедрения Процесса Управления Непрерывностью ИТ-сервисов, следует провести анализ ИТ-услуг, необходимых для бизнеса (например, информационные системы, офисные приложения, бухгалтерские приложения, электронная почта и т. д.), которые должны быть доступны в соответствии Соглашениям об Уровне Сервиса. Для некоторых услуг невысокой значимости могут быть достигнуты договоренности о предоставлении экстренного сервиса с ограниченными возможностями и доступностью. Уровни Сервиса во время восстановления могут быть изменены только по договоренности с заказчиком. Для критически важных услуг необходимо найти компромисс между превентивными мерами и способами восстановления.

Инфраструктура

После анализа сервисов выполняется оценка зависимостей между сервисами и ИТ-ресурсами. Информация из Процесса Управления Доступностью используется для анализа степени критичности ИТ-ресурсов для поддержки описанных ранее ИТ-услуг. Процесс Управления Возможностями предоставляет информацию о необходимых мощностях, а также помогает определить, на какое время эти услуги могут быть приостановлены с момента сбоя сервиса до его восстановления. В последствии такая информация может быть использована для определения способов восстановления по каждой услуге.

13.4.3. Оценка рисков

Официальная статистика по чрезвычайным ситуациям отсутствует, но во всем мире известны такие катастрофы, как:

Отравление газом Токийское метро, Япония (март 1995)
Отключение электроэнергии Окланд, Новая Зеландия (декабрь 1997)
Землетрясения Лос-Анджелес, США (январь 1994)
Кобе, Япония (январь 1995)
Атаки террористов Всемирный торговый центр, Нью-Йорк, США (февраль 1993)
Бишопсгейт, Лондон, Англия (апрель 1993)
Оклахома-сити, Оклахома, США (апрель 1995)
Доклэндс, Лондон, Англия (февраль 1996)
Манчестер, Англия (июнь 1996)
Всемирный торговый центр, Нью-Йорк, США (сентябрь 2001)
Наводнения Бангладеш (июль 1996)
Пакистан (август 1996)

Анализ рисков способен помочь в определении рисков, угрожающих бизнесу. Такой анализ дает ценную информацию руководству, т. к. он позволяет выявить вероятные угрозы и виды уязвимости и определить соответствующие превентивные меры. Поскольку поддержка Плана восстановления после чрезвычайной ситуации является относительно дорогим мероприятием, то сначала можно воспользоваться превентивными мерами. После того, как такие меры предприняты против наиболее серьезных рисков, следует определить, остались ли еще риски, для которых необходим План обеспечения непрерывности работы (Contingency Plan). На рис. 13.2 показаны связи между Анализом рисков и Управлением Рисками; они основываются на методе Анализа и Управления Рисками, разработанного ассоциацией CCTA (CCTA Risk Analysis and Management Method – CRAMM).


Рис. 13.2. Метод оценки рисков ассоциации CCTA (источник: OGC)

Данная модель позволяет поддерживать эффективное планирование на случай чрезвычайных обстоятельств путем реализации поэтапного подхода.

Анализ рисков

• Во-первых, должны быть определены вовлеченные компоненты (активы), такие как здания, системы, данные и т. д. Эффективная идентификация активов требует определения владельцев и назначения активов.

• Следующий этап – анализ угроз и зависимостей, а также оценка вероятности возникновения чрезвычайной ситуации (высокая, средняя, низкая), например, комбинация ненадежной системы энергоснабжения и района с большим количеством бурь и гроз.

• Далее – идентификация и классификация (высокая, средняя, низкая) уязвимостей. Молниеотвод может дать некоторую защиту от ударов молний, но они все же могут серьезно повлиять на работу сети и систем.

• И последний этап – оценка угроз и уязвимостей в контексте ИТ-компонентов для получения оценки риска.

При оценке риска следует учитывать область действия[214] процесса; фактически такая оценка является частью начала внедрения Процесса Управления Непрерывностью ИТ-сервисов (этап 1). Например, незначительные проблемы можно решить с помощью мер, принимаемых Процессом Управления Доступностью, в то время как другие риски для бизнеса могут выходить за сферу действия процесса ITSCM.

13.4.4. Стратегия обеспечения непрерывности ИТ-сервисов

Многие направления бизнеса стараются найти равновесие между сокращением степени риска и планированием работ по восстановлению. Следует понимать разницу между такими понятиями, как сокращение риска, работы по восстановлению бизнес-деятельности и способы восстановления ИТ. Ниже обсуждается связь между сокращением степени риска (предотвращение) и планированием восстановления (способы восстановления).

Угрозы никогда нельзя устранить полностью. Например, пожар в соседнем здании может повредить ваше здание. Уменьшение одного вида риска может вызвать повышение другого. Например, аутсорсинг может привести к повышению рисков в области безопасности.

Превентивные меры

Превентивные меры можно принимать на основе анализа рисков при тщательном учете затрат и рисков. Такие меры могут помочь в уменьшении вероятности непредвиденных обстоятельств или степени их воздействия, и тем самым сократить сферу действия Плана восстановления. Превентивные меры действенны против пыли, чрезвычайно высоких или низких температур, пожаров, утечек воды, прекращения энергоснабжения и воровства. Остальные виды рисков будут учтены в Плане восстановления.

Метод «Неприступной крепости»[215] является самой дорогой превентивной мерой. Он позволяет устранить большинство видов уязвимости, например, путем строительства бункера с собственным энерго- и водоснабжением. Однако такой подход может привести к появлению других уязвимых мест, например, риску сбоя сети или появлению пробок на дорогах, что только затруднит восстановление. Подход «Неприступной крепости» пригоден для крупных вычислительных центров, которые слишком сложны для разработки для них Плана восстановления. В наше время важно дополнять данный подход возможностью быстрого реагирования[216], т. е. возможностью направляться туда, где есть проблема, и быстро ее решать, пока она не вышла из-под контроля.

Выбор способов восстановления[217]

Если остались еще виды рисков, которые не удалось устранить с помощью превентивных мер, тогда для них производится планирование восстановления. Способы восстановления должны включать в себя:

Персонал и размещение – помещение, мебель, транспорт, способ перемещения и т. д.

ИТ-системы и сети – способы восстановления будут обсуждаться ниже.

Вспомогательные службы – электро- и водоснабжение, телефон, почта и курьерская связь.

Архивы – дела, документы, архив на бумажных носителях и справочные материалы.

Услуги сторонних организаций – таких, как поставщиков услуг электронной почты и Интернета.

Существует несколько способов для быстрого восстановления ИТ-услуг:

Ничего не делать – лишь немногие бизнес-организации могут себе это позволить. Это больше напоминает стремление уйти от проблем, устраниться от решения. Подразделения, которые думают, что могут обойтись без средств восстановления ИТ-сервиса, создают о себе впечатление, как о структурах, ничего не значащих для целей бизнеса, которые могут не потребоваться в случае чрезвычайной ситуации. Тем не менее для каждого ИТ-сервиса должна быть рассмотрена такая возможность.

Возврат к ручной (на основе бумажных носителей) системе – этот способ обычно не подходит для услуг, критически важных для бизнеса, поскольку трудно найти достаточное количество персонала, имеющего опыт работы с традиционными системами. Более того, бумажные системы, существовавшие в прошлом, теперь могут уже не существовать. Тем не менее такие системы можно использовать для менее важных, второстепенных услуг. Большинство планов восстановления включают в себя процедуры резервного копирования на бумажные носители. Например, способом восстановления для терминала кредитных карт может быть использование бумажных оттисков (слипов) с кредитных карт.

Взаимные соглашения – этот способ можно использовать в том случае, когда две организации используют одинаковое аппаратное обеспечение и между ними существует договоренность о предоставлении друг другу необходимых устройств в случае возникновения чрезвычайных обстоятельств. Для данного способа две бизнес-структуры должны заключить соглашение и координировать все изменения, с тем, чтобы сохранить взаимозаменяемость двух сред. Процесс Управления Возможностями должен следить за тем, чтобы зарезервированные возможности не использовались для других целей или чтобы их можно было быстро освободить. В настоящее время этот способ не очень привлекателен из-за роста использования онлайновых систем, таких как сети банкоматов (ATM) и онлайновые банковские системы для клиентов, т.к. эти системы должны быть доступны круглосуточно в течение всего времени.

Поэтапное восстановление («холодный» резервный центр[218]) – этот способ можно использовать в тех сферах бизнеса, где можно обойтись без ИТ-услуг в течение определенного периода времени, например, 72-х часов. При использовании данного способа заказчику предоставляется свободный компьютерный зал на заранее оговоренной территории, стационарный центр[219] или мобильная компьютерная комната, доставляемая на место расположения компании, - мобильный центр[220]. Такой компьютерный центр должен быть снабжен электропитанием, кондиционером, сетевыми коммуникациями и телефонной связью. Данный способ может быть предоставлен по договору с внешним поставщиком. Кроме того, необходимо отдельное соглашение с поставщиком, гарантирующее быструю доставку ИТ-компонент. Общее преимущество такого подхода состоит в том, что эти средства восстановления доступны всегда. Кроме того, для стационарного и мобильного компьютерного центра преимущества и недостатки различаются и зависят от таких аспектов, как:

Расстояние до центра – обычно существует ограниченное количество поставщиков, предоставляющих услуги стационарного центра, и он может находиться на некотором расстоянии от заказчика. Этот недостаток может быть компенсирован использованием мобильной станции.

Время – стационарные залы доступны лишь на определенное время.

Задержка – в любом случае доставка необходимого компьютерного оборудования занимает определенное время.

Сеть – часто возникают трудности с предоставлением нужных телекоммуникационных средств. Оборудование передвижной станции можно подсоединить к сети в основном используемом здании.

Промежуточное восстановление («теплый» резерв[221]) – данный способ обеспечивает доступ к аналогичной операционной среде, в которой можно восстановить обычное предоставление услуг в течение короткого промежутка времени (от 24 до 72 часов). Существует три варианта этого способа:

Внутренний (совместное устранение неисправности): применим в тех случаях, когда бизнес располагается на нескольких площадках или имеет выделенную среду тестирования, которую можно использовать в качестве рабочей среды. Данный способ обеспечивает полное восстановление при минимальных затратах времени на переключение. В организациях с несколькими распределенными системами часто используется один из вариантов этого подхода, когда на каждой системе резервируется часть требуемых мощностей. Мониторинг таких свободных мощностей осуществляется Процессом Управления Мощностями (аналогично варианту использования взаимных соглашений – см. выше).

Внешний: некоторые поставщики услуг предлагают этот способ как коммерческую услугу. При этом затраты распределяются между несколькими заказчиками. Расходы по данному варианту зависят от того, какое программное и аппаратное обеспечение потребуется, на какой период времени будут предоставляться средства (например, на 16 недель). Часто этот способ помогает сохранить работоспособность на период времени, в течение которого активируется «холодный» резервный центр. Данный вариант способа промежуточного восстановления относительно дорогостоящий и предоставленный центр, скорее всего, будет находиться на некотором удалении от основной территории.

Мобильный: в данном варианте готовая к работе инфраструктура размешается в трейлере, который используется как компьютерный зал и оборудован устройствами контроля за окружающей средой, такими как кондиционеры. У ИТ-организации должно быть место для парковки такого трейлера. В специально выделенных пунктах на некотором расстоянии от основного здания должны быть предусмотрены источники электропитания, телекоммуникационные каналы и хранилище данных. Преимуществами такой версии являются быстрое время реагирования и близость к месту расположения компании. Данный способ доступен только для ограниченного числа технических платформ. Некоторые крупные поставщики оборудования предлагают несколько трейлеров со стандартными конфигурациями аппаратного обеспечения. В согласованный момент времени, например, раз в год, такой трейлер направляется к месту расположения бизнеса для проверки Плана восстановления. Кроме того, такая процедура позволяет произвести тестирование перехода[222] на новую версию операционной системы.

Немедленное восстановление («горячий» старт, «горячее» восстановление[223]) – данный способ обеспечивает немедленное или очень быстрое восстановление работы менее чем за 24 часа путем предоставления идентичной рабочей среды и зеркального отображения данных, а возможно, и рабочих процессов. Последний вариант обычно разрабатывается при тесном взаимодействии с Процессом Управления Доступностью.

Комбинации способов – часто План на случай чрезвычайных обстоятельств[224] включает в себя более дорогой способ восстановления, который используется до активизации более дешевого варианта. Например, трейлер, оборудованный как передвижной вычислительный центр (мобильный «горячий» старт), может служить временным решением до тех пор, пока не приедет мобильный центр и не будут доставлены новые главные сервера[225] (передвижной «холодный» старт). Нормальная работа будет возобновлена после восстановления здания и установки в нем новых главных компьютеров.

13.4.5. Организация процесса и планирование внедрения

После того, как определена стратегия бизнеса и сделан выбор одного из перечисленных способов восстановления, необходимо переходить к реализации Процесса Управления Непрерывностью ИТ-сервисов и разработки детальных планов для использования выбранных средств восстановления. Реализацией процесса ITSCM должна заниматься специальная группа. Ее организация может включать в себя назначение руководителя (Руководитель на случай кризисной ситуации[226]), координацию работ и формирование восстановительных команд каждого сервиса.

На самом высоком уровне должен быть разработан общий план, охватывающий следующие вопросы:

• План экстренного реагирования;

• План оценки повреждений;

• План восстановления работы;

• План работы с важными данными (что делать с данными, включая записи на бумажных носителях);

• План руководства на случай кризисной ситуации и связь с общественностью (PR).

Все эти планы используются для оценки экстренных ситуаций и определения мер реагирования на них. После этого можно принимать решение об инициировании процесса восстановления бизнеса, при котором начинают действовать планы следующего уровня, включающие:

• План размещения и оказания услуг;

• План по вычислительным системам и локальным сетям;

• План по телекоммуникациям (доступ и каналы связи);

• План обеспечения безопасности (целостность данных и сетей);

• План по персоналу;

• Финансовые и административные планы.

13.4.6. Применение превентивных мер и способов восстановления

Этот этап заключается в практическом воплощении определенных ранее превентивных мер и способов восстановления. Превентивные меры по уменьшению степени воздействия предпринимаются совместно с деятельностью в рамках Процесса Управления Доступностью и могут включать:

• Использование бесперебойных источников питания и резервных источников электропитания;

• Использование отказоустойчивых систем[227];

• Использование удаленных систем хранения данных и RAID-массивов и т. д.

Также должен быть объявлен стартовый срок для активизации резервных соглашений, включающих персонал, здания и телекоммуникации. Даже еще во время действия непредвиденных обстоятельств уже можно начинать работы по восстановлению нормальной деятельности и заказу новых ИТ-компонентов. Рамочные неактивированные («дремлющие») договоры на такой случай могут быть заключены с поставщиками заранее. В этом случае уже будут подписаны заказы на поставку компонентов по согласованной ранее цене. В случае чрезвычайной ситуации поставщик будет исполнять заказ без необходимости обсуждения его пены. Такие неактивированные («дремлющие») договоры следует пересматривать каждый год, т. к. цены и модели технических средств могут изменяться. При корректировке договоров следует учитывать базисные конфигурации, зарегистрированные в рамках Процесса Управления Конфигурациями. При подготовке резервных соглашений могут осуществляться следующие виды деятельности:

• ведение переговоров со сторонними организациями по вопросам удаленных средств восстановления;

• поддержка и оснащение средств восстановления;

• закупка и установка резервного аппаратного обеспечения (неактивированные договоры);

• управление неактивированными («дремлющими») договорами.

13.4.7. Разработка планов и процедур восстановления

Планы должны быть разработаны в деталях и стать официальными документами, т. к. Планы восстановления требуют поддержки, и все изменения в них должны согласовываться заинтересованными сторонами. Эта информация также должна доводиться до сведения всех участников. Основные проблемы связаны с изменениями в инфраструктуре и Изменениями Уровней Сервиса. Например, переход на новую платформу среднего класса[228] может привести к тому, что не будет эквивалентного оборудования в резервном центре «теплого», внешнего старта. По этой причине Процесс Управления Конфигурациями играет важную роль в мониторинге базисных конфигураций с учетом Плана восстановления. В плане также должны быть определены процедуры, необходимые для его выполнения.

План восстановления

План восстановления должен включать все виды деятельности по восстановлению бизнес-активности и ИТ-услуг:

Введение – описание структуры плана и предполагаемых средств восстановления.

Обновление – описание процедур и соглашений по поддержке актуальности плана и отслеживанию изменений в инфраструктуре.

Маршрутный лист – план делится на разделы, каждый из которых определяет действия, выполняемые конкретной группой специалистов. Маршрутный лист показывает, какие разделы плана должны быть направлены в каждую группу.

Начало восстановления – описание времени и условий начала действия плана.

Классификация чрезвычайных обстоятельств – если в плане дается описание процедур на случай различных чрезвычайных обстоятельств, то они должны быть описаны с точки зрения их серьезности (незначительные, среднего уровня серьезности, серьезные), длительности (день, неделя, месяцы) и уровня повреждений (незначительные, ограниченные, серьезные).

Разделы для участвующих групп специалистов – план должен быть разделен на шесть разделов – по количеству областей действия и закрепленных на за ними групп специалистов:

Администрация – как и когда вводить план в действие, какие руководители и специалисты участвуют в нем, где находиться центр управления?

ИТ-инфраструктура – аппаратное и программное обеспечение, телекоммуникационные средства, включенные в систему восстановления и соответствующие процедуры, а также неактивированные («дремлющие») договоры на закупку новых ИТ-компонентов.

Персонал – персонал, необходимый для работы в резервном центре, возможно, средства транспортировки и размещение персонала, если резервный центр расположен удалено от основного месторасположения.

Безопасность – инструкции по защите от краж, пожаров и взрывов, как в основном здании, так и на удаленной площадке, а также информация о внешних хранилищах, таких как склады и подвалы.

Площадки восстановления – информация о договорах, персонале с указанием конкретных функций, системе безопасности и транспорте.

Возврат к нормальным условиям – процедуры восстановления нормальной инфраструктуры (например, здания), условия, при которых начинают действовать эти процедуры и соответствующие неактивированные («дремлющие») контракты.

Процедуры

Процедуры разрабатываются на основе Плана восстановления. Они должны быть эффективными[229], так, чтобы каждый мог выполнять работы по восстановлению, следуя этим процедурам. Процедуры должны включать:

• инсталляцию и тестирование технических средств и сетевых компонентов;

• восстановление приложений, баз данных и других данных.

Эти и другие необходимые процедуры должны прилагаться к Плану восстановления.

13.4.8. Начальное тестирование

Начальное тестирование – критически важный аспект процесса ITSCM. Тесты следует проводить в начале работы, потом после проведения значительных изменений и затем, как минимум, один раз год. ИТ-подразделения отвечают за тестирование эффективности планов и процедур в отношении ИТ-элементов. Тесты могут проводиться с предварительным объявлением или без него.

13.4.9. Обучение и осведомление

Обучение персонала ИТ-подразделения и других отделов компании и осведомленность всего персонала организации являются важными условиями успешной реализации Процесса Управления Непрерывностью ИТ-сервисов.

Персонал ИТ-подразделения должен проводить обучение других членов команды восстановления бизнеса, незнакомых с вопросами информационных технологий, чтобы они могли оказать необходимую поддержку при проведении восстановительных работ. Обучение и тестирование должно охватывать как центральные, так и удаленные средства, предусмотренные на случай чрезвычайных обстоятельств.

13.4.10. Анализ и аудит

Следует регулярно проводить аудит и проверять актуальность всех планов. Такая проверка затрагивает все аспекты Процесса Управления Непрерывностью ИТ-сервисов. В области ИТ такой аудит должен проводиться при каждом значительном изменении ИТ-инфраструктуры, например, при вводе в операционную среду новых систем и сетей и появлении новых поставщиков. Аудит также должен проводиться при любом изменении стратегии ИТ-подразделения или бизнеса. Организации, где происходят быстрые и частые изменения, могут внедрить регулярную программу по проверке концепции процесса ITSCM. Любые изменения в планах и стратегии, появившиеся в результате проведения таких проверок, должны быть реализованы под руководством Процесса Управления Изменениями.

13.4.11. Тестирование

Необходимо проводить регулярное тестирование Плана восстановления, подобно объявлению учебных тревог на борту корабля. Если в компании изучение плана начинается после того, как произошла чрезвычайная ситуация, то, вероятнее всего, у такой организации будет немало проблем с восстановлением. Тестирование позволяет выявить слабые места плана и изменения, которые не были учтены. В некоторых случаях можно проводить тестирование изменений на средствах восстановления прежде, чем вводить их в действующую ИТ-инфраструктуру.

13.4.12. Управление Изменениями

Процесс Управления Изменениями играет важную роль в поддержании актуальности Планов восстановления. Необходимо проводить анализ воздействия любого изменения на План восстановления.

13.4.13. Обеспечение гарантий[230]

Обеспечение гарантий работоспособности процесса означает проверку соответствия качества процесса (процедур и документации) бизнес-потребностям компании.

Оглавление книги


Генерация: 0.046. Запросов К БД/Cache: 0 / 2
поделиться
Вверх Вниз