ITIL4之 IT服务连续性管理
服务连续性管理实践的目的是确保灾难发生时,服务的可用性和性能能够保持在足够的水平。本实践提供了一个框架机制,利用产生有效[url=]响应[/url]的能力来构建组织的弹性,以保障关键利益相关者的利益,还有组织的声誉、品牌和创造价值的活动。
定义:灾难
一个突发的意外事态,会对组织造成巨大损坏或严重损失。要被归类为灾难,这一事态必须与组织预定义的特定业务影响准则相匹配。服务连续性管理实践有助于确保服务提供者做好应对高影响事件的准备,这些事件会破坏组织的核心活动和/或信誉。确保服务的连续性变得越来越重要和困难。在数字化转型的背景下,服务连续性管理实践变得越来越重要,因为在各个行业,数字化服务的作用越来越大。对于在过去专注于非技术灾难的组织而言,重大服务中断可能产生灾难性的影响。
云解决方案的广泛使用,以及与合作伙伴和服务消费者的数字化服务的广泛整合,正在产生更加难以控制的新的关键依赖关系。合作伙伴和服务消费者通常会投资于高可用性和高连续性解决方案上,但是组织之间缺乏整合和一致性会产生新的脆弱性,这一点需要被了解并解决。
服务连续性管理实践与其他实践(包括可用性管理,容量和性能管理,信息安全管理,风险管理,服务设计,关系管理,架构管理和供应商管理实践)相结合,可以确保组织的服务具有弹性并为灾难性事件做好准备。
风险的概念是服务连续性管理实践的核心。该实践通常可以减轻无法被完全避免的高影响、低概率风险(因为某些风险因素不在组织的控制之下,例如自然灾害)。
简单来说,此实践与事件管理实践非常相似,不同之处在于其潜在的损害要大得多,并且它可能威胁到服务提供者创造价值的能力。
服务连续性管理实践与服务价值系统(SVS)中的可用性管理实践密切相关,并且在某些情况下可以合二为一。它也与公司背景下的业务连续性管理实践紧密相关,并可以纳入其中。
IT服务连续性的术语
定义:服务连续性
在发生灾难事件或中断性事件后,服务提供商在可接受的预定义级别上继续服务运行的能力。
在这个定义中,我们需要界定连续性管理的范畴是灾难,连续性管理是针对灾难性事件而制定的计划和响应措施。非灾难性事件的管理,一般不包括在IT服务连续性管理实践中,如
●小故障。根据业务影响,应将故障视为轻微或重大故障。重要的是要考虑诸如受影响的维修行动、故障规模、故障时间等因素。
●战略、政治、市场或行业事件
定义:服务连续性计划
服务连续性计划指导服务提供商在服务中断后响应、恢复和恢复到正常水平.
服务连续性计划通常包括:
●响应计划:服务提供商最初如何应对破坏性事件,以防止损坏,例如在火灾或网络攻击情况下。
●恢复计划:服务提供者如何恢复服务以实现RTO和RPO。
●恢复正常的操作计划:服务提供商在恢复后如何恢复正常操作。
指标:RTO和RPO
定义:RTO 恢复时间目标
在服务中断后,业务功能的缺乏严重影响组织之前,可以经过的最长时间。这表示必须恢复产品或活动或必须恢复资源的最长商定时间。
定义:RPO 恢复点目标
为了使活动在恢复时能够有效地运行,必须将活动使用的信息恢复到该点。
RTO 规定了业务可以中断的时间。RPO规定了可接受数据丢失的时间段。通常,RTO和RPO都是作为连续性管理的衡量指标,写入SLA中。
服务连续性管理的流程
服务连续性管理活动分为以下五个过程:
●服务连续性管理的治理
●业务影响分析
●制定和维护服务连续性计划
●测试服务连续性计划
●响应和恢复。
1. 服务连续性管理的治理
服务连续性治理主要包括三个活动,定义范围、策略选择和意识与演练计划的开发。一般做连续性的企业,主营业务都非庞大,IT系统更是错综复杂,交互繁多。出于经济效益的考虑,企业不可能保证所有的应用和基础设施组件都有备份,所以首先根据BIA(业务需求分析),确定关键业务和组件。然后根据不同的级别,选择不同的灾备方式和演练计划。
2. 业务影响分析 BIA
业务影响分析包括以下活动:
●VBF识别
●中断后果分析
●VBF相互依赖性识别
●确定服务连续性要求
ITIL 4中对于这些活动并未给出具体的实施方法。后面我会专门写一篇,如何开展BIA。BIA的难点在于技术实施层面,必须有系统架构师参与,进行风险评估也需要技术人员。
3. 制定和维护服务连续性计划
这个过程包括的步骤是:
●服务连续性策略制定
●服务连续性计划制定
●服务连续性计划初步测试
服务连续性策略可以包括连续性的等级,对应的RTO和RPO的目标,可用性目标,演练的等级。如:
金融领域的云计算平台容灾能力等级要求
影响范围 | 危害程度 | ||
较小影响 | 一般影响 | 严重影响 | |
内部辅助管理 | 1级 | 2级 | 3级 |
内部运营管理 | 2级 | 3级 | 4级 |
公民、法人和其他组织的金融权益 | 3级 | 4级 | 5级 |
国家金融稳定、金融秩序 | 4级 | 5级 | 6级 |
关键指标:
容灾等级 | RTO | RPO | 可用性 |
3级 | <=24小时 | <=24小时 | |
4级 | <=4小时 | <=1小时 | |
5级 | <=30分钟 | 约等于0 | |
6级 | <=2分钟 | 0 |
演练等级在《保险业信息系统灾难恢复管理指引(保监发[2008]20号)》规定为:桌面演练、模拟演练、实战演练、部分演练和全面演练。
4. 测试连续性计划
这个过程包括执行演练和连续性评审两个活动。
5. 响应和恢复
响应包括对应供应商服务连续性计划的调用。