原文:《如何避免错误导致的数据中心故障?》

如何运行一个庞杂的机房,进行无数的主动和被动的操作,同时避免错误导致的数据中心故障?

image

1、以终为始

以终为始是一种以结果为导向的思维方式,提示人们在做事情前要先明确做事情的最终目的,也就是“不忘初心,方得始终”。数据中心的终极目标是支持业务系统的不间断运行。在接手一个数据中心的运维任务之前,我们首先需要明确业务连续性目标,然后才能制定相应的运维策略。

2、以人为本

70%的数据中心故障是由人为造成的。与此同时,即使有最先进的监控系统,数据中心内无论主动保养操作,还是应急反应,都还需要依赖于人员的最终决策和操作。所以,配备足够的人员、有责任心、经验丰富的人员、对于数据中心的安全运行至关重要。

3、培训与学习

学习是一种修炼。有一种说法“最好的运维团队只不过是犯了足够的错误就修炼出来的”。数据中心基础设施牵涉到电力、暖通、弱电、消防、建筑等诸多专业,对于数据中心运维团队来说,需要学习的专业知识非常多。同时,每一个数据中心的配置和特定的操作流程都不完全相同。因此,培训与学习应该成为运维团队管理的一个重要组成部门。

4、建立管理体系

数据中心基础设施的运维管理工作的管理对象包括整个庞大的基础设施、运维团队、服务对象(IT部门或者IDC客户),是一项系统性很强的工作,需要建立起一个管理体系。在整个运维管理系统体系中最重要的三个方面是设备保养体系、与所有相关部门的沟通机制、以及支持整个数据中心生命周期管理的财务预算体系。

5、规范操作流程

任何规范化的企业管理,都不可避免地需要引入流程,数据中心运维管理也不例外。完全基于个人经验和判断的操作,往往隐藏着重大的故障风险。数据中心就是要强化流程管理。任何重要的操作,必须严格按照流程执行。建立流程文化是数据中心规范化管理的一个重要环节。数据中心最重要的三类流程是标准操作流程(SOP),维护保养操作流程(MOP),和应急相应流程(EOP)。

6、动态管控

除了之前提到的管理体系和操作流程这些相对静态的工作以外,数据中心还需要进行动态的管控。近几年,IT负载的动态性表现得越来越明显。一方面,IT设备的增加速度比较快。新的业务系统上线可能导致IT负载在短期内有较大的增加。另一方面,企业大量采用虚拟化技术以后,可能会出现机房内各机柜的IT负载在一天范围内有较大变化的情况。基础设施运维团队需要针对这种IT负载的动态性作出相应的对策。

7、持续改善

大型数据中心的出现只是近几年的事情。当数据中心超过一定规模的时候,管理变得复杂,已经超越原来简单的依赖于少数运维人员的责任心的时代,需要的是完整的管理思想和方法论。国内数据中心基础设施运维体系的成熟度大致处于三个等级的状态:基础级、成长级、文化级。

8、用运维管理工具

实践已经证明,用一个优秀的运维管理系统可以大幅度的提升运维管理效率。可以自定义不同的运维流程和页面字段,每一个流程可进行服务级别SLA的设置。督促运维工程师解决故障。另外,运维经理可以从PC或者移动端随时关注运维流程的进程。一套运维管理工具包含有事件管理、问题管理、变更管理、发布管理、知识库、配置管理、拓扑图、巡检、等功能,可以实现运维整体的安全、可控、高效的管理。



-------------------------------------


企业应深入梳理和落地ITIL管理体系 ITIL概述

ITIL4作为信息技术服务管理(ITSM)领域的最新框架,为企业提供了统一且可持续的IT服务管理方式。这一框架的核心在于服务价值系统(SVS),它将服务管理定义为"管理服务的一种实践,通过该实践,服务提供商通过有效的和高质量的服务来满足客户的需求,从而实现商业目标"。

ITIL4的发展历程可以追溯到20世纪80年代,最初由英国政府提出,旨在提高IT服务质量。随着时间的推移,ITIL不断演变,以适应不断变化的IT环境和业务需求。ITIL4相较于之前的版本,发生了显著的变化:

  1. 从流程导向转向价值导向:ITIL4更加注重创造价值,而不仅仅是遵循流程。

  2. 引入服务价值链:提供了一个灵活的框架,用于创建、交付和持续改进服务。

  3. 强调协作和整合:鼓励不同部门之间的合作,以及IT与业务的融合。

  4. 关注数字化转型:提供了应对数字化挑战的指导。


image

ITIL4的核心理念包括:

  1. 以客户为中心:始终将客户需求和体验放在首位。

  2. 持续改进:不断寻求改进服务和管理方式的方法。

  3. 整体思考:考虑服务的各个方面及其相互关系。

  4. 协作工作:鼓励跨部门和跨团队的协作。

  5. 简单实用:避免过度复杂化,专注于实际应用。


通过采用ITIL 4框架,企业可以更好地应对数字化时代的挑战,提高IT服务管理的效率和质量,从而为业务创造更大的价值。

ITIL4对IT运维管理的具体影响

ITIL4的引入对IT运维管理产生了深远的影响,改变了传统的运维模式和工作方式。以下是ITIL 4对IT运维管理的具体影响:

工作重心转变:从技术运维到业务运维

ITIL4框架的引入促使IT运维工作的重心从单纯的技术运维转向更加注重业务价值的业务运维。这一转变反映了IT部门在企业中的角色变化,从技术支持者转变为业务合作伙伴。

转变原因:

  1. 数字化转型需求:企业数字化转型的加速要求IT部门更加贴近业务需求。

  2. 客户体验重要性提升:随着市场竞争加剧,客户体验成为企业成功的关键因素。

  3. 技术复杂性增加:新兴技术的应用使得单纯的技术运维难以满足业务需求。