IT 运维服务危机管理讨论 1 危机管理的特点 (1)复杂性随着知识产权事业的高速进展,专利信息化水平不断提高,服务器设备、存储、网络交换机、数据库、中间件等系统不断增加,IT 运维规模越来越大,在一定程度上增加了运维的复杂性,另外还涉及不同厂商、不同品牌等,IT 环境结构庞大、复杂,各业务系统调用接口众多,从而导致故障定位困难。(2)先兆性 IT 系统发生故障时,会有一定的先兆性,例如:设备硬件异响、内存、CPU 使用率高、监控指标达到预警值等,需要运维人员根据经验、能力敏锐察觉设备故障先兆表现,及时发现问题,快速定位,把问题解决在萌芽状态。(3)突发性 IT 运维中,也会有一些突发性故障,例如机房停电、漏水、消防火警等,对于这类紧急情况的处理需要根据应急预案进行操作。需要运维人员沉着冷静,正确应对。突发性故障假如不能及时响应,正确应对,造成的危害将是灾难性的。这就要求必须提前制定相应的应急预案。 2 危机主要表现 (1)服务台故障报修量经过统计近几年服务台故障报修数量(包括桌面客户端、业务系统、服务器、存储、电话、网络、动力环境):2024 年 8 万件,2024 年 9 万件,2024 年突破 9 万,2024 年将近 10 万。如图 1 所示看出随着设备使用年限的增长,已进入故障高发期。(2)机房动力环境机房动力环境包括空调、UPS、消防、门禁、新风机等,其中空调故障占 87.5%,UPS 故障占2.5%,外围保障占 10%。机房动力环境故障主要集中在空调故障,空调故障有可能导致机房高温,造成服务器设备宕机,进而影响业务系统,空调故障危害性大,影响面广,是机房动力环境需要重点关注的对象。(3)IT 业务系统 IT 业务系统包括服务器、网络、小机、安全设备、主机、数据库、中间件、存储等。根据 IT 工作的特点,可以将 IT 业务系统故障分为两类:硬件和软件。一种是服务器、网络交换机等硬件设备故障,另一种是数据库、中间件等软件故障。IT业务系统故障主要集中在硬件故障,经过统计数据发现,硬件故障占 85%,软件故障占 15%。其中硬件故障又细分为电源、硬盘、内存、其他几类,分别占 45%,35%,3%,17%。在硬件故障中,电源和硬盘为主要故障占 80%。 3 现有危机管理举措 (1)应急预案根据各自业务特点制定了相应的应急预案,在危机发生时运维人员能够做到有预案可依,正确应对,把危机带来的危害降到最低。例如机房动环部分有停电应急预案、漏水应急预案、...