机房基础设施故障(事故)上报处置流程 一、目标 加强和法律规范化中心机房基础设施故障(事故)的报告和处置流程,提高运维保障效率,保证故障(事故)的快速反应并及时修复、恢复,使损失降低到最低。 二、范围 中心机房,共计 3 个机房区域。 三、定义 3.1 一级故障: 故障影响范围小,不会对业务系统造成中断影响,并且不会对其它系统使用造成影响。 3.2 二级故障: 关键系统单个设备或独立系统故障,造成单个或局部业务系统中断,不会造成重大业务系统运行中断,不会造成关键系统运行中断。 3.3 三级故障: 外部出现供水、供电、网络系统等中断,关键性系统造成大面积中断。涉及到外协单位修复,并且无法在短时间(2 小时)内恢复,可能造成重大损失。 四、故障报告原则 先抢修,同报告;先核心,后边缘;先始端,后末端,分故障等级进行处理。 五、故障(事故)类型 5.1 一级故障 单台的机柜 PDU 断电、单台 UPS 及空调关键设备报警、机房温度上升到 30℃以上、空调漏水影响到其他区域等。 5.2 二级故障 单台 UPS 电源故障停机、单台空调机组故障停机、环控系统无法检测数据、机房温度超过 35℃等。 5.3 三级故障 UPS 前端供电中断、空调配电柜前端供电中断、空调冷冻水供水中断(失压)、机房温度超过 40℃、网络中断等。 六、故障报告流程 6.1 当发现一级故障的情况下,当班运维人员首先进行故障确认,确认故障后进行一般性修复,无法修复的设备及时通报运维管理负责人以及数据中心当日的值班民警 ,运维负责人通知相应的技术工程师到场维修。事故恢复后形成事故总结报告。 6.2 当发现二级故障的情况下,当班运维人员首先通知运维负责人以及数据中心当日值班民警,值班民警及运维负责人及时赶到现场,同时推断故障产生的原因。值班民警、运维负责人和相应专业技术工程师协调沟通相关部门,相关单位派维修工程师进驻现场解决,短时间(1 小时)无法解决的通知项目经理,值班民警及时通知数据中心主管领导。事故恢复后形成事故总结报告。 6.3 当发现三级故障情况下,当班运维人员首先通知运维负责人、项目经理以及值班民警并告知物业管理部门相关人员。值班民警、项目经理及运维负责人及时赶到现场,推断故障产生原因上报公司上级领导,值班民警上报主管领导和数据中心主要领导。由相应的数据中心领导、项目经理及物业部领导联系外协单位进行解决。事故恢复后形成事故总结报告。 七、故障...