云效劳器故障应急预案一、 目的为了确保云效劳器〔以下简称云平台〕使用过程中遇到 突发大事后能正确、有序、高效地进展应急处理,保障工作 的正常运转,结合实际,特制定本预案
二、适用范围本预案适用于云平台中可能消灭的各类突发大事
三、预案流程云平台效劳故障预防措施包括分析风险,建立检测体 系,预备应急处理措施,把握影响扩大
1 上报各部门在云平台使用过程中遇到突发问题导致系统无法正常运转时,报技术部系统对接人确认,状况属实马上报 知运维工程师和数据库治理员
2 了解和分析依据实际状况,技术部安排应急值班〔附表 1〕,确保到岗到人,联络畅通,技术人员即时开展软件的检修工作,对具体状况进展了解并进展初步推断、处理,并将初步状况 上报运维工程师知晓
3处理方法3
1如突发问题为操作系统引起首先由技术人员对突发问题进展分析,确定引起问题的具体缘由,如操作系统已无法启动,则由技术人员将具体状况通报运维工程师,进展系统备份恢复,如操作系统可启动, 则由技术小组依据实际状况进展妥当快速处理
2如突发问题为软件引起首先由技术人员收集系统日志,对突发问题进展分析, 确定引起问题的具体缘由,通过争论确定初步解决方案,并 对突发问题进展初步解决,如仍无法解决,则由技术人员备 份数据库后,重装云平台解决
3如突发问题为网络引起技术人员先将问题反响给数据中心运维人员,协调网络 治理员进展初步检查后确定问题缘由,并在最短时间内赐予 解决
在大事处理过程中,技术人员要随时将突发问题处理 状况上报数据中心运维人员
4 如突发问题为数据库引起技术人员先将问题反响给数据库治理员和效劳器运维 人员,确定问题
数据库软件本身问题,可切换至实时备份数据库
也可以承受建立数据库,恢复备份的数据库文件, 假设原云效劳器都无法恢复,可以承受其他云效劳器进展恢复
5 特别状况处理