运维应急故障处 理 方 案 ( 总1 1 页 ) 本 页 仅 作 为文档封面,使用时可以删除 This docu ment is for reference only -rar21y ear.March 运维应急故障 处理方案 文件编码 AQ2I-02-S001 版本 V03 文件层级 □ 一阶 □ 二阶 ■ 三阶 文件类别 ■体系文件 □技术文件 编制部门 运维部 机密等级 ■内文 □秘密 □机密 □绝密 编制人 文件类别 ■通用 □项目 审核 编制日期 审批 生效日期 总页数 9 分发编号 01 文件发布盖章 文件制/ 修订记录 页码 章节 制/修订记录 版本 修订人 修订日期 备注 修订前 修订后 全部 全部 首次制定 无 V01 2,3 4,5 职责/作业内容 V01 V02 全部 全部 按新的角色职责定义更新角色 V02 V03 1 目的 用于突发性事件发生后的应急处理措施,确保在紧急情况下仍能保证系统平台正常运行 2 适用范围 本程序适用于所有在系统平台运行过程中能事先预测到的非自然灾害所产生的突发性事件。 3 术语和定义 突发事件: 由于系统软件,硬件,接入线路,机房电力,温度等发生问题和突发意外,引起故障时间达 30 分钟以上,造成关键服务不可用,形成重大影响的事件。 4 职责 运维工程师: 负责突发性事件应急处理计划和对策的拟定和执行。 平台研发部,移动应用部,客户服务部,服务营销部: 由部门负责人及相关人员共同处理突发性应急事件。 质量管理工程师: 负责突发性事件应急处理计划和对策的监督执行。 5 作业内容 突发事件分类和应急处理 基础设施环境不可用 包括运营商网络割接、机房电力、空调、线路接入等基础设施出现故障,且影响时间高于 30 分钟的。 对于运营商已告知问题原因时处理方案: 1.提前通知相关运营人员和客户服务部 2.通告影响时间,影响范围 3.公告用户 4.调整域名解析,启用容灾机房 对于运营商未告知问题原因时处理方案: 1.紧急联络机房接口人 2.了解故障原因,和影响时间,评估影响范围 3.紧急公告,启用预案同已知问题处理 设备不可用 服务器硬件故障、交换机及防火墙等网络设备发生故障,且影响时间高于 30 分钟的故障处理方案: 1.通知相关运营人员和客户服务部2.启用备份设备 3.分析故障原因,通知厂家售后 服务不可用 软件程序问题,且影响时间高于 30 分钟的故障处理方案: 1.通知相关运营人员和客户服务部 2.回滚到上一个稳定软件版本 3.保存日志文件,分析...