内部佶料运维应急故障处理方案文件编码AQ2I-02-S001版本V03文件层级□一阶口二阶■三阶文件类别■体系文件□技术文件编制部门运维部机密等级■内文□秘密□机密□绝密编制人文件类别■通用□项目审核编制日期审批生效日期总页数9分发编号01文件发布盖章公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码1/9文件制/修订记录页码早节制/修订记录版本修订人修订日期备注修订前修订后全部全部首次制定无V012,34,5职责/作业内容V01V02全部全部按新的角色职责定义更新角色V02V03C'"*八:化7、"「'•,'/:rjf^Hr■V公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码291目的用于突发性事件发生后的应急处理措施,确保在紧急情况下仍能保证系统平台正常运行2适用范围本程序适用于所有在系统平台运行过程中能事先预测到的非自然灾害所产生的突发性事件。3/术语和疋义突发事件:由于系统软件,硬件,接入线路,机房电力,温度等发生问题和突发意外,引起故障时间达30分钟以上,造成关键服务不可用,形成重大影响的事件。4职责4.1运维工程师:负责突发性事件应急处理计划和对策的拟定和执行。v4.2平台研发部,移动应用部,客户服务部,服务营销部:由部门负责人及相关人员共同处理突发性应急事件。4.3质量管理工程师:负责突发性事件应急处理计划和对策的监督执行。5作业内容jfip酣閒TTSfEffT««ualMjK^rtlT]AUJWl^r-】曲00刪£DmfSWJJWWU3I3UQ比至訴±e«±u主口1IHllI'Hi'niQ公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码3/9包括运营商网络割接、机房电力、空调、线路接入等基础设施出现故障,且影响时间高于30分钟的。对于运营商已告知问题原因时处理方案:1•提前通知相关运营人员和客户服务部2•通告影响时间,影响范围3•公告用户4•调整域名解析,启用容灾机房■F对于运营商未告知问题原因时处理方案:1.紧急联络机房接口人2.了解故障原因,和影响时间,评估影响范围3•紧急公告,启用预案同已知问题处理5.1.2设备不可用服务器硬件故障、交换机及防火墙等网络设备发生故障,且影响时间高于30分钟的故障处理方案:1•通知相关运营人员和客户服务部公司名称文件编码AQ2I-02-S001UD&1W1EE4RTH11工国莎?■旧函J10UN^fi:I七ir^HdE!辭姬用蟹.»界子取—ncizmy?!]3m?0&7^9l裤口兀曽2aifi±rHVPI壬匕1EEH3BI135文件名称运维应急故障处理方案页次/总页码4/92•启用备份设备3•分析故障原因,通知厂家售后5.1.3服务不可用软件程序问题,且影响时间高于30分钟的故障处理方案:1•通知相关运营人员和客户服务部2•回滚到上一个稳定软件版本3•保存日志文件,分析定位问题原因4•通知开发人员修正软件缺陷5.测试通过之后重新上线数据库问题,且影响时间高于30分钟的故障处理方案:1•通知相关运营人员和客户服务部•2.提前建立数据库集群3.从库出现问题,访问解析到其它从库上4.主库出现问题,将一台从库提升为主库5•定期全备份和增量备份数据文件5•保存日志操作文件遭受恶意攻击,且攻击时间高于30分钟的故障处理方案:1.通知相关运营人员和客户服务部•2.在防火墙上操作内容:定期检查更新防火墙策略;屏蔽恶意IP;限制每秒的连接数。3.在服务器上操作内容:提前部署cache服务器;屏蔽公网访问核心服务端口;设定iptables策略。4.病毒入侵等情况操作内容:公司名称文件编码AQ2I-02-S001文件名称运维应急故障处理方案页次/总页码5/9定期扫描系统和应用软件漏洞;定期升级系统Patch;利用云服务。对于已经执行上述措施,仍无法抵御攻击的情况,将部分服务迁移到公有云上,利用云服务进行容灾。5.1.4正常业务量徒增处理方案:1•和相关运营部门建立即使沟通机制,了解产品推广活动2.购置IDC富余带宽,用于抗峰值3•将关键服务分布式部署5.2故障记录和备案5.2.1建立【事件记录表】5.2.2分析故障原因,制定解决方案,避免相似故障再次发生VJ5.3应急预案演练rfAV5.3.1明确演练范围和参与人员如果组织是第一次进行灾难恢复演练,不要尝试在演练中测试整个业务连续性计划,而应该选择计划中的一两个部分来进行测试。多次小规模的演练比一次大...