基础设施维护方案一、概述运行维护,由维护及定检两部分内容组成。维护定检不仅是在问题出现时能迅速地定位、解决问题;而更重要的是在故障产生前,能够通过例行的巡检工作及时发现故障隐患、消除故障隐患,使设备长期稳定地运行。对设备良好、有效的维护,不仅能够减少设备的故障率,并且可以延长设备的使用寿命。维护定检的基本原则就是在例行维护定检工作中及时发现、解决问题,防患于未然。如果维护人员能在故障发生之前,在例行巡检之中,及时检测到故障的先兆,将故障解决在萌芽期,这样不但可以避免故障发生后,由于抢修的慌乱、业务中断所造成的经济损失;而且还可以避免故障严重化对整个设备所造成的损伤,从而降低板件更换等维护费用,延长设备的使用寿命。而这一切,不但要求维护人员有深厚的功底,丰富的维护经验,还要有洞察秋毫的高度敏感性。二、总则为基础设施的连续性和信息安全性,制定有效的运行维护策略来保证服务交付的质量,兼顾运行维护过程(及时和规范)和运行维护结果(可用和安全),实现“事前防范,风险前移;事中控制,快速响应;事后改进,持续评估”的持续改进原则。2.1 可用性采取适当措施,确保按服务协议提供长期、持续的满足需求的优质服务,保持服务对象符合 SLA 的可用性要求。包括:a)在服务实施时,建立相关的作业流程和响应机制,必要时按需方要求制定系统冗余和备份规范,以满足需方对可用性的要求;b)进行合理的人员岗位设置和职责定义,保证专人专岗并设置人员备份;c)配备具有相应能力的人员和必要的工具,并定期进行专业培训,以提高服务可用性。人员能力具体要求;d)选择适用的运行维护技术,以保证服务的可用性;e)根据运行维护服务级别要求,必要时应建立体系架构的关键健康检查点,并配备相应的运行维护工具,以保证服务水平。运行维护工具等级;f)根据服务要求配备足够的资源,避免由于资源的缺失导致对服务的可用性带来影响。2.2 安全性采取各种安全手段或措施,有效控制数据中心运行维护服务的各个环节,保护数据中心运行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。包括:a)建立适当的信息安全管理机制,以规范数据中心运行维护服务人员的信息安全行为;b)对运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查、签订安全保密协议等;c)对运行维护服务人员进行相关安全管理及安全要求培训,并进行适当的检查,以确保服务人员了解并遵守数据中心安全、保密...