基础设施维护方案一、概述运行维护,由维护及定检两部分内容组成。维护定检不仅是在问题出现时能迅速地定位、解决问题;而更重要的是在故障产生前,能够通过例行的巡检工作及时发现故障隐患消除故障隐患,使设备长期稳定地运行。对设备良好、有效的维护,不仅能够减少设备的故障率,并且可以延长设备的使用寿命。维护定检的基本原则就是在例行维护定检工作中及时发现、解决问题,防患于未然。如果维护人员能在故障发生之前,在例行巡检之中,及时检测到故障的先兆,将故障解决在萌芽期,这样不但可以避免故障发生后,由于抢修的慌乱、业务中断所造成的经济损失而且还可以避免故障严重化对整个设备所造成的损伤,从而降低板件更换等维护费用,延长设备的使用寿命。而这一切,不但要求维护人员有深厚的功底,丰富的维护经验,还要有洞察秋毫的高度敏感性。二、总则为基础设施的连续性和信息安全性,制定有效的运行维护策略来保证服务交付的质量,兼顾运行维护过程(及时和规范)和运行维护结果(可用和安全),实现“事前防范,风险前移;事中控制,快速响应;事后改进,持续评估”的持续改进原则。2.1可用性采取适当措施,确保按服务协议提供长期、持续的满足需求的优质服务,保持服务对象符合SLA的可用性要求。包括:a)在服务实施时,建立相关的作业流程和响应机制,必要时按需方要求制定系统冗余和备份规范,以满足需方对可用性的要求;b)进行合理的人员岗位设置和职责定义,保证专人专岗并设置人员备份;c)配备具有相应能力的人员和必要的工具,并定期进行专业培训,以提高服务可用性。人员能力具体要求;d)选择适用的运行维护技术,以保证服务的可用性;e)根据运行维护服务级别要求,必要时应建立体系架构的关键健康检查点,并配备相应的运行维护工具,以保证服务水平。运行维护工具等级;f)根据服务要求配备足够的资源,避免由于资源的缺失导致对服务的可用性带来影响。2.2安全性采取各种安全手段或措施,有效控制数据中心运行维护服务的各个环节,保护数据中心运行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。包括:a)建立适当的信息安全管理机制,以规范数据中心运行维护服务人员的信息安全行为;b)对运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查、签订安全保密协议等;c)对运行维护服务人员进行相关安全管理及安全要求培训,并进行适当的检查,以确保服务人员了解并遵守数据中心安全、保密相关规定;d)充分关注数据中心业务安全需求,结合信息安全技术与管理标准,进行适当的安全评估,提供相应的安全建议,并对服务对象进行适当的监控和保护;e)对数据中心安全进行监控、分析,把安全风险控制在可接受范围内,防止安全事件发生;f)建立有效的安全通报机制,以及时通报安全事件相关情况和相应防范处理措施等。2.3及时性采取适当的手段确保提供满足SLA时间指标要求的运行维护服务。包括:a)对事件、问题、变更建立明确的分级策略,并与服务窗口时间、响应时间等指标相匹配;b)建立可确保满足需方要求的沟通联络机制,保持沟通渠道通畅,以实现对服务需求的及时响应;c)建立有效的服务资源调度机制及与服务相关方的协同机制,配置必要的备品备件,以提供及时的服务保障;d)特殊时间段(如法定节假日或重大事件等),应提升响应级别,提供必要的现场支持;e)建立有效机制,周期性对事件级别定义进行更新,以确保定义准确有效。2.4规范性建立适当的服务管理流程、服务活动指导文件或实施规则,以保证服务过程的规范运作。包括:a)建立有效的服务管理流程文件,以保证服务过程实施规范性;b)建立或遵循需方的数据中心相关管理制度,如出入场管理制度、安保控制制度等;c)对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;d)对于非例行操作服务(响应支持、优化改善、调研评估),应在实施前,制定详细的实施方案,并进行风险评估及分析,采取相应的风险规避措施和回退手段;e)在服务过程中进行的任何活动,应建立服务档案,可形成服务报告,保留完整的服务记录。三、服务对象与交付说明3.1服务对象及内容(1)定期对硬...