高可用性技术 (故障检测技术 )在路由网络中的应用国网电科院信息通信技术服务中心蓝鹏引言:为了保证网络的不间断运行,特别是核心出口网络的高可用性,通常在部署较大规模网络时,会采取链路级备份、设备级备份等方式。技术上通常使用多管理引擎备份、浮动静态路由、VRRP、HSRP等。虽然这些技术给网络带来了一些备份作用,但是对于实时性要求较高的网络还会存在一些问题,本文结合 在 H3C路由器上的配置实例 说明一些故障检测技术与传统技术的结合(联动)从而实现更为智能的高可用性解决方案。关键字:可靠性故障检测技术 NQA BFD TRACK 路由协议网络收敛(一)、可靠性概述随着网络的快速普及和应用的日益深入,网络中断可能影响大量业务, 因此, 作为业务承载主体的基础网络,其可靠性日益成为倍受关注的焦点。在实际网络中,总避免不了各种非技术因素造成的网络故障和服务中断。因此 , 提高系统容错能力、提高故障恢复速度、降低故障对业务的影响,是提高系统可靠性的有效途径。 1. 可靠性需求可靠性需求根据其目标和实现方法的不同可分为三个级别,各级别的目标和实现方法如表 1 所示。级别目标实现方法1减少系统的软、硬件故障硬件:简化电路设计、提高生产工艺、进行可靠性试验软件:软件可靠性设计、软件可靠性测试等2即使发生故障, 系统功能也不受影响设备和链路的冗余设计、部署倒换策略、提高倒换成功率3尽管发生故障导致功能受损,但系统能够快速恢复提供故障检测、诊断、隔离和恢复技术表 1在上述三个级别的可靠性需求中,第 1 级别需求的满足应在网络设备的设计和生产过程中予以考虑;第 2 级别需求的满足应在设计网络架构时予以考虑;第 3 级别需求则应在网络部署过程中, 根据网络架构和业务特点采用相应的可靠性技术来予以满足。2. 可靠性度量通常我们使用 MTBF ( Mean Time Between Failures , 平均故障间隔时间)和 MTTR ( Mean Timeto Repair , 平均修复时间)这两个技术指标来评价系统的可靠性。(1).MTBF MTBF 是指一个系统无故障运行的平均时间,通常以小时为单位。 MTBF 越多,可靠性也就越高。(2).MTTR MTTR 是指一个系统从故障发生到恢复所需的平均时间,广义的 MTTR 还涉及备件管理、客户服务等,是设备维护的一项重要指标。MTTR 的计算公式为: MTTR= 故障检测时间 + 硬件更换时间 + 系统初始化时间 + 链路恢复时间 + 路由覆盖时间 + 转发恢复时...