信息化中心 DB 数据库访问时延事件 Netscout 系统分析一,故障描述 CICS 服务器群 10
168-172 访 DB 服务器 10
132 出现偶发性时延,正常时延在 1-4ms,突发时延在 20ms-40ms 之间
源和目的服务器的沿路访问路径是二层交换网络,地址段在同一 VLAN
其中 N7K 和 45 之间 VLS 进行互连
二,问题分析思路1,梳理网络结构,分析沿路经过的节点网络结构如下图,可见 CICS 服务器访问 DB 服务器沿路访问的网元有刀框交换机,N7K 和 45 交换机
时延发生的网元有这些交换机处理时延过大导致,也有可能是源和目的服务器网卡处理时延导致
2,分析突发时延的组成 整体时延分为应用时延和网络时延两类,其中应用时延产生于端到端服务器的应用协议在每一节点中的交互过程,网络时延产生于网络层传输
整体时延则有这两部分时延加成
当时延发生时,我们首先要推断时延是发生在应用层还是网络层,然后再进行定位分析
实时传输时延均有应用时延产生,说明问题出在应用侧,与网络层传输无关
历史传输时延报表可以直观地查看时延发生时各个时间段的时延组成情况
这 里显示网络层传输质量良好,没有出现网络时延
这个实例显示时延有网络时延产生,数值稳定在 1ms 左右
但相对于应用时延超过 10ms 来说,这里的整体时延依旧是发生在应用侧,3,定为时延发生的准确位置为推断时延发生的位置,我们在沿路的网络访问路径上部署探针的才几点,并对需要监控的网段进行定义和分析
并持续进行监测,完整记录下突发时延发生时的原始数据和生成时延分析统计报表,以推断时延发生的节点
定义源和目的 IP,以实时监测
定义双向的会话访问记录
4,结合网元和接口,推断故障发生点 以上是探针四个采集点的时延分析统计报表,分别对应 N7K 和 45 交换机进出方向的接口