某用户网络问题分析报告 故障现象描述 1 . 故障现象描述 某公司总部业务内网IP电话系统中,一台位于办公区的IP电话管理系统主机(vSphere虚拟机)10.10.15.191需要定期与位于核心区的一台服务器(也是vSphere虚拟机)10.10.36.50通信,传递IP电话状态信息。 10.10.36.50是一台WebSphere应用服务器,在应用服务器的日志中不定期会出现10.10.15.191客户端无响应导致会话超时的错误警报。 2 . 环境描述 发生问题的两台主机之间的网络逻辑结构示意图如下: 发生问题的客户机与服务器的通信需要经过两道防火墙以及多台网络设备,两台防火墙均未配置内网间NAT地址翻译。 1 .2 . 分析方案设计 1 . 分析目标 鉴于发生问题的两台主机间网络设备较多,初步怀疑是防火墙故障阻断了两台主机间的数据传输导致会话超时。需要通过数据包解码分析验证是否中间设备故障导致,找出问题的根源。 2 . 分析方法 3 . 将科来回溯分析服务器部署在核心区,同时连接服务器接入交换机与办公网汇聚交换机,将服务器接入端口与办公网上行端口的流量镜像到分析服务器。 利用科来回溯分析系统7*24小时不间断捕获防火墙两端的流量,根据服务器日志产生故障警报的时间回溯当时两台主机间的通信数据包。通过两端流量分析对比,判断防火墙以及中间网络设备是否对两台主机的通信造成影响;如果中间设备没有对会话造成影响,则进一步分析定位造成故障的直接原因。 1 .3 . 分析情况 1 . 正常会话行为分析 首先需要对未发生问题时段的正常会话进行解码分析,以建立两台主机间通信的行为模型。下载正常时段10.10.15.191与10.10.36.50之间IP会话的数据包,在科来网络分析模块的TCP视图中可以看到两台主机间的会话使用10.10.36.50的TCP 9080服务端口,会话持续时间、通信数据包数量都不固定,如下图。 从其中一个会话的交易时序图中,可以看到在正常情况下TCP三次握手之后,客户端(10.10.15.191)会首先向服务器端(10.10.36.50)POST数据,如下图。 从图中还可以看出,位于防火墙两端的监控链路先后都捕获到了会话双方向完全相同的数据包,说明至少在正常时段防火墙并未阻断两台主机的通信。在会话结束阶段,都是由服务器发送第一个FIN报文,客户机应答后向服务器发送FIN报文关闭会话,是标准的TCP四次握手关闭会话的过程,如下图。 整个会话关闭过程时间非常短,客户机在收到服务器的FIN报文后立刻就发送了应答和 FIN报文。结束阶段的报文我们也是...