某用户网络问题分析报告 故障现象描述 1
故障现象描述 某公司总部业务内网IP电话系统中,一台位于办公区的IP电话管理系统主机(vSphere虚拟机)10
191需要定期与位于核心区的一台服务器(也是vSphere虚拟机)10
50通信,传递IP电话状态信息
50是一台WebSphere应用服务器,在应用服务器的日志中不定期会出现10
191客户端无响应导致会话超时的错误警报
环境描述 发生问题的两台主机之间的网络逻辑结构示意图如下: 发生问题的客户机与服务器的通信需要经过两道防火墙以及多台网络设备,两台防火墙均未配置内网间NAT地址翻译
分析方案设计 1
分析目标 鉴于发生问题的两台主机间网络设备较多,初步怀疑是防火墙故障阻断了两台主机间的数据传输导致会话超时
需要通过数据包解码分析验证是否中间设备故障导致,找出问题的根源
分析方法 3
将科来回溯分析服务器部署在核心区,同时连接服务器接入交换机与办公网汇聚交换机,将服务器接入端口与办公网上行端口的流量镜像到分析服务器
利用科来回溯分析系统7*24小时不间断捕获防火墙两端的流量,根据服务器日志产生故障警报的时间回溯当时两台主机间的通信数据包
通过两端流量分析对比,判断防火墙以及中间网络设备是否对两台主机的通信造成影响;如果中间设备没有对会话造成影响,则进一步分析定位造成故障的直接原因
分析情况 1
正常会话行为分析 首先需要对未发生问题时段的正常会话进行解码分析,以建立两台主机间通信的行为模型
下载正常时段10
191与10
50之间IP会话的数据包,在科来网络分析模块的TCP视图中可以看到两台主机间的会话使用10
50的TCP 9080服务端口,会话持续时间、通