中间件故障诊断总结一、步骤:1、准确描述现象:客户说的和自己查看到的:平台、版本、操作、信息等。特别是,故障前是否有做过什么操作:网络调整、设备调整、主机参数调整、配置文件修改……反正将这一切都列入排查的对象。2、使用工具收集数据,收集配置文件、日志、dump 文件等等.3、 使用分析数据,根据问题或收集的数据,使用适当的工具分析数据,当然包括了在网上和在官方支持站点搜索类似的问题的解决办法. 4、 尝试解决问题,根据找到的问题点,尝试解决。如修改错的,复原正确的;运行有问题的,适当调整运行的环境和运行的参数等等。5、 给出最佳解决方案,一般就是继续观察了.6、总结经验并加以重用,知识积累。二、通过前台收集基本的信息:1、重点是故障前做过的操作2、比对运行平台是否在官方的兼容性列表中,一般就是关注各个版本,特别是一些比较怪异的问题3、检查环境和参数,如能打开控制台,就在控制台中初步观察,一般进入控制台的格式是http://ip 地址:端口/console 如:http://192。168.0.89:7001/console/.常用的留意点如下:A、 域运行状态(域-监视-健康状况);一般为 running 状态,假如不是 running,那这些界面就没有了.B、 服务器运行状态(域-环境—服务器),正常的为 running。C、 各个 server 性能(JVM)状态(域-环境—服务器,点击具体的 serve 后进入,监视-健康状况);留意 JVM 堆中当前可用的内存量。不同的 JVM,所显示的内容可能不一样,以下为 sun 的:D、 各个 server 线程状态(域-环境-服务器,点击具体的 serve 后进入,监视-线程);一般来说,空闲线程要多;健康状况为 ok如下图 health 状态为:Warning,这个是有线程堵塞的。堵塞线程的内容为:####<2025-8—13 上午02时42分35秒 GMT+08:00〉 〈Error〉 〈dc_admin1> <[ACTIVE] ExecuteThread: '15' for queue: 'weblogic。kernel.Default (self—tuning)'〉 <