中间件故障诊断总结一、步骤:1、准确描述现象:客户说的和自己查看到的:平台、版本、操作、信息等
特别是,故障前是否有做过什么操作:网络调整、设备调整、主机参数调整、配置文件修改……反正将这一切都列入排查的对象
2、使用工具收集数据,收集配置文件、日志、dump 文件等等
3、 使用分析数据,根据问题或收集的数据,使用适当的工具分析数据,当然包括了在网上和在官方支持站点搜索类似的问题的解决办法
4、 尝试解决问题,根据找到的问题点,尝试解决
如修改错的,复原正确的;运行有问题的,适当调整运行的环境和运行的参数等等
5、 给出最佳解决方案,一般就是继续观察了
6、总结经验并加以重用,知识积累
二、通过前台收集基本的信息:1、重点是故障前做过的操作2、比对运行平台是否在官方的兼容性列表中,一般就是关注各个版本,特别是一些比较怪异的问题3、检查环境和参数,如能打开控制台,就在控制台中初步观察,一般进入控制台的格式是http://ip 地址:端口/console 如:http://192
89:7001/console/
常用的留意点如下:A、 域运行状态(域-监视-健康状况);一般为 running 状态,假如不是 running,那这些界面就没有了
B、 服务器运行状态(域-环境—服务器),正常的为 running
C、 各个 server 性能(JVM)状态(域-环境—服务器,点击具体的 serve 后进入,监视-健康状况);留意 JVM 堆中当前可用的内存量
不同的 JVM,所显示的内容可能不一样,以下为 sun 的:D、 各个 server 线程状态(域-环境-服务器,点击具体的 serve 后进入,监视-线程);一般来说,空闲线程要多;健康状况为 ok如下图 health 状态为:Warning,这个是有线程堵塞的
堵塞线程的内容为:####