IBMPC服务器故障诊断流程一、状态确定:状态确定是指发生故障的设备是当前是什么状态,是业务正常在跑,前面板有指示灯告警,比如一些冗余部件的故障(硬盘、电源、风扇等等);还是出于宕机状态,不能正常进入到操作系统里面,这里又得分为两种情况讨论,一是设备开机没有自检,直接黑屏;二是开机有自检,自检阶段有POST蜂鸣声或者报错码,面对这种情况可结合前面板LED,光通诊断板,主板LED,POST阶段的一些现象具体问题具体分析
故障定位侧重于判断坏在哪里;二、故障定位:故障定位的时候,我们用到的手段非常多,下面,利用POST的过程;1、POST阶段复习:广义的POST过程是指从按下电源开关到开始引导系统,共分为三个过程:电源供电阶段核心部件初始化阶段狭义POST阶段2、电源供电阶段:从按下电源开关的瞬间开始,设备就开始工作了;电源是动力的源泉,供电系统的良好是设备正常运转的基础;如果问题出现在电源这边,那么之后的一切都进行不下去了;电源问题:供电系统的良好是设备正常运转的基础;只有供电系统OK了,设备才可以开始自检;故障表象:机器开机无电,电源灯不亮,电源风扇不转,按电源按钮开机无反应
诊断方法及过程:供电系统是一条完整的链路,不是单指电源模块;市电及插座电源线电源模块电源分配板主板;首先,要确认市电供电是否正常;包括使用的插座或者PDU(powerdistributionunit)模块;其次,查看电源线是否接好,电源线本身是否OK;诊断方法:替换法+最小化法+指示灯法+排除法;替换法:拿确认完好的备件去替换故障设备上的相应备件;最小化法:将链路裁减至最小(要保障设备能正常运行),再进行故障排除;IBM的问题确定与维护手册诊断章节之未确定的问题当中提供了服务器能够启动的最低配置,以IBMX346(8840)为例,下面为IBMX346(8840)能够启动的最低配置:指示灯法