词条信息

admin
超级管理员
版本创建者 发短消息   
简易百科旧版 >> 服务器有故障时,怎么看报错信息? >> 历史版本

最新历史版本 :服务器有故障时,怎么看报错信息? 返回词条



以X3650M2和X3650M3系列为例


X3650系列是X86服务器里主流军,虽然现在早已更新换代,IBM的X86服务器业务也早被联想收购,但是我相信,很多用户的机房里还是会有M2,M3机型的存在,甚至还有更早的机型在战斗,那么在机器过保以后,没有对应的免费售后服务,那么机器出故障时,作为管理员还是需要了解一下机器报错信息,以及报错部件的重要性与否,来判断自己的备份工作是否需要立即处理。


X3650M3外观图X3650M3外观图


机器前端介绍机器前端介绍


因为M2,M3机器的诊断面板基本相同,所以放在一起介绍。


光驱上方蓝色的按钮往左拨出诊断面板


●电源控制按钮和供电指示灯按下此按钮可手动开启和关闭服务器,或唤醒处于省电状态下的服务器。供电指示灯的状态如下所示:


– 熄灭:未接通交流电,或者电源或指示灯本身出现故障。


– 快速闪烁(每秒四次):服务器已关闭,但未准备就绪,无法开启。电源控制按钮已禁用。服务器接通交流电源后大约三分钟,电源控制按钮便会激活。(注意:如果主板损坏,且诊断面板没有报错,也会出现此现象)


– 缓慢闪烁(每秒一次):服务器已关闭,并且已准备就绪,可以开启。您可以按电源控制按钮以开启服务器。


– 点亮:服务器开启。


– 逐渐变暗直至熄灭:服务器处于省电状态。要唤醒服务器,请按电源控制按钮或使用IMM Web 界面。


注:如果该指示灯熄灭,并不表示服务器中不存在电流。该指示灯可能已烧毁。要切断服务器中的所有电流,必须从电源插座断开电源线。


●以太以太网图标指示灯:该指示灯点亮以太网图标。


●以太网活动指示灯: 如果这些指示灯中任意一个点亮,表示服务器正在向连接到对应于该指示灯的以太网端口的以太网LAN 发送信号,或正在接收来自该以太网LAN的信号。


● 信息指示灯:当该指示灯点亮时,表示发生了一般性事件。光通路诊断面板上的某个指示灯也会点亮,以帮助找出错误。


●系统错误指示灯:当该指示灯点亮时,表示发生了系统错误。光通路诊断面板上的某个指示灯也会点亮,以帮助找出错误。


●释放滑锁:将该滑锁滑向左侧可操作光通路诊断面板,该面板位于操作员信息面板的后面。


●定位器按钮和定位器指示灯:使用该指示灯可用肉眼在其他服务器中找到该服务器。方便操作员在一堆服务器中迅速找到该服务器,避免误操作。


按下此按钮可从本地开启或关闭该指示灯。


接下来是故障灯的对应部件标注,当橘黄色感叹号亮起时,请打开该面板找到对应故障灯来判断。


诊断面板拉出后示意图诊断面板拉出后示意图


OVERSPEC 表明由于某个电源通道上出现电源超负荷情况,所以关闭了服务器。电源功率超过最大额定值,NONRED和LOG指示灯可能也点亮。需要检查一下电源指示灯是否正常。

LOG 表明已将错误消息写入系统事件日志,BMC日志或者系统错误日志满(系统错误日志达到75%满),这个进服务器管理界面清除一下日志即可。

LINK 表明链路链接故障,很可能是网卡故障,很少遇到。

PS 表明电源故障,如果服务器配有2个电源,其中一个电源没有通电也会报错,如果只有一个电源,那很可能是电源出现了问题,需要及时更换。

PCI 表明PCI 总线或主板上发生错误。发生故障的PCI 插槽旁会有指示灯点亮。

SP 表明服务处理器(IMM)发生故障。可以切断服务器的电源;然后将服务器重新连接到电源并重新启动服务器。如果报错还是存在则需要更新IMM 上的固件。

FAN 表明风扇故障,同时TEMP报警可能会点亮,风扇报错除了是自身故障外还可能是灰尘过多引起转速变慢,也可能是接口松动,对应的风扇旁会有指示灯点亮,及时更换即可。

TEMP 表明系统温度已超出阈值级别。发生故障的风扇会导致TEMP 指示灯点亮。这时候需要查看风扇是否正常,室内温度是否异常,服务器前后散热口是否被堵塞。

MEM 表明内存报错,注意:当只有MEM 指示灯点亮时,才表示发生了内存错误。当MEM 指示灯和CNFG 指示灯都点亮时,表示内存配置无效。

NMI 表明发生不可屏蔽的中断,或按下了NMI 按钮。查看系统事件日志,获取有关错误的信息。

CNFG 表明发生硬件配置错误,有可能内存顺序错误导致,或CPU配置错误。

CPU 表明CPU即处理器故障,注意:当只有CPU 指示灯点亮时,才表示微处理器发生故障。当CPU 指示灯和CNFG 指示灯都点亮时,表示微处理器配置无效。

VRM 表明直流电-直流电稳压器丢失或者故障,更换即可。

DASD 表明硬盘出现故障或者被卸下。如果硬盘故障,直接将新硬盘进行替换,如果是误操作将硬盘拔下,需要将硬盘插回后进阵列卡重新将该硬盘配置。

RAID 表明阵列卡发生故障。需要确定是RAID卡有错误信息或RAID卡有硬件错误,如损坏需要及时更换。

BRD 表明主板发生错误,需要进行更换。注意:出现此报错时,请尽早备份数据至其他硬件,避免宕机带来的损失。