服务器维修故障诊断思路大全
- 格式:docx
- 大小:26.48 KB
- 文档页数:10
前言:
相对PC机而言服务器出故障的机率是小多了,但是它的故障给企业也带来了一些影响。作为服务器工程师除要有服务器基础知识以外,还需要具备服务器故障的诊断思路,这样才能最快速的解决问题也可以减少故障停机时间。
本文并不是针对某个厂家服务器故障完全手册,而是根据个人经验总结出来的一些经验思路还有一些总结案例。按照下面思路和方法基本上能够解决目前服务器更换式维修的大多数问题。而且里面的一些操作风险性也不是很大,因为服务器本身就是坏的,最坏的情况下就是它一点都不能工作了呗,(主要确认是否有数据,数据无价啊)而且现在很多厂商都有自己的客服电话关于产品问题打个电话也很方便,所以安心做啦
当然如果服务器在保修期内就打电话让售后工程师上门服务,毕竟顾客就是上帝嘛,但是如果上帝比较着急使用,一般小故障自己解决一下就好了,因为一般报修最快都是第二天(大客户如银行等除外,一般当天还得是晚上才能停机解决)
目录:
一、服务器常见故障分类
二、服务器常见故障现象及其对应排错方法
三、服务器排错基本原则
四、服务器故障需要收集哪些信息
五、服务器硬件故障排错实例
六、服务器软件故障排错实例
七、服务器常见内存故障现象
一、服务器常见故障类型分类:
A. 开机无显示
B. 加电BIOS自检阶段故障
C. 系统和软件安装阶段故障和现象
D. 操作系统启动失败
E. 系统运行阶段故障
二、服务器常见故障现象及其对应的排除方法
A.服务器开机无显示(加电无显示和不加电无显示)
1. 检查供电环境
2. 检查电源和故障指示灯(故障指示灯状态,目前很多厂商的服务器都有故障指示灯,或故障诊断卡等。)
3. 按下电源开关时,键盘指示灯是否亮、风扇是否全部转动
4. 是否更换过显示器,尝试更换另外一台显示器
5. 插拔内存,用橡皮擦擦拭一下金手指,如果在故障之前有增加内存,去掉增加的内存尝试
6. 是否添加了CPU,如果有增加CPU尝试去掉
7. 去掉增加的第三方I/O卡包括Raid卡等
8. ClearCMOS (记得使用跳线来清除,尽量不要直接拔电池,每款服务器清除跳线位置不一致,具体找不到电话联系一下厂商客服)
9. 尝试更换主板、内存等主要部件
10.清除静电,将电源线等外插在服务器上的线缆全部拔掉,然后轻按开机键几下
B.加电BIOS自检报错
1. 根据BIOS自检报错信息提示
2. 查看是否外插了第三方的卡或者添加部件,如果有还原基本配置重启
3. 做最小化测试
4. 尝试清除CMOS
5. 看能否正常进入BIOS
C. 系统安装阶段故障和现象
1.查看服务器支持操作系统的兼容版本(从厂商能查到兼容性列表)
2.系统安装蓝屏(对蓝屏故障代码诊断)
3.安装在分区格式化的时候找不到硬盘
(阵列驱动没有安装或者没有配置阵列,可以尝试适应引导光盘安装)
4.大于2T的硬盘式应该如何分区(必须使用阵列卡才能实现或者有外插识别卡)
(使用阵列卡配置阵列分成一个小于2T的空间,一个大于2T的空间,然后将系统安装在小于2T的上面,安装好系统后在使用GPT方式分区即可)
5.安装过程是死机
(检查兼容性列表---查看硬盘接口选择是否正确---阵列驱动安装是否正确---尝试最小化配置安装检查是否为内存和CPU等问题)
6.引导光盘安装失败
(使用引导光盘安装失败,查看引导光盘版本是否匹配,尝试手动安装系统,如有阵列重新配置阵列引导安装)
D. 操作系统启动失败
1.在系统启动自检过程中有报错(具体查看启动报错信息在定方案)
2.启动系统蓝屏(查看蓝屏代码核对)
3.进入登陆界面死机(查看进入单用户或者安全模式是否正常,进入BIOS是否正常、是否会死机,进入磁盘阵列查看阵列状态是否正常,检查测试硬盘是否有坏道,最小化配置启动)
4.忘记密码(windows 使用PE 破解,linux 进入单用户破解)
E. 系统运行阶段故障
1.安装数据库等应用软件报错 (对系统版本和软件版本是否兼容,查看报错信息是否缺少插件)
2.系统运行速度变慢 (查杀病毒,检测阵列状态,测试硬盘有无坏道,重新安装系统或者修复)
3.运行蓝屏 (查看蓝屏代码目录)
4.运行死机 (检查进入BIOS是否死机,进入系统后测试部件温度是否正常,windows系统查看dump文件)
5.硬盘拷贝数据文件速度变慢(测试硬盘是否有坏道,如果有阵列检查阵列状态,检查改变条带大小,与软件应用要求测试对比)
三.服务器故障排错的基本原则:
1. 尽量恢复系统出厂配置
a:硬件配置:去除第三方厂商备件和非标配备件
b:资源配置:清除CMOS、恢复资源初始配置
c: BIOS、F/W、驱动程序:升级最新的BIOS、F/W和相关驱动程序
d: TPL:扩展的第三方的I/O卡是否属于该机型的硬件兼容列表(TPL)
2. 从基本到复杂
a:系统上从个体到网络:首先将存在故障的服务器独立运行,待测试正常后再接入网络运行,观察故障现象变化并处理。
b:硬件上从最小系统到现实系统:指从可以运行的硬件开始逐步到现实系统为止。
c: 软件上从基本系统到现实系统:指从基本操作系统开始逐步到现实系统为止。
3. 部件交换对比测试
a:在最大可能相同的条件下,交换操作简单效果明显的部件
b:交换NOS载体,既交换软件环境
c:交换硬件,既交换硬件环境
d:交换整机,既交换整体环境
总结:
在服务器的维修中,线索都会显得扑朔迷离,有的甚至按起葫芦翘起瓢。一般来说不可能一次就可以准确地判断出问题的所在。这样就要求工程师要有信心和耐心。出现错误一般的方法都是根据经验优先使用最简单排错方法测试,如果没有解决问题再找其它因素进行测试。总之,服务器出错后必须一步一步解决,没有捷径可言。
四、服务器故障排除需要收集哪些信息
1.服务器信息:
①. 机器型号: 什么厂家的机器、什么型号如:DELL R720服务器
②. 机器序列号或主机编号(如:主机编号为NC00755666)
③. 是否增加其它设备,如网卡、Raid 卡、内存、CPU等
④. 硬盘配置,如是否做磁盘阵列, 阵列级别
⑤. 安装什么操作系统及版本(win2003、Redhat等)
⑥. 在故障前有没有做过操作、或者运行了什么软件
⑦. BIOS 版本
2.故障信息:
①. 在POST自检时,屏幕显示的异常信息
②. 服务器本身指示灯的状态
③. 报警声和BEEP CODES
④. 系统的事件记录文件
⑤. Sel 日志