如今,谈及X86服务器平台的CPU,很多人可能对英特尔和AMD两大芯片巨头的产品如数家珍,从之前的至强5400到主流的至强5600、至强7500,以及AMD强劲的12核心x86处理器“Magny-Cours”等等。同时,服务器的另外两个核心在CPU的基础上作用不容小视,以带ECC、ChipKill、热插拔技术的内存,防止数据异常丢失的RAID硬盘等组件共同打造出一个坚若磐石的X86服务器。
但由于X86服务器和台式机有着很多相似之处,无论是从前期部署、中期维护到后期管理都有着众多相似之处。因此,X86服务器尽管有着成熟稳定的架构体系,也不免出现“罢工”。特别是企业负载应用得多了,遇到的故障是很平常的事情,以三大组件出现的故障与大家共同分享,可以有效避免大家在以后的业务平台上出现。 (服务器租用)
服务器核心——CPU
危害程度:★
故障回放:做过测试的朋友知道,一台基于Intel至强服务器,开机无显示,系统指示灯疯狂的闪烁,最直接怀疑是CPU与主板的接触不良,但将其更换到多路服务器主板的另外一个CPU插槽之上,依旧没有反应。
解决方案:在这种状况下经测量,CPU电压居然出现异常,原来是CPU的VRM(Voltage Regulator Module,电压调节模块)出现了故障,不能执行主板上DC电路转换,无法为CPU提供稳定的工作电压,至此只能更换CPU。
笔者认为这个故障是比较致命,CPU的损坏将直接导致整个服务器的不可用,但是CPU本身的安全性是非常高的,故障率极低。所以在日常维护任务中,由于CPU的损坏导致的服务中断情况是较为少见,它的危害程度不算太高,如果是多路服务器更是不用担心CPU损坏而带来的服务器宕机了。
服务器平台的另外两大核心,莫过于内存和硬盘,具体到内存的选择上,服务器内存与普通台式机内存还是有一些差异的。仔细观察过服务器内存的用户会发现,相比普通内存单面8颗粒的设计,服务器内存通常单面有9颗芯片,这就是我们常说的ECC内存。
服务器读取性能——内存
危害程度:★★☆
故障回放:之前在一台安装2条2GB内存的服务器上,由于自身承载的服务过多,服务器的处理数据的速度越来越慢,于是,通过增加2条同型号的内存条来升级服务器。将这些内存全部插入主板后,系统检测只有6GB,另外2GB内存神秘消失,反复的插拔新的内存依旧无法正常检测。
解决方案:通过服务器产品官方网站了解,该种情况是因为该服务器的内存插槽是配对使用,1-4、2-5、3-6、7-10、8-11、9-12,新内存插在了2、3槽,无法形成配对,自然只能检测出一条内存,将内存插到5槽,8GB内存顺利被检测。 (服务器租用)
可见,服务器内存的优势不仅仅体现在性能上,在容错能力同样投入很多精力,目的是为整个平台提供高稳定环境,之前提到的内存采用的ECC(错误检查和纠正)技术、Register、Chipkill都是为了提高内存的稳定性,使各个内存条和插槽之间能更好的融合。
如今,谈及X86服务器平台的CPU,很多人可能对英特尔和AMD两大芯片巨头的产品如数家珍,从之前的至强5400到主流的至强5600、至强7500,以及AMD强劲的12核心x86处理器“Magny-Cours”(马尼库尔)等等。同时,服务器的另外两个核心在CPU的基础上作用不容小视,以带ECC、ChipKill、热插拔技术的内存,防止数据异常丢失的RAID硬盘等组件共同打造出一个坚若磐石的X86服务器。
但由于X86服务器和台式机有着很多相似之处,无论是从前期部署、中期维护到后期管理都有着众多相似之处。因此,X86服务器尽管有着成熟稳定的架构体系,也不免出现“罢工”。特别是企业负载应用得多了,遇到的故障是很平常的事情,以三大组件出现的故障与大家共同分享,可以有效避免大家在以后的业务平台上出现。
服务器核心——CPU
危害程度:★
故障回放:做过测试的朋友知道,一台基于Intel至强服务器,开机无显示,系统指示灯疯狂的闪烁,最直接怀疑是CPU与主板的接触不良,但将其更换到多路服务器主板的另外一个CPU插槽之上,依旧没有反应。
解决方案:在这种状况下经测量,CPU电压居然出现异常,原来是CPU的VRM(Voltage Regulator Module,电压调节模块)出现了故障,不能执行主板上DC电路转换,无法为CPU提供稳定的工作电压,至此只能更换CPU。
笔者认为这个故障是比较致命,CPU的损坏将直接导致整个服务器的不可用,但是CPU本身的安全性是非常高的,故障率极低。所以在日常维护任务中,由于CPU的损坏导致的服务中断情况是较为少见,它的危害程度不算太高,如果是多路服务器更是不用担心CPU损坏而带来的服务器宕机了。
服务器平台的另外两大核心,莫过于内存和硬盘,具体到内存的选择上,服务器内存与普通台式机内存还是有一些差异的。仔细观察过服务器内存的用户会发现,相比普通内存单面8颗粒的设计,服务器内存通常单面有9颗芯片,这就是我们常说的ECC内存。
服务器读取性能——内存
危害程度:★★☆
故障回放:之前在一台安装2条2GB内存的服务器上,由于自身承载的服务过多,服务器的处理数据的速度越来越慢,于是,通过增加2条同型号的内存条来升级服务器。将这些内存全部插入主板后,系统检测只有6GB,另外2GB内存神秘消失,反复的插拔新的内存依旧无法正常检测。
解决方案:通过服务器产品官方网站了解,该种情况是因为该服务器的内存插槽是配对使用,1-4、2-5、3-6、7-10、8-11、9-12,新内存插在了2、3槽,无法形成配对,自然只能检测出一条内存,将内存插到5槽,8GB内存顺利被检测。 (服务器租用)
可见,服务器内存的优势不仅仅体现在性能上,在容错能力同样投入很多精力,目的是为整个平台提供高稳定环境,之前提到的内存采用的ECC(错误检查和纠正)技术、Register、Chipkill都是为了提高内存的稳定性,使各个内存条和插槽之间能更好的融合。
Copyright© 2004-2020 河南海腾电子技术有限公司 版权所有 经营性ICP/ISP证 备案号:B1-20180452
豫公网安备 41019702002018号
电子营业执照