IBM服务器硬盘出现Other Error可能原因
By yejr on 18 一月 2013除了确实物理等因素外,可能还因为:
Other Errors的 很有可能也是固件(firmware)版本太低造成。 固件版本太低的话,硬盘自身有power safe模式,在硬盘长时间没有I/O情况下,硬盘会自动断电,而系统本身误以为是硬盘出现故障,此时Other Errors 就会+1
解决方法:
升级硬盘的firmware即可。
除了确实物理等因素外,可能还因为:
Other Errors的 很有可能也是固件(firmware)版本太低造成。 固件版本太低的话,硬盘自身有power safe模式,在硬盘长时间没有I/O情况下,硬盘会自动断电,而系统本身误以为是硬盘出现故障,此时Other Errors 就会+1
解决方法:
升级硬盘的firmware即可。
早先已经做过一次OLTP性能对比测试:SAS vs SSD各种模式下MySQL TPCC OLTP对比测试结果,这次做OLAP对比测试。
对比测试结果见下:
SSD设备相应的性能提升比例:
测试环境:
之前在群里说要整理基准测试分享文档,近期花了几天时间终于整理完毕,上传到slideshare上:服务器基准测试-叶金荣@CYOU-20121130.pdf,本意是让圈内人士在做服务器基准测试时的标准、参数、方法能尽可能统一,相互沟通时也能有共同语言,有更多可比性。非专业人士整理,欢迎拍砖,O(∩_∩)O哈哈~
更新:微盘下载地址:http://t.cn/zjpQMcH
tpch是TPC(Transaction Processing Performance Council)组织提供的工具包。用于进行OLAP测试,以评估商业分析中决策支持系统(DSS)的性能。它包含了一整套面向商业的ad-hoc查询和并发数据修改,强调测试的是数据库、平台和I/O性能,关注查询能力。
官网:http://www.tpc.org/tpch
下载地址:http://www.tpc.org/tpch/spec/tpch_2_14_3.tgz
或
http://www.tpc.org/tpch/spec/tpch_2_14_3.zip
1、编译安装
下载源码包,解压缩,然后:
cp makefile.suite makefile
修改makefile文件中的CC、DATABASE、MACHINE、WORKLOAD等定义:
################ ## CHANGE NAME OF ANSI COMPILER HERE ################ CC = gcc # Current values for DATABASE are: INFORMIX, DB2, ORACLE, # SQLSERVER, SYBASE, TDAT (Teradata) # Current values for MACHINE are: ATT, DOS, HP, IBM, ICL, MVS, # SGI, SUN, U2200, VMS, LINUX, WIN32 # Current values for WORKLOAD are: TPCH DATABASE= MYSQL MACHINE = LINUX WORKLOAD = TPCH
在线计算IOPS的工具,选择硬盘型号,设定条带大小、硬盘总数、读写比例等信息,即可快速计算出IOPS值,非常实用。
http://www.wmarow.com/strcalc/
在各种测试组合方案中,组合10(组合10:SSD * 2, RAID 0, XFS,WB,nobarrier,noop)的综合性能最高,因此以它为基准,其他方案与其对比,下表是各组合和组合10的对比:
相应的对比线形图:
测试环境:
情景:
在DELL 5/i或6/i阵列卡中,有2块146G盘(插槽号0 ~ 1),4块300G盘(插槽号2~5),共6块。
现在想要创建raid 10阵列,那么最后阵列总容量是多大呢?
解析:
按照常规理解,这种模式下,应该是以最小硬盘的容量为准,既146*3 = 438G的容量。
但实际上,却并非如此,而是:146+300*2 = 746的容量,这是为什么呢?
其实产生这个结果是个凑巧,因为此时的阵列是这样做的:
0 ó(镜像) 1 => 条带1 2 ó(镜像) 3 => 条带2 4 ó(镜像) 5 => 条带3
DELL PowerEdge Diagnostics 是一款简单实用、基于操作系统的硬件诊断工具!通过它,您可以很清楚的了解DELL系统的硬件健康状况,更有效的判断和定位硬件问题。
该工具是一款安全、免费的软件,您可以从DELL公司的网站上下载它。
1. 下载安装
下载无需多说,目前主要使用dell-pediags-linux-2.8.0.398-A01.tar.gz 版本,直接解压缩,然后执行安装脚本:bash install.sh
2. 使用
由于服务器大多没有启动 X window,因此我们使用字符界面的方式
./pediags --show all 列出可供检测的设备
测试结果曲线图:
小结:
1. 如果应用以随机IO为主的话,应使用raid 1+0,在相同硬盘数量情况下,其性能约是raid 5的1.4(+)倍
2. 随机IO越大,raid 5的性能下降越厉害,在本次测试中,有好几次较大IO时,测试进程无响应
附:
Sysbench测试io方法:
有一次在做MySQL数据库更新时,发现DML更新效率特别低,总能发现超过1秒的慢日志,一般很少会出现这种情况,初步判定为可能网络故障或者就是DB服务器自身的性能出现问题导致。
经过检查服务器状况,发现确实发生了硬件故障,主要是raid 10中的一块硬盘发生预警,信息如下: