又到农历新年前,所以一般这个时候做系统维护工程师,往往都需要认真地进行巡检,及时发现问题,因为谁都不希望在快乐的假期中突然接到机房的电话。
我也是提早开始这轮巡检,大致在1月底就可以完成所有签约客户的巡检;由于我的客户环境部署的质量都比较高,大部分问题都已经得到处理,所以这次发现的一个主要的问题是有个客户的vSAN环境的SSD寿命只剩下17%:
Host : XXX.XXX.XXX.XXX
naa.XXXXXXXXXXX
Health Status N/A OK N/A
Media Wearout Indicator 100 17 N/A
Write Error Count N/A 0 N/A
Read Error Count N/A 0 N/A
Power-on Hours N/A N/A N/A
Power Cycle Count N/A 0 N/A
Reallocated Sector Count N/A 0 N/A
Raw Read Error Rate N/A N/A N/A
Drive Temperature N/A 29 N/A
Driver Rated Max Temperature N/A N/A N/A
Write Sectors TOT Count N/A 7123639923495 N/A
Read Sectors TOT Count N/A 4176759295280 N/A
Initial Bad Block Count N/A N/A N/A
自从我开始给客户检查SSD寿命以来,这是我发现的磨损最严重的磁盘,所以我立刻提醒客户考虑准备好备件。
作为vSAN缓存的SSD如果故障,会导致整个磁盘组故障,虽然系统会自动进行修复,但是容量上要损失掉一个磁盘组,对于空间剩余比较小的环境,这些都可能是个问题;还有就是SSD的故障,并不容易观察到,有些系统如HP会在SSD磨损到一定值的时候,在ILO上发出报警,但并不会从面板上的指示灯上观察到。
这个客户的系统已经投产了5年多了,根据我的经验,如果使用企业级别的SSD,一般的场景,大约3,4年后需要开始留意缓存SSD的寿命,由于vSAN的设计,每一次写的操作,都是先落到缓存的SSD,所以这些SSD必须有一定的耐写性,这也是为什么不推荐使用消费级别的SSD作为缓存的一个原因;而且更糟糕的是,我发现对于同一个vSAN集群,缓存的SSD的磨损并不平均,比如上述这个客户,有些SSD只磨损了大约50%,平均大概磨损是65%左右,所以需要早些就介入进行检查。
SSD的磨损度和故障之间也不是必然关系,我这方面也没有找到官方的说法,SSD可能在磨损到80%时候突然失效,也可能在磨损到100%时仍然能正常使用,我看到的一种说法是,磨损到90%以上,就建议主动更换,哪位朋友这方面如果有高见,敬请赐教。
由于现在微信公众号留言都要通过私信方式,沟通不便,有朋友反映为了找到我的联系方式,把我的文章翻看了一遍,从本篇开始,我都会公开我的联系电话:13503069419,如果要加微信,请注明vExpert。
如果您觉得有用,请点赞,分享和关注。
原文始发于微信公众号(vExpert):年前巡检和SSD寿命
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论