年前巡检和SSD寿命

admin 2024年1月25日14:29:38评论13 views字数 1515阅读5分3秒阅读模式

        又到农历新年前,所以一般这个时候做系统维护工程师,往往都需要认真地进行巡检,及时发现问题,因为谁都不希望在快乐的假期中突然接到机房的电话。

        我也是提早开始这轮巡检,大致在1月底就可以完成所有签约客户的巡检;由于我的客户环境部署的质量都比较高,大部分问题都已经得到处理,所以这次发现的一个主要的问题是有个客户的vSAN环境的SSD寿命只剩下17%:

Host : XXX.XXX.XXX.XXX

naa.XXXXXXXXXXX

Health Status                N/A       OK            N/A  

Media Wearout Indicator      100       17            N/A  

Write Error Count            N/A       0             N/A  

Read Error Count             N/A       0             N/A  

Power-on Hours               N/A       N/A           N/A  

Power Cycle Count            N/A       0             N/A  

Reallocated Sector Count     N/A       0             N/A  

Raw Read Error Rate          N/A       N/A           N/A  

Drive Temperature            N/A       29            N/A  

Driver Rated Max Temperature N/A       N/A           N/A  

Write Sectors TOT Count      N/A       7123639923495 N/A  

Read Sectors TOT Count       N/A       4176759295280 N/A  

Initial Bad Block Count      N/A       N/A           N/A  

        自从我开始给客户检查SSD寿命以来,这是我发现的磨损最严重的磁盘,所以我立刻提醒客户考虑准备好备件。

        作为vSAN缓存的SSD如果故障,会导致整个磁盘组故障,虽然系统会自动进行修复,但是容量上要损失掉一个磁盘组,对于空间剩余比较小的环境,这些都可能是个问题;还有就是SSD的故障,并不容易观察到,有些系统如HP会在SSD磨损到一定值的时候,在ILO上发出报警,但并不会从面板上的指示灯上观察到。

        这个客户的系统已经投产了5年多了,根据我的经验,如果使用企业级别的SSD,一般的场景,大约3,4年后需要开始留意缓存SSD的寿命,由于vSAN的设计,每一次写的操作,都是先落到缓存的SSD,所以这些SSD必须有一定的耐写性,也是为什么不推荐使用消费级别的SSD作为缓存的一个原因;而且更糟糕的是,我发现对于同一个vSAN集群,缓存的SSD的磨损并不平均,比如上述这个客户,有些SSD只磨损了大约50%,平均大概磨损是65%左右,所以需要早些就介入进行检查。

        SSD的磨损度和故障之间也不是必然关系,我这方面也没有找到官方的说法,SSD可能在磨损到80%时候突然失效,也可能在磨损到100%时仍然能正常使用,我看到的一种说法是,磨损到90%以上,就建议主动更换,哪位朋友这方面如果有高见,敬请赐教。

        由于现在微信公众号留言都要通过私信方式,沟通不便,有朋友反映为了找到我的联系方式,把我的文章翻看了一遍,从本篇开始,我都会公开我的联系电话:13503069419,如果要加微信,请注明vExpert。

        如果您觉得有用,请点赞,分享和关注。

原文始发于微信公众号(vExpert):年前巡检和SSD寿命

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2024年1月25日14:29:38
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   年前巡检和SSD寿命https://cn-sec.com/archives/2404856.html

发表评论

匿名网友 填写信息