实施中,我都会查询VMware兼容性网站(vmware.com/go/hcl),找到要求的固件版本号后,比如联想的这张阵列卡,我们可以查到其vSAN的兼容固件版本是:
可以注意到这个版本是20.00.04.00,然后根据这个信息,去访问联想的官网,下载固件,这时你看到的版本是:
这里的你看到的最新版本是24.05.00.00-2。通常而言,我的理解是使用的固件和驱动版本,只要高于VMware的兼容性列表都是可以,甚至可以说是越新越好,所以我就下载了这个最新的版本,为这张阵列卡进行了固件升级。
这正是我在不久前的一个项目中犯下的错误,环境是个6.7的vSAN环境,当这台服务器完成整理卡固件升级后,很快就出现磁盘报错
而且报错的磁盘是作为缓存盘的SSD,对vSAN而言,会导致整个磁盘组的错误,从系统日志上看,SSD持续出现了很高的延迟而被系统认为出现了故障。
这种时候,一定要冷静,因为vSAN的环境是可以允许一台主机故障的,所以需要停下来,将有问题的主机进入维护模式,撤出所有数据,查找原因。
因为当时还不知道确切的原因,我开始分析日志,搜索知识库,查找网页,还打了联想服务的支持热线,联想给了我一个链接:
https://vmware.lenovo.com/content/recipe/2022_03/SR650-Cascade_Lake-ESXi6.7.html#7Y37A01089
原来他们可能早就意识到这个问题,给出了一个固件版本的建议列表,另外一个可能的原因是环境的esxi 6.7也比较老旧了,新的固件已经不再对其进行测试
我参考这个链接,按照联想售后提供支持方法,进行了固件的降级,这个降级比升级麻烦多了,但最终还是成功了,算是躲过了一场危机;最终项目高质量地得以完成,而且得到客户认可。
总结下这个事件,得到两个经验:
-
一直以来,我的理解是VMware在HCL中确认了版本,都是经过了VMware的测试,所以这些版本应该都是兼容的,但更新的版本更好这个结论,需要增加一个前提,就是厂商在后续的研发中会继续保持对VMware的兼容性,在我碰到HPE和DELL这些厂商,越新越好这个策略,目前还没有翻过车,但对于部分厂商,比如这次遇到的联想,这个前提就不成立了;所以对于一些旧的版本esxi,如果采取比较保持的策略,就是直接用兼容性列表中所列出的版本。
-
硬件厂商的技术支持很重要,如果不能确认的时候,可以通过硬件厂商了解正确的固件版本。
如果您觉得有用,请点赞,分享和关注;合作联系电话:13503069419,加微信,请注明vExpert。
原文始发于微信公众号(vExpert):最新版本固件引出的麻烦
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论