【安全圈】阿里云发展史上重大丑闻

admin 2022年12月20日03:03:05评论94 views字数 2432阅读8分6秒阅读模式
【安全圈】阿里云发展史上重大丑闻

关键词

阿里云

在中国公有云服务市场中,阿里云、腾讯云、华为云、百度智能云是知名的国产“四朵云”,再加上亚马逊AWS云服务,共同占据了国内大半壁江山。

在有些统计报告中,还出现了天翼云、浪潮云、金山云、京东云等云厂商的名字,但这些厂商多对百度智能云的市场份额产生威胁,对“行业老大”——阿里云,则构不成地位威胁。

尽管阿里云在国内已经稳坐公有云头把交椅,但其今日仍旧迎来了发展史上新的“至暗时刻”。

【安全圈】阿里云发展史上重大丑闻

昨日上午10时许,阿里云香港区域部分服务开始出现故障,导致托管在该地域的众多服务项目出现无法访问的情况。

据南都报道,此次故障导致澳门金融管理局、澳门银河、莲花卫视、澳门水泥厂等关键基础设施营运者的网站、澳觅和MFood等外卖平台、以及澳门日报等APP自中午起便无法正常访问使用。

【安全圈】阿里云发展史上重大丑闻

除此之外,此次故障对于“币圈”影响也颇为严重,知名交易平台“Gate.io”发布公告表示,受运营商部分网络节点维护影响,充提服务将出现延缓。而另一主流交易所“欧易OKX”则是选择直接关停所有用户的交易并限制提币。可想而知,此次故障将会对交易所上投资者信心产生不可估量的打击,也难怪OKGroup创始人徐明星把这件事情称为“阿里云发展史上重大丑闻”。

【安全圈】阿里云发展史上重大丑闻

对于此次事件,阿里云方面发布公告表示,阿里云香港地域故障确认系香港PCCW机房制冷设备故障所致。目前阿里云方面正在加速处理,在昨晚21时,又有用户反馈,表示自己收到了阿里云的邮件与短信通知,通知标题提示实例宕机恢复,内容中却未能显示实例名称与内网IP。该用户表示,收到通知后,在阿里云控制台中仍不显示对应实例信息,且宕机实例也并未恢复运行。

【安全圈】阿里云发展史上重大丑闻

正常而言,作为一家具备雄厚实力的公有云服务商,出现持续如此长时间的服务故障,在业界是相当罕见的事件。截至今日凌晨,阿里云香港区域服务已陆续恢复。

实际上,这并不是阿里云第一次出现这种情况。

2016年10月11日,阿里云华东地区部分ECS服务器出现IO HANG问题,导致部分网站瘫痪,一些用户无法连接云服务器。第二日,阿里云通报,华东地区部分ECS服务器出现问题。

知乎上名为baiy.cn的网友评论道,“阿里云的IO HANG是个大BUG,因为它会永远HANG在那,不会有IO Timeout,意即:你即使做了跨IDC的高可用设计,也不会实现故障转移(Failover)等动作。相当于把一切高可用架构都给废了。”

这位网友进一步解释说,“这种完全违背物理存储设备(如:磁盘、RAID卡、SAN等)的行为导致了基本所有带磁盘IO的软件产品(如:MySQL、MongoDB、SQL Server等)的高可用集群都不能正常工作。”

有云服务专家表示,这个问题属于TOP级故障,即阿里云磁盘读写的操作卡住不动了。所有数据库都在磁盘里,出现卡顿即数据无法读出,这对用户影响非常大。

2015年6月,阿里云香港数据中心因机房建设方和运营商电力故障造成香港机房故障,断电12小时;

2015年9月,阿里云云顿的安骑士产品升级触发的bug导致用户ECS中的部分正常文件被隔离;

2016年7月,阿里云北京机房内网发生故障,导致大量互联网公司业务受到影响;

2016年12月,阿里云域名解析出现故障,官方称故障原因为突发大流量攻击导致的部分解析服务器异常……

下表主要列举了近五年我国部分云服务发生故障的相关情况。

【安全圈】阿里云发展史上重大丑闻

通过此次阿里云故障事件,云上企业学到的宝贵一课:做高可用性 做容灾

对今天的企业来说,上云是一种趋势,更是数字化转型的必走之路。我们看到,从AWS、微软Azure到阿里云等,全球任何一家云服务商对服务可靠性的承诺都不是100%,也做不到100%。

这意味着,云服务提供商总会出现一些不可避免的问题,比如自然灾害类的台风、暴雨、闪电等,人为的误删、误操作等。这些事情的发生,都会让云上企业的服务受到影响,出现宕机等。

现在的关键问题是,对中小企业来说,如何在上云之后更好地实现自我保障?

对大企业来说,有充足的资金支持,企业的IT系统建设得比较好,考虑比较周全。但是对一些中小企业而言,这种事情就损失惨重。

知乎上名为汪慧的网友说得比较贴切,“阿里云这种情况比较无奈,尤其是对中小企业,放在阿里云上,本身就有一部分是负担不起在线热切换。不上云的时候,自建的各大机房、各大运营商哪个都有挂掉的时候。”

“有人说不要上云,其实自己管过机房的都知道,问题太多,三天两头要么被DDOS了,用的时间长的机器硬盘挂了,数据丢失,什么事儿都有,云上确实解决了部分问题。”他写道。云上企业要做的是,在云服务提供商提供的保障上,再加一层防护罩。

这里就涉及做容灾。如果一家公司就那么一台服务器支撑整体服务,一旦出现问题,又没有考虑做高可用性,那么这家公司的业务就完了。

知乎上有网友评论说,“这次事故,假设做了同城容灾,华北2的C机房挂了,至少华北2还有A、B等其他机房做备份。如果是更有钱的一些公司,做了两地容灾策略,基本上可以避过云厂商所有的意外事故了。”

企业只要建立两套或多套功能相同的IT系统,互联之间进行健康状态监视和功能切换,当一处系统因意外停止工作时,整个应用系统就可以切换到另一处,使得该系统功能可以继续正常工作。

对企业来说,随着时间的不断发展,业务增加或变动,IT系统也要变化。为了实现高可用性,容灾是一件非常重要的事情,可以保证公司业务的稳定,持续向前发展。

殊不知,有些互联网公司因一次宕机,就损失惨重,甚至用户流失,业务遭受重创,最后关门。正所谓“未雨绸缪”,才能“有备无患”!

END

阅读推荐

【安全圈】阿里云发展史上重大丑闻

【安全圈】突发!阿里云挂了。。。

【安全圈】阿里云发展史上重大丑闻

【安全圈】著名机场 V2Board 出事了

【安全圈】阿里云发展史上重大丑闻

【安全圈】PRoot漏洞可劫持Linux设备

【安全圈】阿里云发展史上重大丑闻

【安全圈】因安装木马化的Windows 10程序,乌克兰政府网络被攻破

【安全圈】阿里云发展史上重大丑闻
【安全圈】阿里云发展史上重大丑闻

安全圈

【安全圈】阿里云发展史上重大丑闻

←扫码关注我们

网罗圈内热点 专注网络安全

实时资讯一手掌握!

【安全圈】阿里云发展史上重大丑闻

好看你就分享 有用就点个赞

支持「安全圈」就点个三连吧!

【安全圈】阿里云发展史上重大丑闻

原文始发于微信公众号(安全圈):【安全圈】阿里云发展史上重大丑闻

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年12月20日03:03:05
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   【安全圈】阿里云发展史上重大丑闻http://cn-sec.com/archives/1473502.html

发表评论

匿名网友 填写信息