|
|
|
|
挪动端

阿里云毛病,又是运维的锅?

昨天,技能圈又出一次严重技能毛病。这一毛病,间接招致了国际半个互联网瘫痪。

作者:泉源:互联网|2018-06-29 10:36

开辟者盛宴来袭!7月28日51CTO首届开辟者大赛决赛带来技能创新分享

昨天,技能圈又出一次严重技能毛病。这一毛病,间接招致了国际半个互联网瘫痪。

6 月 27 日,据网友反应,阿里云官网呈现大范围拜访非常,图片效劳等产物无法正常运用,官网账号也无法登岸。

这次毛病于北京工夫 2018 年 6 月 27 日,16:21 左右开端,16:50 离开始连续规复。官方给出的毛病工夫大约继续 30 分钟,连续规复工夫有一个小时多。

阿里云挂了,技能圈沸腾了,以下是各路网友的吐槽:

最怕便是在上线交差的时分呈现了 Bug。

随后,阿里云正式公布告示称,于北京工夫 2018 年 6 月 27 日 16:21 分左右,阿里云官网的局部管控功用,及 NAS、OSS 等产物的局部功用呈现拜访非常。阿里工程师正在告急处置中。

在 6 月 27 日清晨时分,阿里云给了官方阐明,毛病原因是上线一个主动化运维新功用时,实行了一项变卦验证操纵,触发了一个未知代码 Bug,错误代码禁用了局部外部 IP,招致局部产物拜访链路欠亨。

阿里云称,“关于这次毛病,没有捏词,我们不克不及也不应呈现如许的失误!我们将仔细复盘改良主动化运维技能和公布验证流程,敬畏每一行代码,敬畏每一份拜托。 ”

阿里云比年毛病汗青:

  • 云盾晋级触及 Bug 形成效劳器少量文件被误断绝。正是由于这一低级错误,影响了大范畴的用户,形成了用 top 历程、top 下令、apt-get 相继被灭。
  • 阿里云北京机房内网毛病引发大面积效劳非常。
  • 阿里云香港效劳瘫痪 12 小时次要是由于机房建立方和运营商电力毛病,阿里云直到电力毛病发作近 12 个小时后才得以进入机房抢修。

昨日美国媒体报道,据美国市场研讨机构 Synergy Research Group 的数据,往年第一季度,阿里巴巴逾越 IBM 成为环球第四大云根底设备及相干效劳的提供商,落伍于亚马逊、微软和谷歌。

阿里云毛病,仅是运维操纵失误?

关于昨日阿里云呈现大范畴毛病,明天清晨,阿里云官方微博发布了毛病的缘由,间接缘由是由于"运维操纵失误",改良步伐是"复盘改良主动化运维技能和公布验证流程"。

能坦诚的发布题目,而不是用零碎颤动或许光纤挖断之类的词来搪塞各人,这一点值得一定。

除了通告提到的加强公布流程验证之外,重新审视零碎全体的断绝维护体系我以为也值得一做。毛病的工夫偏长,表露了对突提问题处置手腕及预案的匮乏。

一个不时演进的零碎,呈现题目不行防止,重复的夸大或许寻求不出题目未必是最佳的偏向,让团队具有疾速处理题目的才能通常来说愈加可行。

出了题目后,只需有相应的手腕来隔绝题目的范畴(相似大楼外面的防火门),增加对非毛病模块的搅扰,通常不会对用户全体形成搅扰。

从昨天的状况来看,要么就没有防火门的设计,要么零碎有相似的机制,但是处置职员不克不及纯熟地启用。

假如是前者,则需求重新审视全体架构,假如是后者,那便是团队外部需求反思的题目。

写在最初

每一次的毛病的确不该该发作,但偶然又难以防止。对此,不少网友表现,了解身为偕行的顺序员们,处理题目比处理人更紧张。

但是也有不少人以为:

  • 出了毛病可以包涵,那客户的丧失该怎样算?
  • 假如是没按标准操纵招致的变乱一定是要处分的,不然这次变乱的复盘便是无价的经历啊。
  • 技能职员一定得背毛病啊,但是这事应该要晋级,不是说一个技能人或许开除就算了的。

注:局部素材泉源于高可用架构,其他素材是互联网综合整理。

【编辑引荐】

  1. 阿里云推出使用设置装备摆设办理大杀器 ACM,散布式架构下设置装备摆设推送秒级失效
  2. 2天疾速搭建一个互联网电商全链路压测平台
  3. 关于通博8888官网运维罕见毛病排查和处置的33个本领汇总
  4. 阿里千亿买卖面前,运维怎样做到“0”毛病公布?
  5. 运维不背锅!继续两年纪据库“0毛病”的运维优化之道
【责任编辑:武晓燕 TEL:(010)68476606】

点赞 0
分享:
各人都在看
猜你喜好

读 书 +更多

网络效劳器设置装备摆设与使用(第3版)

本书是由临时从事网络办理任务和网络工程职员培训任务的一线网管职员和讲授职员经心编写,从理想的技能开展角度和实践使用的角度,经过少量...

订阅51CTO邮刊

点击这里检查样刊

订阅51CTO邮刊