2020云巨头宕机事件频发，云技术面临新的挑战

分类：云服务资讯编辑：新网小青年浏览量：211

2021-01-14 16:17:41

疫情之下，万物皆可“云”。上班族“云办公”、学生党“云上课”，各种在线教育、远程办公、云招聘、云看病等云服务需求得到集中爆发，企业数字化转型进程被按下了加速键，企业上云劲头十足，云计算产业得到了前所未有的发展契机。
目前，云计算已被很多企业采用，但是，在此过程中也出现了许多问题。仅2020年一年，全球主流云计算厂商曾发生数十起宕机事故。以下是2020年规模巨大的十大宕机事件，随着这些问题的出现和解决，云计算技术正面临着新的挑战和机遇。
1、3月，微软发生两次大规模宕机
3月3日，微软位于美国东部的数据中心发生了服务中断，持续六小时，导致美国北部的客户无法使用Azure云服务。
微软称，这次故障应归咎于冷却系统故障。发生故障的楼宇自动化控制导致气流减少，随后整个数据中心的温度达到峰值，影响了网络设备的性能，使得计算和存储都无法继续使用。
3月24日-26日，Azure Pipelines发生故障，这是DevOps团队使用的持续交付服务，接下来的几天，软件开发管道遇到了严重的延迟，开发人员受到的影响特别大。
微软证实，由于全球疫情爆发，需求激增，虚拟机容量受限使得设备重新映像的时间增加，导致可用代理的等待时间也随之增加。
2、3月，Google多个云服务出现无法访问
3月26日，Google多个云服务出现无法访问的问题。Google用户发Twitter称，他们遇到了Google 500和502错误代码——500代码代表因内部错误导致请求失败；502代码则代表网关出现故障。
Google最终将这次故障归咎于“基础设施组件”问题。据Downdetector称，美国东部沿海地区的Google客户受到的影响最大。
3、4月，GitHub多次宕机
微软旗下的源代码存储库GitHub在4月底发生了多次宕机。
4月21日，多个GitHub服务出现访问异常，持续了一个半小时。4月22日，服务再次出现中断，持续时间至少两小时。4月23日，多个GitHub服务也遇到了各种问题的影响，持续了近三小时。软件工程师经常使用的API请求、Webhooks等服务被标注为 '已降级'。
官方没有提供任何原因，也没有公布恢复过程的信息。虽然GitHub网站上更新了微软试图修复各种故障的情况，但并没有提供任何关于问题的细节，开发者们在Twitter上抨击微软缺乏透明度。
4、6月，IBM Cloud遭遇了重大宕机故障
6月9日，IBM Cloud 遭遇了重大宕机故障，平台上托管的多项服务也因此中断，其中就包括知名科技新闻聚合网站 Techmeme。本次宕机事件从下午2点30分左右开始，并快速蔓延至全球。
IBM Cloud页面也在故障发生期间短暂关闭，然后在下午6:30之后报告称一系列问题已经得以解决。
IBM网站解释到，INM网络运营团队调整了路由策略，处理了第三方提供商引入的问题，这次故障也得以解决。
5、8月，Zoom发生了部分中断
8月24日，Zoom发生了部分中断，导致用户无法访问其离线会议和在线视频会议，本次中断持续了3小时。Zoom并未解释造成中断的原因，他只是在状态页面上说找到并解决了问题。
6、9月，Microsoft 365和Azure出现故障
9月29日，Microsoft Office 365办公软件和Azure云产品出现故障，导致部分用户服务中断数小时。
微软表示，故障涉及Outlook电邮服务和Teams办公协作工具的部分用户，其中Teams具备聊天和视频会议功能，在新冠疫情期间其用户增长迅速。微软表示，一些用户无法登录这些服务，但已经登录上去的不受影响。
当天，Azure云计算用户也遭遇了与Office365套件类似的问题。Azure是微软的大规模云计算系统，许多企业都依靠其存储和分析数据。
7、11月，亚马逊云服务出现中断
11月25日，亚马逊云服务出现中断，大量网站和服务受到影响。本次宕机持续约5小时。
AWS发布通知称，处理流媒体数据的Kinesis服务出现问题，大量网站受到影响，错误率上升。并且，宕机还影响了它向状态页发布更新的能力。
据了解，此次宕机导致亚马逊智能安全子公司Ring、Roku、软件开发商Autodesk纽约大都会运输署的地铁网站，论坛出版集团旗下的《芝加哥论坛报》和《巴尔的摩太阳报》等一些公司或机构的服务受到了影响，网站频频出现错误。
8、12月，Google Cloud全球宕机
12月14日晚间，Google服务器又一次全球宕机。这是近5个月来第3次全球宕机。
Google旗下的YouTube、Gmail、Google Drive、Google Search等服务出现死机，用户无法正常使用，全球多个国家及地区用户均受到影响。
Google随后发推文确认，由于内部存储配额问题，Google身份验证系统中断。宕机45分后问题得以解决，现在所有服务都已恢复。

互联网时代对系统的可靠性提出了更高的要求。为了妥善解决停机和计划外的中断问题，服务器托管提供商必须先了解此类事件的主要原因。除了人为的错误之外，其他主要停机原因还包括维护措施和生命周期策略不佳，以及数据中心选址，风险缓解措施不足等。
随着云计算技术和应用的快速发展，云端存储已经变得越来越方便了。可是，为了防止意外的发生，对重要数据进行备份还是非常重要的。除此之外，由于宕机事故无法杜绝，应该提前做好宕机应急方案，以将事故危害降到最低。同时，日常维护检查也是必不可少的一项：http://www.xinnet .com/cs/cs.html

声明：免责声明：本文内容由互联网用户自发贡献自行上传，本网站不拥有所有权，也不承认相关法律责任。如果您发现本社区中有涉嫌抄袭的内容，请发

送邮件至：operations@xinnet.com进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。本站原创内容未经允许不得转载，或转载时

需注明出处：新网idc知识百科