您现在的位置是:测试开发营 > 数据库
因拼写错误,17个数据库被删除,微软 Azure DevOps 罢工十小时
测试开发营2025-11-26 18:25:01【数据库】4人已围观
简介The register 网站披露,巴西南部地区部署的 Microsoft Azure DevOps 服务”罢工“了约十个小时。随后,微软首席软件工程经理 Eric Mattingly 为本次中断事件
The 因拼register 网站披露,巴西南部地区部署的写错 Microsoft Azure DevOps 服务”罢工“了约十个小时 。随后,误个微软微软首席软件工程经理 Eric Mattingly 为本次中断事件公开道歉 ,数据删除并透露中断原因是库被一个简单拼写错误致使 17 个生产数据库被删除。
Mattingly 表示 Azure DevOps 工程师会定期对生产数据库进行快照(Snapshot)处理 ,因拼以便及时调查报告上来的写错问题或测试性能是否改进,这些举动都依赖一个每天运行的误个微软后台系统,该系统会在特定时间删除旧的数据删除快照 。
在 Azure DevOps 工程师近期进行的香港云服务器库被一次代码升级中,用支持的因拼 Azure.ResourceManager.*NuGet 包取代了弃用的 Microsoft.Azure.Management.*包 ,此举引起一个大型的写错拉取请求 ,其中更换了旧包和新包中的误个微软 API 调用。
然而拉取请求中却出现了拼写错误,数据删除误将删除快照数据库的库被调用改成了删除托管数据库的 Azure SQL Server 的调用,导致后台快照删除作业删除了整个服务器 。

Mattingly 指出 Azure DevOps 有专门的云计算测试来捕捉此类问题,但是错误的代码只在某些特定条件下才得以运行 ,因此在现有的测试中没有很好的覆盖到 。(据推测 ,这些条件需要存在于一个足够“老”的数据库快照,以便被删除脚本所捕获。)
Mattingly 进一步指出由于没有任何快照数据库,Sprint 222 的内部部署(第0环)没有发生任何意外 ,几天后 ,高防服务器软件变更被部署到客户环境(第1环)被用于南巴西规模单位(一个特定角色的服务器集群) 。该环境中有一个快照数据库,其年龄“老”到足以触发该错误,最终导致后台工作删除了该规模单位的“整个 Azure SQL 服务器和所有 17 个生产数据库”。
经过十多个小时的努力 ,微软方面已经全部恢复了数据库 ,为防止此类问题再次发生,微软已经采取各种修复和重新配置措施。花费如此长时间的原因如下:
第一 :由于客户自己无法恢复 Azure SQL Server, 必须由 Azure 工程师来处理这一问题,这一过程大约需要一个小时:第二:数据库具有不同的亿华云备份配置,一些数据库被配置为区域冗余备份,另一些数据库被设置为最近的地理区域冗余备份 ,协调这种不匹配的冗余备份 ,需要花费几个小时;最后一个原因 :在数据库开始恢复在线后,由于自身网络服务器存在一系列复杂问题,使用这些数据库的客户也无法立刻访问整个规模单元。据悉 ,这些问题由服务器预热任务引起,该任务通过测试调用在可用数据库列表中反复进行 ,恢复过程中的数据库出现了一个错误,模板下载就会触发预热测试 执行指数回退重试,导致预热平均需要 90 分钟,在正常情况下此操作只需要几秒钟 。
更为复杂的是,整个恢复过程交错进行,一旦有一两台服务器开始接受客户流量,就会出现过载现象 ,然后停机。因此 ,恢复服务需要阻断所有到巴西南部规模单位的流量,直到一切都充分准备好后,才重新加入负载平衡器并处理流量。服务器租用
文章来源:https://www.theregister.com/2023/06/03/microsoft_azure_outage_brazil/
很赞哦!(737)
相关文章
- R星又双叒遭非法“登陆”,GTA 5 完整源代码被公开泄露
- 看似无害的提问,也能偷走RAG系统的记忆——IKEA:隐蔽高效的数据提取攻击新范式
- 虚拟机导入iso镜像文件的方法(简单快速的操作步骤让你轻松完成导入)
- 解决CAD激活码错误的有效措施(如何处理CAD激活码错误及“错误码”)
- 支付巨头PayPal曝大漏洞,黑客可直接窃取用户资金
- GenAI时代的DLP:影子数据与工具“碎片化”的双重困局!
- 学习PE教程Win7,提升计算机维护技能(掌握PE教程Win7,轻松解决系统故障)
- 如何解决电脑无法连接网络的问题(简明易懂的教程,帮你轻松恢复上网畅通)
- 在不断变化的网络安全格局中企业如何管理网络安全风险
- 戴尔易安信加固过的机箱,保证在远程和恶劣环境下工作的可靠性,满足边缘工作负载不断增长的需求







