因拼写错误,17个数据库被删除,微软 Azure DevOps 罢工十小时

  发布时间:2025-12-07 20:40:44   作者:玩站小弟   我要评论
The register 网站披露,巴西南部地区部署的 Microsoft Azure DevOps 服务”罢工“了约十个小时。随后,微软首席软件工程经理 Eric Mattingly 为本次中断事件 。

The 因拼register 网站披露 ,巴西南部地区部署的写错 Microsoft Azure DevOps 服务”罢工“了约十个小时。随后 ,误个微软微软首席软件工程经理 Eric Mattingly 为本次中断事件公开道歉,数据删除并透露中断原因是库被一个简单拼写错误致使 17 个生产数据库被删除 。

Mattingly 表示 Azure DevOps  工程师会定期对生产数据库进行快照(Snapshot)处理,因拼以便及时调查报告上来的写错问题或测试性能是否改进 ,这些举动都依赖一个每天运行的误个微软后台系统,该系统会在特定时间删除旧的数据删除快照 。

在 Azure DevOps 工程师近期进行的免费模板库被一次代码升级中 ,用支持的因拼 Azure.ResourceManager.*NuGet 包取代了弃用的 Microsoft.Azure.Management.*包,此举引起一个大型的写错拉取请求,其中更换了旧包和新包中的误个微软 API 调用 。

然而拉取请求中却出现了拼写错误,数据删除误将删除快照数据库的库被调用改成了删除托管数据库的 Azure SQL Server 的调用,导致后台快照删除作业删除了整个服务器 。

事故原因

Mattingly 指出 Azure DevOps 有专门的云计算测试来捕捉此类问题 ,但是错误的代码只在某些特定条件下才得以运行 ,因此在现有的测试中没有很好的覆盖到 。(据推测  ,这些条件需要存在于一个足够“老”的数据库快照 ,以便被删除脚本所捕获。)

Mattingly 进一步指出由于没有任何快照数据库,Sprint 222 的内部部署(第0环)没有发生任何意外 ,几天后 ,模板下载软件变更被部署到客户环境(第1环)被用于南巴西规模单位(一个特定角色的服务器集群)。该环境中有一个快照数据库,其年龄“老”到足以触发该错误 ,最终导致后台工作删除了该规模单位的“整个 Azure SQL 服务器和所有 17 个生产数据库” 。

经过十多个小时的努力,微软方面已经全部恢复了数据库 ,为防止此类问题再次发生 ,微软已经采取各种修复和重新配置措施。花费如此长时间的原因如下:

第一:由于客户自己无法恢复 Azure SQL Server, 必须由 Azure 工程师来处理这一问题 ,这一过程大约需要一个小时:第二 :数据库具有不同的香港云服务器备份配置,一些数据库被配置为区域冗余备份 ,另一些数据库被设置为最近的地理区域冗余备份  ,协调这种不匹配的冗余备份 ,需要花费几个小时;最后一个原因 :在数据库开始恢复在线后,由于自身网络服务器存在一系列复杂问题,使用这些数据库的客户也无法立刻访问整个规模单元  。

据悉 ,这些问题由服务器预热任务引起,该任务通过测试调用在可用数据库列表中反复进行  ,恢复过程中的数据库出现了一个错误 ,建站模板就会触发预热测试 执行指数回退重试,导致预热平均需要 90 分钟 ,在正常情况下此操作只需要几秒钟 。

更为复杂的是 ,整个恢复过程交错进行 ,一旦有一两台服务器开始接受客户流量 ,就会出现过载现象 ,然后停机。因此,恢复服务需要阻断所有到巴西南部规模单位的流量,直到一切都充分准备好后 ,才重新加入负载平衡器并处理流量 。高防服务器

文章来源 :https://www.theregister.com/2023/06/03/microsoft_azure_outage_brazil/

  • Tag:

相关文章

  • 为什么物联网安全很重要?

    什么是物联网安全?近年来,物联网(IoT)和运营技术(OT)设备的应用出现了爆炸式增长。然而,虽然网络设备可以提高组织运营的效率和可见性,但也带来了重大的安全风险,扩大了组织的攻击面。消费类物联网设备
    2025-12-07
  • CISO如何削减预算而不影响整体安全

    多年前,现任Transmit Security公司CISO顾问的大卫·马赫迪(David Mahdi)就遭遇了任何安全负责人都不愿面对的困境:年中预算突然被削减,且无法推迟执行。“这是内部问题、遗留技
    2025-12-07
  • 花漾搜索答题教程(掌握花漾搜索的技巧,快速解答各类题目)

    在如今信息爆炸的时代,搜索引擎成为我们获取知识的主要途径之一。而作为一款智能搜索引擎,花漾搜索更是在解答问题方面有着独特的优势。本文将为大家介绍如何利用花漾搜索来提高答题效率,帮助大家更加轻松地解答各
    2025-12-07
  • AISURU 僵尸网络:从破纪录 DDoS 攻击到住宅代理帝国的演变

    僵尸网络的崛起与扩张AISURU僵尸网络最初由XLab在2024年披露,现已迅速成为DDoS领域最危险的威胁之一。仅2025年,该网络就与多起破纪录攻击事件相关联,包括被Cloudflare成功缓解的
    2025-12-07
  • 2024年网络安全趋势简析

    国际研究机构Gartner会在每年10月份左右发布下一年度的战略发展趋势预测,并在次年3月左右发布和网络安全相关的趋势预测。绿盟科技通过将近3年的趋势预测进行分组对比分析后发现,除了众人皆知的AI技术
    2025-12-07
  • 老旧系统安全防护:现代化改造策略

    在企业加速数字化转型的进程中,许多机构仍受制于老旧系统Legacy Systems)——这些支撑核心业务运营的技术虽显陈旧却至关重要。尽管这些系统通常能稳定执行既定任务,但其过时的架构使企业面临安全风
    2025-12-07

最新评论