谷歌云服务大规模中断事件溯源,API 管理系统故障引发全球瘫痪
2025年6月12日 ,谷歌规模I管谷歌云(Google Cloud)遭遇近年来最严重的云服服务中断事件 ,其API管理系统出现关键故障 ,中断障引导致全球数十项服务瘫痪长达七小时。事件溯源此次事故源于服务控制(Service Control)二进制文件中出现的理系空指针异常 ,该组件负责管理API授权和配额策略,统故影响范围覆盖谷歌云平台(GCP)和Google Workspace产品的发全数百万用户 。

故障根源在于谷歌的球瘫服务控制系统——这个区域性服务负责在基础设施中授权API请求并执行配额策略 。源码库2025年5月29日 ,谷歌规模I管工程师部署了新增配额策略检查功能 ,云服但相关代码既缺乏完善的中断障引错误处理机制 ,也未启用功能标志(feature flag)保护。事件溯源
危机爆发的理系直接原因是:包含意外空白字段的策略变更被写入服务控制系统依赖的区域性Spanner数据库表 。由于配额管理具有全球同步特性,源码下载统故这些损坏的发全元数据在几秒内就完成了全球复制。当服务控制系统尝试处理这些空白字段时 ,触发了未受保护的代码路径,导致空指针异常 ,最终引发所有区域二进制文件同时进入崩溃循环状态。
"本次变更的根本问题在于既没有配置适当的错误处理机制,也没有启用功能标志保护 。服务器租用由于缺乏错误处理 ,空指针直接导致二进制文件崩溃。"谷歌在事故报告中解释道。
网站可靠性工程(SRE)团队在10分钟内定位到根本原因,并在40分钟内部署了"红色按钮"紧急终止开关 ,关闭问题服务路径。虽然大部分区域在两小时内恢复,但us-central1区域却遭遇持续性问题——当服务控制任务在这个主要区域重启时,对底层Spanner基础设施形成"羊群效应" ,海量并发请求导致数据库不堪重负 。
工程师发现服务控制系统缺乏预防级联故障的建站模板随机指数退避机制 。谷歌不得不限制任务创建 ,并将流量路由至多区域数据库以减轻过载基础设施的压力 。这一延长恢复过程影响了包括谷歌计算引擎(Compute Engine)、BigQuery 、云存储(Cloud Storage)在内的核心服务 ,这些产品构成众多企业数字业务的基石 。
整改措施针对此次大规模服务中断 ,香港云服务器谷歌制定了全面整改方案:
立即冻结服务控制堆栈的所有变更和手动策略推送 ,直至系统完全修复对服务控制架构进行模块化改造 ,确保在个别检查失败时仍能保持API请求处理能力(故障开放而非关闭)全面审计所有使用全局复制数据的系统强制要求所有关键二进制变更必须启用功能标志保护受影响服务超过60项,涵盖Gmail、Google Drive、Google Meet、App Engine 、云函数(Cloud Functions)和Vertex AI等产品 。谷歌强调现有流媒体和基础设施即服务(IaaS)资源仍保持运行 ,云计算但客户在整个中断期间遭遇API和用户界面间歇性访问问题 。
相关文章
计算机安全事件响应团队CSIRT)是一种专为及时有效解决计算机安全相关事件而设置的能力,以减轻网络攻击所造成的危害。目前,全球主要国家都建立了国家级CSIRT,来承担保护本国网络安全的国家责任。而随着2025-12-07
数字经济的蓬勃发展,特别是人工智能应用普及产生的强大算力需求,使数据中心向智算中心演变的第三次革命加速到来,智算中心已经从最初的一个概念逐渐发展成为数智时代最具代表性的新型公共算力基础设施。作为领先的2025-12-07
智能建筑监控设备并不是什么新鲜事。 您无需成为未来学家就知道现在可以从建筑物内的传感器收集大量信息,然后出于各种目的对其进行分析。但数据中心究竟如何从楼宇监控中受益呢? 为数据中心构建监控分析最适合解2025-12-07
作为Java开发者,我们常被问到:“这台服务器到底能扛多少并发?”答案并非简单数字,而是需要结合硬件、代码、中间件等多方面因素。1.从“买菜”到“扛并发”:先搞懂三个核心概念什么是QPS简单说,QPS2025-12-07
圣何塞—2024 年 2月20日—F5NASDAQ:FFIV)近期在首届应用安全和应用交付大会AppWorld上宣布推出多项新功能,旨在降低保护和支持应用和API的复杂性,而这些呈现爆炸性增长的应用和2025-12-07
施耐德电气发布业界领先的兆瓦级UPS,引领空间、密度、安全性能的三重创新突破
日前,产业技术的全球领导者施耐德电气正式发布全新的Galaxy VXL UPS,作为一款功率覆盖500-1250 kW400V)的高密度、模块化、可扩展且具冗余设计的三相UPS,Galaxy VXL2025-12-07

最新评论