百度智能云重磅宣布:将点亮昆仑芯三代三万卡集群
近日 ,百度磅宣布百度智能云成功点亮昆仑芯三代万卡集群 ,云重这也是点亮国内首个正式点亮的自研万卡集群。据悉,昆仑百度智能云将进一步点亮3万卡集群。芯代这一重大突破标志着百度在人工智能算力领域迈出了坚实的集群一步,不仅为百度自身的百度磅宣布技术发展提供了强大动力 ,也为整个中国科技界、云重互联网行业和AI行业带来了新的点亮发展机遇 。
万卡集群优势凸显,昆仑助力算力突破与成本优化
万卡集群的芯代建成不仅为百度带来了强大的免费模板算力支持,还推动了模型降本的集群趋势 。在过去一年中 ,百度磅宣布整个行业都在努力降低大模型的云重使用成本,而算力紧张是点亮导致成本居高不下的重要因素之一 。百度通过自研芯片和大规模集群的建设 ,不仅解决了自身算力供应的问题,还为整个行业提供了新的思路和方向。
从算力上看,香港云服务器超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,满足AI原生应用快速迭代的需求。同时也能支持更大模型与复杂任务和多模态数据,支撑Sora类应用的开发 。此外 ,万卡集群能够支持多任务并发能力,通过动态资源切分 ,单集群可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降 。
随着国产大模型的兴起 ,高防服务器万卡集群逐渐从“单任务算力消耗”到“集群效能最大化”过渡,通过模型优化、有效训练率提升 、动态资源分配等手段 ,智能调度任务 ,将训练 、微调、推理任务混合部署,从而提升集群综合利用率,降低单位算力成本。
百舸赋能 ,全方位提升集群性能与稳定性
过去 ,多芯混训和激增的故障率等难题 ,成为万卡集群部署过程中的巨大挑战 。云计算而24年9月升级的百度百舸AI异构计算平台4.0(以下简称“百舸平台”) ,在万卡集群的建设中发挥了至关重要的作用。
首先,突破硬件扩展性瓶颈 ,如卡间互联的拓扑限制 ,避免通信带宽成为瓶颈;同时 ,围绕芯片及集群功耗,基于万卡规模常规方案功耗可达十兆瓦或更高,采用创新性散热方案 ,从而解决万卡集群的能效与散热问题;完善模型的分布式训练优化 ,模板下载采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%;在提升稳定性方面,提供容错与稳定性机制,避免由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障有效训练率达到98%;最后,针对机间通信带宽需求 ,建设超大规模HPN高性能网络,优化拓扑结构 ,从而降低通信瓶颈,带宽有效性达到90%以上 。
百舸4.0构建了十万卡级别的超大规模HPN高性能网络,针对跨地域通信中的高延迟问题 ,源码下载通过优化的拓扑结构、多路径负载均衡策略及通信策略 ,实现了几十公里的跨地域通信。在通信效率上 ,百舸通过先进的拥塞控制算法和集合通信算法策略,实现了完全无阻塞 ,并通过10ms级别超高精度网络监控,保障了网络的稳定性 。
在多芯混训方面,百舸展现了强大的资源整合能力 。它能够将不同地点 、不同规模的异构算力进行统一管理,构建起多芯资源池。当业务提交工作负载时 ,百舸可自动进行芯片选型 ,依据集群剩余的芯片资源,选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源 ,实现高达95%的万卡多芯混合训练效能 。
此外,在集群稳定性方面,百舸提供了全面的故障诊断手段,能够快速自动侦测到导致训练任务异常的节点故障 。百度自研的BCCL(百度集合通信库)能够快速定位故障并提供自动化的容错能力 ,将故障恢复时间从小时级降低到分钟级 ,极大地提高了集群的可靠性和可用性。
日前,花旗银行发布研报表示,DeepSeek 、百度等中国模型展现出高效和低成本优势 ,将有助于加速全球AI应用开发,并在全球引发更多技术创新 ,推动2025年人工智能应用的拐点。中国工程院院士、清华大学计算机系教授郑纬民也表示 ,当下构建国产自主万卡系统充满挑战 ,但"至关重要" 。
相关文章

适用于 macOS 的多个微软应用程序发现库注入漏洞,用户数据安全受威胁
根据 Cisco Talos 的最新研究,macOS 上的八个微软应用程序容易受到库注入攻击,有可能让攻击者劫持应用程序的权限并泄露敏感数据。受影响的微软应用程序包括 Microsoft Teams、2025-12-07
电脑错误码678的解决方法(了解电脑错误码678的含义及解决方案)
在使用电脑的过程中,我们有时会遇到各种错误码,其中之一便是错误码678。这个错误码代表了一种特定的问题,可能会影响我们正常使用电脑。本文将介绍错误码678的含义,并提供一些解决方案,帮助大家快速解决这2025-12-07
探索仿苹果款手机的性能与体验(体验超越想象的仿苹果款手机,为你揭秘其隐藏功能)
如今,仿苹果款手机在市场上广受欢迎,因其外观设计与功能接近苹果手机而备受瞩目。然而,人们对于仿苹果款手机的性能与体验仍然存在疑虑。本文将以仿苹果款手机为主题,深入探讨其性能与体验,并揭示其中隐藏的功能2025-12-07
电脑装系统报错解压错误的原因及解决方法(探索解决电脑装系统报错解压错误的有效方法)
在我们日常使用电脑时,难免会遇到一些问题,其中之一就是电脑装系统时出现报错解压错误。这种错误常常使人感到困扰,影响了我们的工作效率和使用体验。究竟什么原因导致了这种解压错误呢?如何解决这个问题?本文将2025-12-07
FBI:18岁黑客入侵博彩网站6万个账户并从中窃取60万美元
一名18岁的威斯康星州男子被指控入侵一个幻想体育和博彩网站,并从使用该网站的个人账户持有人那里窃取数十万美元。据联邦调查局称,更重要的是,该嫌疑人吹嘘自己有多喜欢这样做。联邦调查局说,这名来自威斯康星2025-12-07
TreeMind树图是用户很喜欢的一款智能思维导图制作工具,为用户带来了不错的使用体验,并且深受用户的喜爱,这款软件不仅可以自动生成思维导图,还为用户提供了丰富的素材资源,能够帮助用户简单操作几个步骤2025-12-07

最新评论