扫码登录
2025 世界智能产业博览会上,国内智能计算领域迎来里程碑式进展 —— 中科曙光联合 20 余家产业链企业,正式发布国内首个 AI 计算开放架构,并推出配套的曙光 AI 超集群系统。这一创新不仅标志着中国智能计算产业迈入 “全面开放协作” 新阶段,更被业界视为构建 “中国版安卓生态”、破解算力发展瓶颈的关键一步。
当前,中国算力规模已跻身全球第二梯队。截至 2024 年底,全国算力总规模达 280 EFLOPS,其中智能算力占比 32%;IDC 更预测,2025 年中国算力规模将突破 1000 EFLOPS。但繁荣背后,产业仍面临多重挑战:高端算力供给不足、国产加速卡性能存在差距、算力成本居高不下、生态体系尚未成熟,这些问题共同制约着算力从 “规模增长” 向 “好用易用” 升级。行业普遍共识是,单一环节的技术突破已无法满足需求,唯有通过全产业链集群创新,才能实现降本增效、突破瓶颈。
“大模型迭代速度已从每年 3-4 次缩短至每周一次,但 AI 芯片研发周期仍需两年,性能提升的边际效应还在递减。” 中科曙光高级副总裁李斌点出当前行业核心矛盾。他认为,破解 “算力空转” 困局的关键,在于打破产业链上下游壁垒,推动跨层级深度协作。“过去 IT 时代是‘苹果模式’,各环节独立优化;现在智能计算时代需要‘安卓模式’,靠开放协作应对技术融合的复杂挑战。”
作为国家先进计算产业创新中心的牵头单位,中科曙光此次发布的 AI 计算开放架构,以 GPU 为核心构建高效紧耦合系统,全面覆盖 “算、存、网、电、冷、管、软” 全链条,而曙光 AI 超集群系统正是这一架构的核心载体。该系统单机柜可支持 96 张加速卡、提供百 P 级算力,最大可扩展至百万卡规模;通过 “超级隧道” 存储优化、软硬协同设计等技术,其千卡集群的训推性能达到业界主流水平的 2.3 倍,模型开发效率提升 4 倍,GPU 算效增加 55%,故障修复时间更缩短 47%,多维度实现性能与效率突破。
与传统封闭算力系统不同,曙光 AI 超集群系统的核心优势在于 “开放兼容”—— 既支持多品牌 GPU 加速卡,也适配 CUDA 等主流生态,既为用户提供硬件选择的自由度,也大幅降低软件开发的适配成本。“这不仅是一款产品,更是一个开放创新平台。” 中科曙光总裁助理杜夏威强调,“通过适配不同品牌 GPU,用户能保护前期设备投资,避免被单一技术路线绑定,真正实现‘按需选择、灵活部署’。”
为进一步推动生态共建,中科曙光同步宣布开放三项核心技术能力:AI 存储优化技术、液冷基础设施设计规范、DeepAI 基础软件栈。其中,液冷技术是 AI 大集群稳定运行的关键支撑 —— 曙光数创副总裁张鹏透露,公司已完成从冷板式、浸没相变式到浸没式液冷的技术迭代,当前在浸没式液冷市场的占有率超 50%,此次发布的多层级液冷方案,能在保障散热效率的同时,显著提升系统交付性价比。
针对跨厂商技术对齐难、重复研发成本高的问题,中科曙光还联合芯片、整机等领域企业,依托国家先进计算产业创新中心成立 “AI 计算开放架构联合实验室”。该实验室将聚焦部件级、系统层、基础设施层等五类技术的开放与标准化,减少行业内的重复研发投入,降低中小企业的创新门槛。“从 2018 年牵头成立创新中心起,我们就一直在推动上下游资源的拉通。” 杜夏威表示,“此次构建开放架构,核心是打破‘技术墙’与‘生态墙’,让不同规模、不同领域的企业都能参与进来,形成良性循环的协作生态。