首页 > 新闻资讯 > 新闻详情

MegaScaleOut:从四季春城到烟花扬州,算力网络再迎技术春天

2025-04-03

2024年寒冬时节,春城昆明以满城绿意见证了MegaScaleOut项目的诞生。这座“四季如春”的城市,正如项目所承载的愿景——突破物理资源桎梏,为算力网络注入蓬勃生机。三个月后,ODCC春季全会于“烟花三月”的扬州再启征程,呼应李白笔下“下扬州”的诗意,MegaScaleOut网络项目在技术迭代与生态拓展中迎来新的春天。

冬季立项:破局算力网络之困

在昆明冬季全会上,MegaScaleOut直面国内大模型训练的算力网络痛点:高端GPU禁运背景下,单任务需数十万卡GPU的跨园区组网需求迫在眉睫,而传统园区网络存在成本高、故障率高、功耗大等瓶颈。项目以“跨园区+园区内”双层次布局,提出六大子项目:

1. 跨园区扩展网络:聚焦长距互联,涵盖智算中心互联技术、O3S全光交换机、微光学模块;

2. 园区扩展网络:瞄准高性价比组网,包括扁平化架构、Big Switch、园区超互联光模块。

随着国产大模型DeepSeek的横空出世,推理需求激增与开源生态扩张对算力网络提出更高要求。其低成本、高性能特性推动全球开发者快速部署,但推理集群的实时响应需求进一步暴露网络瓶颈,跨园区数据传输需兼顾长距稳定性和低时延,以支撑模型迭代与多模态融合,开源模式加速算力普惠,倒逼网络基础设施降本增效。

扬州全会:技术纵深与生态扩容

本次扬州春季全会,MegaScaleOut项目迎来里程碑进展:

1. 跨园区网络技术突破

智算中心互联技术:新华三12508CR支持长距拥塞反馈,完成与Nvidia CX网卡互操作测试;O3S全光交换机:完成64x64原型机开发;微光学模块:完成纯硬件驱动的可插拔式光放大器模块设计。

详细进展如下:

子项目-智算中心互联技术

项目在长距快速拥塞反馈技术研发方面取得重大进展。新华三基于博通J2C+芯片在12508CR交换机上实现快速拥塞反馈,并与Nvidia CX网卡完成互操作测试。该技术大幅缩短拥塞反馈路径,赋予源端服务器快速响应能力,在网络出现拥塞时,源服务器及时降低发送速率,高效地缓解拥塞。30km的链路测试表明,该方案比端到端的拥塞控制(ECN)性能提升了10%左右。

微信图片_20250403141113.png

下一步将继续深入研究负载均衡、物理层安全和可靠性性技术、数据链路层弹性大带宽及可靠性技术等。

子项目-O3S全光交换机

项目已经进入产品设计阶段,目前福州高意通讯已经基于数字液晶技术完成了64x64端口的OCS全光交换离线原型机开发,实验室测试结果表明其性能优异,具备低插入损耗和快速切换的特点,同时具有极低的串扰和时延。

微信图片_20250403141202.png

下一步将进一步探索OCS与DTS在跨区域智算数据中心互联光网络中的应用,重点关注快速故障恢复。

子项目-微光学模块

项目主要解决IPoverWDM的彩光跨城域传输,采用传统数据中心互联(DCI)光层设备性能冗余、体积庞大、管理复杂的问题,将DCI光层设备进行功能裁剪,再通过小型化器件选型和优化设计,将光传输设备功能集成到可插拔模块的标准封装中。已设计了纯硬件驱动的可插拔式光放大器模块的几种类型,分别适配不同的应用场景,集成度提高上百倍,功耗降至十分之一。

微信图片_20250403141257.png

2.园区扩展网络新增三大子项目:

(1) CPO(共封装光学):通过光引擎与芯片集成降低功耗,缩短信号路径提升质量,应对可维护性与标准化挑战;

(2) CPC(共封装铜缆):支持224Gbps速率,探讨448Gbps演进路线,为超大规模集群提供经济性互联;

(3) 异构算力集合通信库:直面异构卡管控的挑战,探索跨架构通信优化方案,推动AI集群高效协同。

详细进展如下:

子项目-探索BigSwitch组网收益的最大化

本项目在DeepSeek模型范式下,探索基于BigSwitch实现算力网络成本最优。通过分析影响网络成本的因素,对减少光模块数量和降低网络层次两个方向,分别对四种组网架构在不同组网规模,不同服务器场景进行单端口归一化成本对比分析,进而找到成本最优的方案。

微信图片_20250403141402.png

下一步将研究BigSwitch网络中引入AEC线缆、LPO光模块,对整网成本收益的进一步探索。同时不断深入研究BigSwitch框内交换机之间的负载均衡和拥塞控制技术。

子项目-异构算力的集合通信库

项目主要解决智算中心多架构GPU混合训练中通信效率低下与跨平台协同能力不足的问题。

核心技术包括跨架构的统一集合通信原语库,实现AllReduce/AllGather等基础操作的标准化封装,保障异构GPU基本通信与交互能力;构建集合通信智能扩展库,适应异构GPU差异化的高精度、高性能、高效率通信模式;搭建集合通信调度管控模块,实现异构GPU状态可感知、资源可管理、运行可控制、任务可调度。

微信图片_20250403141452.png

子项目-CPC(Co-Packaged Copper)

项目主要解决如何进一步将铜缆靠近芯片,通过缩短铜缆与芯片的物理距离提升系统无源链路下的损耗裕量,支持224bps并在未来演进支持448Gbps,通过构建超低损耗的信号传输路径来支持设备间采用更低成本和更低功耗的DAC、ACC、LPO方案,为AI及数据中心集群的大规模部署提供兼具性能与经济性的解决方案。

微信图片_20250403141538.png

子项目-CPO(Co-Packaged Optics)

项目围绕CPO(共封装光学)的核心技术,包含光引擎、外部光源、光学互联和电气连接展开研究,将涵盖单体性能评估(散热、功耗、光电性能)、组网应用评估(真实环境、故障模拟、部署场景)和运维探索(对比传统方案、故障分析)三个方面。

微信图片_20250403141623.png

展望:迈向百万GPU互联新时代

从昆明的技术萌芽到扬州的生态绽放,MegaScaleOut以“双引擎驱动”(园区内scale out和跨园区scale out)持续定义算力网络新范式。未来,ODCC网络工作组将稳步推进重点项目,持续深化开放创新,加速长距无损传输协议、CPO/CPC等前沿技术落地,为国产大模型崛起与全球AGI竞赛筑牢网络基石。正如扬州运河贯通南北的壮阔,MegaScaleOut正以技术之力,连接算力时代的无限可能。

联系人

腾   讯  杨老师  19801357921

信通院  孙老师  15732071244

ODCC联系人

刘老师 13488889649(微信同号)

邮箱:liupengyun@caict.ac.cn

关注我们
联系我们
中国信通院云大所 数据中心团队
<< 上一篇
“华彩算力领航计划”——AI-Ready智算中心测试重磅来袭!
下一篇 >>
国内首个!华为星河AI高算效数据中心网络方案荣获信通院智算网络测评最高等级认证
返回顶部