一、MOE模型需要更大规模超节点系统
混合专家模型(Mixture of Experts, MoE)凭借创新设计,巧妙破解了模型规模、计算效率与推理性能三者间的调和难题,已成为当前大语言模型(Large Language Model, LLM)领域的主流架构,为大模型技术突破提供关键支撑。与此同时,MoE 模型的专家数量正呈现显著增长趋势。更多的专家数量不仅能直接提升模型容量、优化计算效率,还能进一步推动各专家在特定任务领域的专业化演进,从而持续增强模型整体能力与适配性。
随着MOE模型专家数量的增长,若要实现更优的推理响应性能(TTFT/TPOT),需部署更多 GPU 以承载不同专(一般建议每卡专家数1-2个)构建大EP(Expert Parallelism)部署架构。然而,EP 规模的扩大将直接导致通信占比显著提升,进而成为制约推理响应时延的核心因素。在此背景下,超节点凭借其大带宽、低时延的 GPU 卡间互联能力,有效降低 MOE 模型大 EP 部署中的通信开销,为性能优化提供关键支撑。相应地,超节点的规模需与 MOE 模型的大 EP 部署需求相匹配,才能充分发挥其技术优势。图1给出了当前典型MOE模型专家数量以及推荐超节点规模。
典型MOE模型专家数量与超节点规模
二、大规模超节点系统的技术路线与挑战
当前实现大规模超节点的技术路线主要有三种:全铜缆互联、铜光混合互联和全光互联。不同方案在部署规模、时延、成本及工程可行性上存在显著差异:
全铜缆互联仅适用于单柜或相邻双柜部署,其物理距离限制(≤3m)与单柜内高密度GPU引发的供电、散热及线缆密度、机房承重等问题,导致工程扩展性和可维护性的巨大挑战。
铜光混合互联虽支持多柜扩展,但依赖“柜内铜缆+柜间光互联”两级交换架构,引入更高时延与更加复杂的scale up协议能力要求,并且两层交换机显著增加系统成本。
全光互联通过每GPU直连光接口与一层HighRadix交换机互联,当前HighRadix交换机可支持512端口200Gbps,可实现一层交换机512卡超节点。全光互联可以实现较低时延和灵活的部署规模;其核心挑战在于光器件成本与可靠性,因此要实现大规模全光互联超节点仍需针对这些问题完成技术与产业突破。
一层交换全光互联超节点
三、ETH-X Ultra全光互联超节点目标
ODCC网络工作组启动的ETH-X Ultra项目旨在面向大规模超节点系统,联合产业合作伙伴共同探索全光互联超节点相关技术与解决方案。针对全光互联超节点面临的成本、可靠性、可维护性挑战设定以下三大目标:
1. 极致成本控制 :
实现系统连接成本 ≤0.2$/Gbps (较传统方案降低60%+),通过光器件标准化与高密度设计压缩传输成本。
2.超高可靠性保障 :
超节点互联链路达成99.999%可用性 ,消除因光链路级丢包导致的任务中断。
3.高效现场可维护性 :
支持故障部件现场快速更换 ,保障超节点持续服务性。
ETH-X Ultra项目目标
四、光互联超节点光引擎技术需求与互通测试
光引擎总容量为3.2T,由32个通道构成,各通道可互相独立工作,每通道速率可支持112Gbps,工作速率为106.25 Gbps。光引擎支持可插拔安装,支持30 m互联距离,链路最大损耗为3.0 dB(最大包含4个0.7 dB连接器损耗和0.2 dB光纤损耗)。
光引擎的测试分解为单体指标测试和系统端到端测试两部分。其中单体指标测试用于单独表征引擎性能;系统端到端测试用于评估完整链路性能。单体指标测试涵盖光参数和电参数两大块,表征参数和测试方法参考LPO MSA Revision 1.0的条款9、10和IEEE Std 802.3-2022中的相关定义。系统端到端测试重点验证完整链路的信号质量,包括链路预算裕量、误码稳定性和环境压力性能,评估指标主要使用BER和FEC分布。BER用于评估链路预算,参考IEEE Std 802.3-2022中的相关接收机和发射机指标定义。误码稳定性和环境压力性能均以FEC分布作为参考,对于112G通道,当链路预算裕量为0时,FEC bin测试值不得超过5(165s 累积值)。
五、光互联超节点可靠性方案分析
FEC 时延在静态时延中占比 30%~50%,而优化 FEC 时延会导致误码率升高。为了避免误码丢包对集群通信吞吐产生影响,光互联的Post-FEC误码率应处于可容忍范围内(<1E-15)。
当链路中不可避免出现误码故障时,链路端可以及时检查出异常并通过链路级重传能力实现误码数据重传。然而,降低误码率和链路级重传的方式并不能完全避免光互联中产生的单点故障问题。譬如:
(一)单个通道污损故障需要通过通道动态容错方式避免单点故障
(二)单个模块激光器故障故障需要通过跨模块LLR方式避免单点故障
六、光互联超节点互联成本分析
以NPO形态组成的光互联超节点技术方案,全光链路主要部件如下图所示:
OE链路部分相应的成本构成应该包含所有光互联的器件部分,总体成本目标首先应用拆解到各组成部分成本目标:
全光超节点主要包含以下几种互联方式,在以上光互联组件构成下,光互联成本分析结论及目标参考如下表所示,短距可采用多模NPO方案,成本可实现低于0.1$/G, 单模硅光NPO方案目标实现0.12$/G。
七、ETH-X Ultra项目构成与样机计划
ETH-X Ultra项目于2025年7月在ODCC夏季全会网络工作组启动后,与众多GPU芯片厂家、交换芯片厂家、OE光引擎厂家、模块厂家、整机系统厂家开展了深入交流,确定了项目技术规范与系统样机时间表。项目技术规范包括:《光互联硬件设计规范》、《光引擎(OE)技术规范》、《互通测试技术规范》、《光互联系统可靠性方案规范》。
ETH-X Ultra项目计划在未来一年左右的时间内联合行业合作伙伴完成相关技术规范及验证样机研发测试,样机计划如下:
联系方式:
腾讯 夏老师 forestxia@tencent.com
信通院 王老师 wangshaopeng@caict.ac.cn
信通院 孙老师 suncong@caict.ac.cn