近日,摩尔线程联合北京智源人工智能研究院,基于 FlagOS-Robo 框架,依托国产GPU 构建的 MTT S5000 千卡智算集群,成功完成智源自研具身大脑模型 RoboBrain 2.5 的全流程训练。这是行业内首次验证国产算力集群在具身智能大模型训练中的可用性与高效性,标志着国产 AI 基础设施在应对复杂多模态任务上迈出了关键一步。更值得关注的是,此次训练与英伟达H100 平台的训练曲线几乎重合,最终训练损失(loss)差异仅为0.62%,打破了“国产芯片只能推理、难以训练”的行业认知。
RoboBrain 是智源面向真实物理场景打造的通用具身大脑,以统一的视觉—语言多模态架构,为机器人在感知、认知、推理与决策上的核心能力提供基础支撑。RoboBrain 2.5 在原有通用具身大脑的基础上,新增了机器人对动作时序价值评估和三维空间结构的理解与推理能力,可让机器人精准识别三维空间坐标、规划机械臂最优路径,并实时评估动作合理性,对下游任务执行成功率有显著提升。为练成这些核心本领,该模型共接入1240万个训练样本,涵盖图片、文字描述、3D空间坐标及动作序列,训练难度处于行业前沿水平,此前这类级别的训练几乎被国际巨头芯片垄断。
为保障此次训练的高效推进,FlagOS-Robo 框架发挥了重要作用。该框架基于开源开放的多芯片 AI 软件栈 FlagOS 构建,是面向具身智能的训练与推理一体化框架。它支持从端到云的多场景部署,兼容多种芯片,能够同时实现大脑模型(VLM)与小脑模型(VLA)的高效协同训练与推理。FlagOS-Robo 打通从数据采集到真机与评测的全链路,覆盖数据加载、模型训练、推理到具身评测的全流程,有效降低了开发复杂度。同时,其具备统一实验管理、多芯片自动调优等功能,可实现一键跨本体部署。
为检验模型算法效果,智源团队在 2D/3D 空间感知推理榜单、时序价值评估榜单等多个权威具身评测数据集上开展验证工作。结果显示,基于摩尔线程MTT S5000国产 GPU算力集群训练出的 RoboBrain-2.5 模型,在多项关键指标上均与国际主流 GPU 训练模型保持一致,且在多个任务上表现更优。这一结果表明,FlagOS-Robo 框架与国产GPU集群协同训练出的 “具身大脑”,在理解、规划和执行能力上已达行业一流水准。

在模型精度方面,国产GPU构建的 MTT S5000 千卡集群表现出极高的稳定性。训练曲线显示,该集群上的 Loss 走势与国际主流 GPU(H100)训练结果高度重合,相对误差小于 0.62%。这一低误差也体现了国产GPU算力训练的高精度。
大规模集群训练的核心在于效率,得益于S5000独创的ACE技术——将复杂通信任务从计算核心卸载,实现计算与通信零冲突并行,大幅提升模型算力利用率(MFU)。实测数据显示,从 64 卡扩展至 1024 卡,系统实现了 90% 以上的线性扩展效率。扩展曲线呈现出极佳的线性增长趋势,意味着随着算力资源的增加,训练速度几乎同步倍增,这充分证明了相关集群在大规模并行计算和通信调度上的成熟度,且具备支持万卡级训练的能力。
此外,基于S5000构建的夸娥万卡集群,浮点运算能力达到10Exa-Flops,有效训练时间占比超过90%,在Dense模型训练中MFU达60%,在MoE模型中维持在40%左右,其Flash Attention算力利用率超过95%,多项精度指标达国际主流水平。
值得一提的是,S5000在推理场景同样表现优异:在DeepSeek V3 671B大模型推理中,单卡Prefill吞吐量突破4000 tokens/s,达到H100的60%以上;在文生视频模型中,推理速度达到H100的70-80%水平,展现出全场景适配能力。
此次训练任务的完成,让国产GPU在具身智能大模型训练领域的应用价值得到进一步凸显,摩尔线程的硬件集群也展现出了良好的适配能力与性能表现。此次成功验证为国产GPU 在具身智能领域的应用奠定了基础,为行业提供了可复制、可规模化的训练范式,有望共同推动中国具身智能产业的自主化、规模化发展。