N

国产GPU解锁训推双场景 摩尔线程S5000完成具身模型训练与大模型推理验证

· 9 分钟阅读

AI 速读 · 核心要点

  • 国产GPU实现具身智能模型全流程训练,训练精度与国际主流GPU误差小于0.62%
  • 单卡适配千亿参数大模型推理,FP8精度下吞吐性能达到国际顶配水平
  • 硬件具备全功能架构,覆盖AI计算、图形渲染、科学计算及视频编解码多场景
  • 软硬协同生态完善,提供完整软件栈,支持主流框架与一键跨平台部署
  • 万卡集群已商业化落地,线性扩展效率超95%,支撑千亿级模型训练需求

近日,摩尔线程公布两项重要技术成果,分别在 AI 模型训练与推理领域达成关键进展。国产 GPU 在训推一体场景的适配能力与性能表现持续提升,为 AI 产业自主可控提供了坚实支撑,摩尔线程旗舰产品MTT S5000 智算卡(基于 “平湖” 架构)在两项测试中均展现出稳定的硬件实力,相关成果已通过权威场景验证。

这两项成果均基于摩尔线程 MTT S5000 训推一体全功能 GPU 智算卡实现,该产品性能对标国际同代同类产品,单卡 AI 算力最高可达1000 TFLOPS,配备 80GB 显存与 1.6TB/s 显存带宽,卡间互联带宽 784GB/s。基于其构建的夸娥万卡集群,浮点运算能力达 10Exa-Flops,支持全精度通用计算与万亿参数模型训练,集群线性扩展效率达95%,有效训练时间占比超 90%。在Llama3-70B(Dense)与DeepSeek-236B(MOE)大模型上的算力利用率(MFU)分别达>60%和>40%,与主流生态兼容度较高,同时具备一定能效优势。

一、训练篇:国产 GPU 首次支撑具身智能模型全流程训练

摩尔线程联合智源研究院,依托 MTT S5000 千卡智算集群与 FlagOS-Robo 框架,完成了智源自研具身大脑模型 RoboBrain 2.5 的全流程训练,此次测试首次验证了国产 GPU 集群在具身智能大模型训练场景的可用性。

具身智能模型的核心是让机器人具备类人感知、推理与决策能力,例如完成擦桌子时绕开花瓶、有序擦拭的动作规划,这需要模型掌握动作时序价值评估与三维空间结构理解能力。此前,这类模型训练多依赖国外 GPU,而此次基于国产 GPU 集群的训练成果显示,模型在 2D/3D 空间推理、动作时序评估等权威测试中,表现与国际主流 GPU 训练结果高度一致,部分任务性能更优。

测试数据显示,训练损失值(Loss)与国际主流 GPU 训练曲线的相对误差小于0.62%,确保了模型精度不受硬件替换影响。在集群扩展能力上,从 64 卡扩展至 1024 卡时,系统线性扩展效率超 90%,从 1K 到 8K 卡集群线性度仍保持 95% 以上,意味着算力资源增加可同步提升训练速度,体现出国产 GPU 集群在大规模并行计算与通信调度上的成熟度,具备支撑万卡级训练任务的潜力。

此外,依托原生 FP8 算力加速,在 Qwen、DeepSeek 等主流大模型实测中,模型训练性能提升 30%,整体性价比同步优化超 30%,为企业和科研机构高效训练大模型、加速迭代进程提供了有力支持。

二、推理篇:国产 GPU 单卡适配千亿参数大模型,性能比肩国际顶配

摩尔线程与硅基流动的合作测试则验证了 MTT S5000 的推理能力,采用 FP8 低精度推理技术,完成了 DeepSeek V3 671B 满血版大模型的适配与性能测试,实测单卡 Prefill(预填充)吞吐 ≥4000 tokens/s,Decode(解码)吞吐 ≥1000 tokens/s,树立了国产 GPU 推理性能的新基准。

AI 模型推理相当于 “学以致用”,Prefill 对应快速理解用户问题,Decode 对应生成回答内容。

这一成绩得益于MUSA架构关键特性的系统性挖掘与释放化。在硅基流动推理引擎的配合下,MTT S5000的多项能力被高效转化为工程性能:其一,作为国内率先原生支持 FP8 精度的国产GPU,搭配基于MTT S5000 的硬件指令集所开发的高效矩阵乘法算子,计算吞吐量较 BF16 模式翻倍,同时降低显存带宽压力;其二,自研 ACE 引擎专门处理芯片间通信,实现计算与通信并行,解决传统架构中通信占用计算资源的问题;其三,针对 Transformer 架构中的FlashAttention算子,MUSA架构配置更多特殊功能单元(SFU),优化复杂数学运算效率。此外,双方构建的标准化国产推理方案,可兼容主流框架、部署于通用服务器,为国产 GPU 规模化应用创造了条件。

三、MTT S5000 的核心竞争力支撑

摩尔线程 S5000 在训推场景的突破,背后依托三重核心优势:

全功能架构:单芯片可覆盖 AI 计算、图形渲染、科学计算与物理仿真、超高清视频编解码(最高支持 160 路 1080P30 解码、40 路 4K30 解码)等多场景,适配多元化算力需求;

软硬协同生态:基于自研 MUSA 架构打造软硬一体方案,提供完整的 MUSA 软件栈(包括 MUSA SDK、KUAE 训练 / 推理套件等),支持一键跨平台部署,开发者仅需少量代码修改即可完成迁移;

商业化落地提速:万卡集群已正式上线服务,可支撑千亿级大模型客户需求,同时推出 OAM 计算模组、MGX 8-GPU 模块化平台、MCCX D800 X2 服务器等产品形态,推动国产 GPU 从 “可用” 向 “好用” 过渡。

四、行业价值与未来布局

当前全球 AI 算力需求激增,国产替代成为行业刚需,MTT S5000 的测试成果恰逢其时。政策层面,国家大基金三期注资、信创采购倾斜为国产 GPU 发展提供支撑;性能层面,其训练精度与评测表现比肩国际高端芯片,可实现部分场景替代;场景层面,具身智能、AIGC、自动驾驶、科学计算等领域的万亿级算力需求,为国产方案提供了广阔渗透空间,2025-2026 年被视为规模化替代的关键窗口期。摩尔线程 MTT S5000 在具身模型训练与大模型推理场景的表现,印证了国产算力硬件的技术成熟度,也为 AI 产业自主可控路径提供了实践参考。2025 年 12 月,摩尔线程发布全功能 GPU 架构 “花港”,支持 FP4 至 FP64 全精度计算,密度与效能较前代大幅提升。未来,摩尔线程将基于该架构推出 “华山” AI 训推芯片与 “庐山” 图形渲染芯片,国产 GPU 的综合实力有望持续提升,为各行业算力升级提供更多可选方案。

发表观点

您的邮箱地址不会被公开。 必填项已用 * 标注