国产GPU解锁训推双场景 摩尔线程S5000完成具身模型训练与大模型推理验证

科技每日评

国产GPU解锁训推双场景摩尔线程S5000完成具身模型训练与大模型推理验证

科技每日评关注

2026年2月27日 · 9 分钟阅读

AI 速读 · 核心要点

国产GPU实现具身智能模型全流程训练，训练精度与国际主流GPU误差小于0.62%
单卡适配千亿参数大模型推理，FP8精度下吞吐性能达到国际顶配水平
硬件具备全功能架构，覆盖AI计算、图形渲染、科学计算及视频编解码多场景
软硬协同生态完善，提供完整软件栈，支持主流框架与一键跨平台部署
万卡集群已商业化落地，线性扩展效率超95%，支撑千亿级模型训练需求

近日，摩尔线程公布两项重要技术成果，分别在 AI 模型训练与推理领域达成关键进展。国产 GPU 在训推一体场景的适配能力与性能表现持续提升，为 AI 产业自主可控提供了坚实支撑，摩尔线程旗舰产品MTT S5000 智算卡（基于 “平湖” 架构）在两项测试中均展现出稳定的硬件实力，相关成果已通过权威场景验证。

这两项成果均基于摩尔线程 MTT S5000 训推一体全功能 GPU 智算卡实现，该产品性能对标国际同代同类产品，单卡 AI 算力最高可达1000 TFLOPS，配备 80GB 显存与 1.6TB/s 显存带宽，卡间互联带宽 784GB/s。基于其构建的夸娥万卡集群，浮点运算能力达 10Exa-Flops，支持全精度通用计算与万亿参数模型训练，集群线性扩展效率达95%，有效训练时间占比超 90%。在Llama3-70B（Dense）与DeepSeek-236B（MOE）大模型上的算力利用率（MFU）分别达>60%和>40%，与主流生态兼容度较高，同时具备一定能效优势。

一、训练篇：国产 GPU 首次支撑具身智能模型全流程训练

摩尔线程联合智源研究院，依托 MTT S5000 千卡智算集群与 FlagOS-Robo 框架，完成了智源自研具身大脑模型 RoboBrain 2.5 的全流程训练，此次测试首次验证了国产 GPU 集群在具身智能大模型训练场景的可用性。

具身智能模型的核心是让机器人具备类人感知、推理与决策能力，例如完成擦桌子时绕开花瓶、有序擦拭的动作规划，这需要模型掌握动作时序价值评估与三维空间结构理解能力。此前，这类模型训练多依赖国外 GPU，而此次基于国产 GPU 集群的训练成果显示，模型在 2D/3D 空间推理、动作时序评估等权威测试中，表现与国际主流 GPU 训练结果高度一致，部分任务性能更优。

测试数据显示，训练损失值（Loss）与国际主流 GPU 训练曲线的相对误差小于0.62%，确保了模型精度不受硬件替换影响。在集群扩展能力上，从 64 卡扩展至 1024 卡时，系统线性扩展效率超 90%，从 1K 到 8K 卡集群线性度仍保持 95% 以上，意味着算力资源增加可同步提升训练速度，体现出国产 GPU 集群在大规模并行计算与通信调度上的成熟度，具备支撑万卡级训练任务的潜力。

此外，依托原生 FP8 算力加速，在 Qwen、DeepSeek 等主流大模型实测中，模型训练性能提升 30%，整体性价比同步优化超 30%，为企业和科研机构高效训练大模型、加速迭代进程提供了有力支持。

二、推理篇：国产 GPU 单卡适配千亿参数大模型，性能比肩国际顶配

摩尔线程与硅基流动的合作测试则验证了 MTT S5000 的推理能力，采用 FP8 低精度推理技术，完成了 DeepSeek V3 671B 满血版大模型的适配与性能测试，实测单卡 Prefill（预填充）吞吐 ≥4000 tokens/s，Decode（解码）吞吐 ≥1000 tokens/s，树立了国产 GPU 推理性能的新基准。

AI 模型推理相当于 “学以致用”，Prefill 对应快速理解用户问题，Decode 对应生成回答内容。

这一成绩得益于MUSA架构关键特性的系统性挖掘与释放化。在硅基流动推理引擎的配合下，MTT S5000的多项能力被高效转化为工程性能：其一，作为国内率先原生支持 FP8 精度的国产GPU，搭配基于MTT S5000 的硬件指令集所开发的高效矩阵乘法算子，计算吞吐量较 BF16 模式翻倍，同时降低显存带宽压力；其二，自研 ACE 引擎专门处理芯片间通信，实现计算与通信并行，解决传统架构中通信占用计算资源的问题；其三，针对 Transformer 架构中的FlashAttention算子，MUSA架构配置更多特殊功能单元（SFU），优化复杂数学运算效率。此外，双方构建的标准化国产推理方案，可兼容主流框架、部署于通用服务器，为国产 GPU 规模化应用创造了条件。

三、MTT S5000 的核心竞争力支撑

摩尔线程 S5000 在训推场景的突破，背后依托三重核心优势：

全功能架构：单芯片可覆盖 AI 计算、图形渲染、科学计算与物理仿真、超高清视频编解码（最高支持 160 路 1080P30 解码、40 路 4K30 解码）等多场景，适配多元化算力需求；

软硬协同生态：基于自研 MUSA 架构打造软硬一体方案，提供完整的 MUSA 软件栈（包括 MUSA SDK、KUAE 训练 / 推理套件等），支持一键跨平台部署，开发者仅需少量代码修改即可完成迁移；

商业化落地提速：万卡集群已正式上线服务，可支撑千亿级大模型客户需求，同时推出 OAM 计算模组、MGX 8-GPU 模块化平台、MCCX D800 X2 服务器等产品形态，推动国产 GPU 从 “可用” 向 “好用” 过渡。

四、行业价值与未来布局

当前全球 AI 算力需求激增，国产替代成为行业刚需，MTT S5000 的测试成果恰逢其时。政策层面，国家大基金三期注资、信创采购倾斜为国产 GPU 发展提供支撑；性能层面，其训练精度与评测表现比肩国际高端芯片，可实现部分场景替代；场景层面，具身智能、AIGC、自动驾驶、科学计算等领域的万亿级算力需求，为国产方案提供了广阔渗透空间，2025-2026 年被视为规模化替代的关键窗口期。摩尔线程 MTT S5000 在具身模型训练与大模型推理场景的表现，印证了国产算力硬件的技术成熟度，也为 AI 产业自主可控路径提供了实践参考。2025 年 12 月，摩尔线程发布全功能 GPU 架构 “花港”，支持 FP4 至 FP64 全精度计算，密度与效能较前代大幅提升。未来，摩尔线程将基于该架构推出 “华山” AI 训推芯片与 “庐山” 图形渲染芯片，国产 GPU 的综合实力有望持续提升，为各行业算力升级提供更多可选方案。

微博 X (Twitter)

搜索资讯

AI 速读 · 核心要点

相关阅读

国产GPU驱动焕新升级，摩尔线程v330.140带来视频超分等多项增强

国产GPU驱动焕新升级，摩尔线程v330.140带来视频超分等多项增强

国产GPU驱动迭代加速，摩尔线程v330.140正式上线

发表观点 取消回复

发表观点取消回复