国产GPU大模型训练仿真工具升级：摩尔线程SimuMax构建全栈工作流

科技每日评

国产GPU大模型训练仿真工具升级：摩尔线程SimuMax构建全栈工作流

科技每日评关注

2026年1月30日 · 6 分钟阅读

AI 速读 · 核心要点

发布开源仿真工具SimuMax 1.1，升级为一体化全栈工作流平台。
强化智能并行策略搜索与系统配置生成，提升训练调优效率。
增强对Megatron-LM的兼容性及混合并行通信建模精度。
提供可视化配置界面，简化从单卡到万卡集群的任务定义。
全面开源以促进生态共建，助力国产GPU算力利用率提升。

在国产GPU的大模型训练生态建设中，如何低成本、高效率地进行训练调优是关键难题。近日，摩尔线程正式发布开源大模型分布式训练仿真工具 SimuMax 的 1.1 版本。该版本在完整继承 v1.0 高精度仿真能力的基础上，进一步强化了训练过程的模拟与分析能力，完成了从单一工具到一体化全栈工作流平台的升级，为大模型训练的仿真与调优提供了系统化支持。

本次更新主要围绕三大核心方向展开优化，分别是打造用户友好的可视化配置界面、开发智能并行策略搜索功能、搭建融合计算与通信效率建模的 System-Config 生成流水线。同时，新版本提升了对主流训练框架 Megatron-LM 的兼容性，还增强了混合并行训练中复杂通信行为的建模精度，让仿真环境更贴近真实的生产场景。

SimuMax 是一款专为大语言模型（LLM）分布式训练负载设计的仿真模拟工具，支持从单卡到万卡集群的仿真需求。它无需实际执行完整的训练流程，就能高精度模拟训练过程中的显存使用情况和性能表现，帮助用户洞察训练效率的短板，找到提升计算效能的优化方向。

平台升级：从精准仿真到智能工作流

SimuMax v1.1 在保留高精度仿真能力的前提下，通过多项功能优化构建了更完整、智能的工作流，具体包括以下几点：

· 智能并行策略搜索：引入策略搜索机制，自动探索并筛选更优的并行化及执行策略，帮助用户降低调参成本，提升训练效率。

· 系统配置生成流水线：新增系统配置文件生成流水线，将计算效率与通信效率的刻画纳入其中，实现更贴合实际的系统级建模。

· 增强的框架兼容性与优化：新增对 Megatron-LM v0.14 版本的支持，重点适配了新版本 Moe Router 的显存优化特性。

· 精细化带宽争用建模：针对专家并行（EP）/ 张量并行（TP）与数据并行（DP）混合场景，优化了节点间网络带宽竞争的模拟方式，提升大规模集群仿真的准确性。

这些功能的优化，能够更好地适配国产GPU 在大模型分布式训练场景下的应用需求。

体验革新：可视化界面，赋能极简操作

SimuMax v1.1 还引入了直观的可视化配置界面。用户通过简单的交互操作，就能快速完成从单卡到万卡集群的训练任务定义，极大简化了工作流程。这一设计让工程师可以更专注于训练策略设计与深层性能优化，进而提升模型研发与调优效率。

快速开始：四步启动高效仿真

开发者只需克隆仓库、安装Python包、运行示例、启动 SimuMax 应用四个步骤，即可快速体验 SimuMax 的功能。

持续优化与生态共建

SimuMax 已在 GitHub 平台全面开源，开发者可访问仓库获取源代码、详细文档和操作示例。摩尔线程鼓励开发者通过提交 Issue 反馈问题，或通过 Pull Request 贡献代码，共同推动 SimuMax 功能的完善和软件生态的发展。

SimuMax GitHub 开源地址：https://github.com/MooreThreads/SimuMax

SimuMax v1.1 版本：https://github.com/MooreThreads/SimuMax/releases/tag/v1.1

国产GPU的发展需要软硬件协同进步，仿真优化工具的持续迭代，能够有效提升国产GPU在大模型训练场景的算力利用效率。摩尔线程始终致力于为开发者提供高效、实用的软件工具链，SimuMax 的发布，为大模型分布式训练提供了从可视化配置、自动化策略推荐到高精度仿真的完整工作流，能够助力相关产业提升算力利用率。

微博 X (Twitter)

搜索资讯

AI 速读 · 核心要点

相关阅读

国产GPU驱动焕新升级，摩尔线程v330.140带来视频超分等多项增强

国产GPU驱动焕新升级，摩尔线程v330.140带来视频超分等多项增强

国产GPU驱动迭代加速，摩尔线程v330.140正式上线

发表观点 取消回复

发表观点取消回复