MiniMax发布M3模型：稀疏架构实现9.4倍加速，编程基准超越GPT-5.5

MiniMax M3采用稀疏注意力架构，支持百万上下文，预填充加速9倍，解码加速15倍

MiniMax今日正式发布新一代旗舰大模型MiniMax M3，核心亮点在于全自研的**MSA（MiniMax Sparse Attention）稀疏注意力架构**。该架构替换了前代M2所依赖的全注意力机制，使得M3可原生支持**100万token**的超长上下文窗口，同时大幅降低计算开销——官方数据显示，预填充阶段加速约**9.4倍**，解码阶段加速超过**15倍**。这一效率跃升意味着，面对海量文本或长时间Agent任务时，模型响应延迟与算力消耗将显著收窄。

在第三方基准测试中，M3的工程化能力得到印证。专注真实软件工程的**SWE-Bench Pro**榜单上，M3以微弱优势领先GPT-5.5与Gemini 3.1 Pro，并与当前领跑的Claude Opus 4.7差距很小。多模态端同样可圈可点：文档理解评测**OmniDocBench**中，M3得分超过Gemini 3.1 Pro；而在面向自主Agent的端到端评测**Claw-Eval**中，M3展现出直接操作电脑桌面的能力，标志着模型从文本理解向具身交互迈进。值得注意的是，MiniMax还宣称通过**12小时无人干预**的自动流程训练出四个差异化版本，暗示其训练管线的高度自动化。

MiniMax是国内最早一批聚焦通用大模型的创业团队，此前以M2为基础构建了面向开发者的模型即服务（MaaS）平台，但彼时全注意力的计算瓶颈限制了长上下文场景的商用化。此次转向稀疏注意力，本质是把计算资源集中到与当前任务最相关的token上，而非对所有上下文平均用力。这不仅让推理成本结构发生质变，也使得在单卡上运行百万级上下文成为可能，为边缘部署和私域部署打开了空间。

从AI产业“五层蛋糕”的视角看，M3直接居于模型层，但其价值释放高度依赖基础设施层的CUDA内核优化——官方披露的内核加速倍数即是一例印证。更宽泛的意义在于，它为应用层按下加速键：当代码助手可以毫秒级理解整个代码仓库，当桌面Agent能连续完成复杂工作流而不因长上下文而降速，模型能力转化为生产力的节奏会明显加快。对投资者而言，这是继更大参数量军备竞赛后，又一条可行的效率提升路径；若稀疏注意力被更多模型厂商采纳，推理芯片、中间件以及开发者工具链的需求图谱都将被改写，拥有高效内核优化能力的团队将获得更强的差异化。

MiniMax发布M3模型：稀疏架构实现9.4倍加速，编程基准超越GPT-5.5

延伸阅读

相关每日新闻