MiniMax今日正式发布新一代旗舰大模型MiniMax M3,核心亮点在于全自研的**MSA(MiniMax Sparse Attention)稀疏注意力架构**。该架构替换了前代M2所依赖的全注意力机制,使得M3可原生支持**100万token**的超长上下文窗口,同时大幅降低计算开销——官方数据显示,预填充阶段加速约**9.4倍**,解码阶段加速超过**15倍**。这一效率跃升意味着,面对海量文本或长时间Agent任务时,模型响应延迟与算力消耗将显著收窄。

在第三方基准测试中,M3的工程化能力得到印证。专注真实软件工程的**SWE-Bench Pro**榜单上,M3以微弱优势领先GPT-5.5与Gemini 3.1 Pro,并与当前领跑的Claude Opus 4.7差距很小。多模态端同样可圈可点:文档理解评测**OmniDocBench**中,M3得分超过Gemini 3.1 Pro;而在面向自主Agent的端到端评测**Claw-Eval**中,M3展现出直接操作电脑桌面的能力,标志着模型从文本理解向具身交互迈进。值得注意的是,MiniMax还宣称通过**12小时无人干预**的自动流程训练出四个差异化版本,暗示其训练管线的高度自动化。

MiniMax是国内最早一批聚焦通用大模型的创业团队,此前以M2为基础构建了面向开发者的模型即服务(MaaS)平台,但彼时全注意力的计算瓶颈限制了长上下文场景的商用化。此次转向稀疏注意力,本质是把计算资源集中到与当前任务最相关的token上,而非对所有上下文平均用力。这不仅让推理成本结构发生质变,也使得在单卡上运行百万级上下文成为可能,为边缘部署和私域部署打开了空间。

从AI产业“五层蛋糕”的视角看,M3直接居于模型层,但其价值释放高度依赖基础设施层的CUDA内核优化——官方披露的内核加速倍数即是一例印证。更宽泛的意义在于,它为应用层按下加速键:当代码助手可以毫秒级理解整个代码仓库,当桌面Agent能连续完成复杂工作流而不因长上下文而降速,模型能力转化为生产力的节奏会明显加快。对投资者而言,这是继更大参数量军备竞赛后,又一条可行的效率提升路径;若稀疏注意力被更多模型厂商采纳,推理芯片、中间件以及开发者工具链的需求图谱都将被改写,拥有高效内核优化能力的团队将获得更强的差异化。