国内首个Frontier三件套大模型开源了——MiniMax M3到底藏了什么秘密

Published on: 2026-06-07

摘要: 2026年6月1日,MiniMax发布新一代旗舰大模型M3——国内首个同时具备前沿Coding & Agentic能力、百万token超长上下文、原生多模态三大Frontier能力的开源模型。它舍弃了上一代的MoE架构,转而采用自研MSA稀疏注意力机制,在SWE-Bench Pro上超越GPT-5.5,逼近Claude Opus 4.7。这不仅是一次模型迭代,更标志着国产大模型从"单点追赶"正式迈入"系统竞争"的新阶段。

一、三件套:不是堆料,是重新定义"Frontier"

大模型的竞争,早已过了"参数多就是王"的蛮荒时代。2026年,真正拉开差距的是三个词:编程能力、超长上下文、原生多模态

这三项能力,海外只有Claude Opus 4.7和GPT-5等极少数闭源模型同时具备。开源阵营?一个都没有——直到MiniMax M3出现。

M3的"三件套"不是简单拼凑:

  • 前沿Coding & Agentic能力:SWE-Bench Pro 59.0%,超越GPT-5.5和Gemini 3.1 Pro,与Opus 4.7差距仅3%。在Claw-Eval端到端Agent评测中拿下最高分,能自主拆解任务、调用工具、多步推理,写出的代码目标是"直接可交付"而非"能跑但需要人改"。
  • 1M(100万)token超长上下文:API最高支持1,048,576 token,稳定可用512K+。你可以把整个项目的源码+文档+几百个文件一次性丢给它,它不会"忘了前面说过什么"。
  • 原生多模态:从训练的第零步就是文本+图片+视频混合训练,不是"文本模型外挂图像编码器"的缝合怪。支持图片和视频输入,甚至能直接操作电脑桌面,执行跨应用、跨文件、跨系统的复杂任务。

MiniMax M3三大Frontier能力示意图:编程Agent、1M上下文、原生多模态

国产大模型第一次不是"某个维度接近",而是在三个核心维度同时站上了国际第一梯队的起跑线。

二、MSA架构:舍弃MoE,另辟蹊径

M3最让人意外的,不是它做了什么,而是它没做什么

上一代M2.5用的是MoE(混合专家)架构——这是当前主流开源模型的标配,DeepSeek、Qwen、Mixtral都在用。M3却完全舍弃了MoE,转而采用自研的MSA(MiniMax Sparse Attention)稀疏注意力架构

这是一个大胆的决定。为什么?

MoE的本质问题:MoE通过"稀疏激活"降低计算量,但它解决的是"参数多但每次只用一部分"的问题,并没有解决注意力机制本身的O(n²)复杂度瓶颈。上下文一长,计算量仍然指数级爆炸。

MSA的解题思路:直接在注意力层面做稀疏化。传统全注意力机制要求每个token与之前所有token计算相似度,序列越长越慢越贵。MSA通过KV块选择取代全注意力,只关注重要的token块,跳过无关信息。

具体来说,MSA采用"KV块为外层、聚合命中query"的KV outer gather设计,比DSA、MoBA等方案更精确地为KV分块,实现更高的有效上下文覆盖。在算子层直接优化,访存速度比Flash-sparse-attention快4倍。

MSA稀疏注意力架构与传统全注意力机制对比示意图

效果有多猛?MiniMax官方数据显示:

指标 提升幅度
1M上下文下单token计算量 降至上代M2.5的1/20
预填充(Prefill)速度 提升9.7倍
解码(Decode)速度 提升15.6倍

这意味着什么?在1M上下文下,M3的推理成本不再是一个"天文数字",而是一个工程上可用的数字。百万级上下文从"实验室玩具"变成了"生产环境工具"。

MoE是"省参数但不省注意力",MSA是"直接省注意力本身"。这是一次底层范式的切换,不是修修补补。

文章配图

三、开源策略:不只是"开源",是"开完整"

开源大模型这件事,说起来容易做起来难。很多厂商的"开源"更像是一种营销——开源一个残血版基础模型,真正的能力锁在API后面。

M3的策略不同。MiniMax明确表示计划在发布后10天内开源权重,而且是完整的三件套能力:编程、长上下文、多模态,一个不少。

这一点非常关键。此前开源生态的选择是分裂的:

  • 想要强编程能力?等DeepSeek-Coder,但没有原生多模态。
  • 想要长上下文?某些模型支持128K甚至256K,但1M从未有过。
  • 想要多模态?LLaVA、Qwen-VL有,但编程能力偏弱。

M3是第一个把这三项能力完整打包进开源方案的模型。对于开发者社区来说,这意味着不再需要"拼积木"——一个模型就能覆盖代码生成、长文档处理、多模态理解、Agent自动化等主流场景。

更值得注意的是M3的工程适配性:完美兼容Claude Code和各类AI Agent框架,支持OpenAI兼容协议,接入改造成本极低。在Hopper优化FP8算子任务中,M3在24小时内自主调用工具1959次,将硬件利用率从7.6%提升至71.3%,加速9.4倍——这已经不只是"能用"的程度了。

四、行业影响:从"单点追赶"到"系统竞争"

M3的发布,放在国产大模型的发展脉络里看,意义远超一个产品迭代。

2024年,国产大模型的核心叙事是"追GPT-4"——某一个维度接近就算胜利。那时候是"单点追赶"。

2025年,叙事变成了"某些维度超越"——DeepSeek在代码上追平,Qwen在长上下文上突破。但始终没有一个模型能在多个核心维度同时站上第一梯队。

2026年,M3的出现标志着"系统竞争"的开始——不再是某个单项接近国际顶尖,而是三项核心能力同时达到Frontier级别,并且以开源方式提供给社区。

这种转变的影响是深远的:

  1. 开发者生态的重心可能转移:当开源模型能提供闭源模型90%的能力组合,且成本更低、数据更可控,越来越多团队会选择开源路线。
  2. 本地部署不再是"能用就行":M3的能力组合让本地部署真正具备生产力价值,而不是只能做简单的文本问答。
  3. Agent应用的门槛进一步降低:编程+长上下文+多模态,恰好是Agent自动化最需要的三个能力。M3的开源意味着更多团队可以低成本搭建高能力的Agent系统。

当国产开源模型开始提供"完整能力组合"而非"单项突出",竞争维度已经变了。

五、铠盒AIBOX-A1:让M3的能力从云端落地到桌面

M3的开源权重发布后,一个问题自然浮现:这么强的模型,普通人怎么用?

云端API当然是一条路,但对于很多场景——企业内网数据隔离、个人隐私保护、长期7×24小时运行的Agent任务——本地部署才是刚需。

这正是铠盒AIBOX-A1的价值所在。作为一款智能体计算机,铠盒AIBOX-A1的定位不是"跑大模型推理的算力怪兽",而是"让AI 7×24小时替你干活"的常驻设备:

  • ARM架构,6 TOPS算力:不追求跑满参数的大模型推理,而是专注于轻量级模型和Agent调度
  • 7×24小时运行:低功耗设计让它可以全年不间断运行,跑定时任务、监控数据、自动化工作流
  • 微信扫码即用:不需要配置开发环境,不需要懂Docker,开机扫码就能开始用
  • 物理隔离:数据不出设备,企业合规、个人隐私都不用担心

想象一个场景:M3的Agent能力通过API远程调用,铠盒AIBOX-A1作为本地的"指挥中心"7×24小时运行——定时从企业内网抓取数据、调用M3做代码审查和文档生成、把结果推送到微信。云端的大脑+本地的手脚,这才是AI Agent真正落地的形态。


铠盒智能 | 让AI 7×24小时替你干活的智能体计算机 · AI前沿

© KAIHE AI - Agent Computer Specialist