MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

MiniMax · 2025-06-16 · arXiv:2506.13585 · 开源 reasoning model
关键词: hybrid attention · lightning attention · MoE · CISPO · GRPO · test-time compute · 1M context · long-CoT

速读卡片 (TL;DR)

一句话:把 MiniMax-Text-01 的 hybrid lightning + softmax 架构搬到 reasoning 范式,通过 CISPO(clip IS-weight 而非 token)+ FP32 LM head + 阶梯 length 扩展,在 512 H800 + 三周内炼出一个 native 1M context、80K thinking budget 的开源大 reasoning model;长 CoT 长度的 FLOPs 比 DeepSeek-R1 少 50%(64K)/75%(100K)。

456B / 45.9B
total / activated 参数
1M ↦ 80K
输入 / 输出长度
$534K
RL 全程租用成本(3 周, 512×H800)

立场:不是新算法论文,是体系报告——证明 hybrid lightning + linear-attention 架构可以撑起 frontier 级 long-CoT RL,而且因为 attention 是线性的,test-time scaling 比 softmax 模型经济得多。


1 · 动机:为什么 reasoning 模型必须换 attention

1.1 历史脉络:test-time compute 这条新 scaling 维

2024 年下半年起,LLM 社区出现了两条并行的 scaling 路线:

新路的特征是 response 长度爆炸: 一个 AIME 题的 reasoning trace 从 ~500 tokens 涨到 20,000–100,000 tokens。论文中列的实测:在 RL 训练里 AIME 平均 response 从 12K 涨到 22K 仍未饱和,LiveCodeBench 同样冲到 22K。

Generation length (#tokens) FLOPs (相对) DeepSeek-R1 (softmax, ∝L²) Qwen3-235B MiniMax-M1 (hybrid lightning, ~∝L) 64K 100K M1 ≈ 50% R1 M1 ≈ 25% R1 FLOPs vs Generation Length
核心图(对应论文 Figure 1 右半部分): softmax attention 在 long-CoT 区段是二次,linear/lightning 是线性。100K 时 M1 只用 R1 的 1/4 FLOPs。这条曲线就是整篇论文的"商业模式"——要把 test-time scaling 这条路走远,必须给 attention 换发动机。

1.2 别的方案为什么"够呛"

"减少 long-CoT 计算"这个目标可以从多个角度切:

路径代表问题
更短的 CoT压缩 reasoning chain (LLMLingua 类)直接降低 reasoning 质量,与 test-time scaling 思想相反
Sparse attentionLongformer, NSA, MoBA长 CoT 里"哪些 token 重要"事先未知,sparse pattern 难选
State Space ModelMamba, Hunyuan-T1大规模 reasoning RL 没有 open-source 验证;Hunyuan-T1 闭源细节不公开
Linear attention 纯架构RWKV, Performer, Retnetlong-range recall 比 softmax 弱,RAG/agent 场景吃亏
Hybrid lightning + softmax 👈MiniMax-Text-01 / M1大部分层 O(L), 少数 softmax 层补 recall;已在 base 模型上验证

论文的"立场"很清楚: 已经有一个 1M-context 的 hybrid base (MiniMax-Text-01) 可用,RL 派生 reasoning 版本就是顺势而为。但顺势而为不等于平凡——下一节展开。

1.3 但为什么"hybrid + RL"非平凡?

Inference 时 hybrid lightning 已经被 MiniMax-Text-01 跑通了,但 RL post-training 是另一码事:

论文的核心贡献矩阵其实就是这五道工程坑的对应解。所以读 M1 不要去找一个漂亮的"新算法"——它的价值是把这五条坑的修补方案凑齐,使得 hybrid lightning RL 第一次在开源 reasoning model 上跑通了三周

2 · 背景速查

2.1 关键术语

术语含义
Lightning attentionlinear attention 的 I/O-aware kernel,把 attention 计算从 O(L²d) 降到 O(Ld²),适合长序列
Hybrid attention每 7 个 lightning block 后插 1 个 softmax block(transnormer 配方)
Test-time compute推理阶段花的 FLOPs;增加它(让模型多想)能换更高 accuracy
Long CoT带反思 / 回溯的长链 reasoning,通常 10K–80K tokens
Thinking budgetRL 训练时给模型"想"的 token 上限。M1 有 40K / 80K 两版
CISPOClipped IS-weight Policy Optimization (本文新算法)
GRPOGroup Relative Policy Optimization (DeepSeekMath),无 value model 的 PPO 变体
DAPO字节的 RL 算法,Decoupled Asymmetric clipping
IS weightimportance sampling ratio r = π_θ / π_θold,用于离 policy 梯度修正
SynLogicMiniMax 内部的 logic puzzle 自动生成框架(41 任务)
GenRMgenerative reward model,LLM 当评分器
Zero-RL不做 SFT,直接从 base model 上 RL(R1-Zero 命名法)

2.2 PPO / GRPO 的 token-clipping 复习

JPPO = E[ min( r·Â, clip(r, 1−ε, 1+ε)·Â ) − β·KL(π||π_ref) ]

关键点:这个 min/clip 一旦触发,就把整个 token的梯度置零(乘以0)。当 base model 对某个反思 token 概率极低,θ_new 想把概率从 0.001 抬到 0.05 时 r=50,远超 1+ε(典型 0.2),clip 之后这个 token 不再贡献梯度——RL 永远学不会用这个词。

2.3 GRPO 的 group advantage

Â_i = (R_i − mean(R)) / std(R)

每个 prompt 采 G(e.g. 16)条 response,advantage = 自己的 reward 在组内的 z-score。优点: 不需要 value model;缺点: 当某个 prompt 里所有 response 都对/都错时 std=0, 退化。


3 · Hybrid Lightning Attention 架构

3.1 拼接配方:每 7 个 lightning + 1 个 softmax

M1 单个"super-block": 7 × lightning + 1 × softmax L1 linear L2 L3 L4 L5 L6 L7 S1 softmax (O(L²d)) repeat 7 个 lightning attention 层 (主力, 线性复杂度) QKV → kernel φ → 累加 state → O(Ld²) 补 recall long-range 每 8 层中 7 层是线性 — 长上下文 FLOPs 几乎正比于 L,而非 L²
架构概览。直觉: 大部分位置用 linear attention 维持长 context 的 throughput,只在少数 softmax 层做"全局精修"以保 recall。这种 hybrid 在 1M context 上能省至少一个数量级的 FLOPs,同时不显著掉点。

具体一点:推理 100K context 时,FLOPs 怎么走?

设 d=4096(typical),L=100,000:

展开: lightning attention 的核心公式 (复习)

Linear attention 把 softmax(QKᵀ)V 换成 (φ(Q)φ(K)ᵀ)V,利用结合律改成 φ(Q)·(φ(K)ᵀV)。此时φ(K)ᵀV ∈ ℝ^(d×d) 是一个 state,可逐 token 累加,使整个序列的 attention 变成线性 RNN。Lightning attention 在此基础上做 chunked + I/O 优化,使其在 GPU 上真正快起来(参见 02_MiniMax01)。

y_t = φ(q_t) · ( Σs≤t φ(k_s) ⊗ v_s ) / ( φ(q_t) · Σs≤t φ(k_s) )

3.2 为什么这样设计 (反向论证)

"全 lightning 行不行?" — 不行。早期 linear attention(RWKV、Performer)在 needle-in-haystack 类 long-range recall 任务上明显不如 softmax。Hybrid 把 1/8 的层"还给" softmax 是用 1/8 的 long-range 精度换 7/8 的速度

"为什么是 7:1 而不是 3:1 或 15:1?" — 论文(其实是 base 的 MiniMax-01)的实验结果。比例越高越快但 recall 越差,7:1 是 sweet spot。


4 · CISPO 算法: clip IS-weight, 不要 clip token

4.1 问题: GRPO 在 hybrid 上为什么"扼杀反思"

RL 想让模型学会用 "Wait", "However", "Recheck" 这类反思 token——它们在 reasoning trace 里是"思路 fork"的标志。问题是:

  1. Base model (continual pretraining 后) 对 "Wait" 这种 token 概率往往是 1e-4 数量级
  2. 采样得到的 trajectory 里,新 policy 对 "Wait" 的概率可能升到 0.01,r = 0.01/1e-4 = 100
  3. PPO/GRPO 的 clip(r, 0.8, 1.2) 立刻把这个 token 的梯度置零
  4. 下一轮 off-policy update(论文用 16 轮),这个 token 仍然不学 → 反思能力永远涨不起来

这在 dense + softmax 模型上影响小,但在 hybrid 架构上特别明显——论文给出的解释:hybrid 模型 base 阶段的 token 概率分布更"尖",低概率反思词更稀缺。

4.2 CISPO 的设计:把 clip 从 token 上挪到 IS-weight

PPO/GRPO vs CISPO 在 r=50 反思 token 上的对比 GRPO/PPO 的 clip min(r·Â, clip(r,1−ε,1+ε)·Â) eq r=1.05 grad ✓ to r=0.98 grad ✓ Wait r=50 grad ✗ (clip) r≈1 grad ✓ 反思 token 永远拿不到梯度 → 模型学不会反思 "clip 把整个 token 一刀砍掉" CISPO 的 clip sg(clip(r,_,1+ε)) · Â · ∇ log π eq r̂=1.05 grad ✓ to r̂=0.98 grad ✓ Wait r̂=clip→1.2 grad ✓ (有限) r̂≈1 grad ✓ 反思 token 仍贡献梯度 权重被 clip 但不为 0 "clip 限大小, 不限存在"
关键差别:GRPO 的 clip 是开关(置 0 或保留),CISPO 的 clip 是限幅(把 weight 上限拉回 1+ε,但梯度仍流动)。在反思 token 这种 r 极大的位置上,这一点决定了模型能不能学会 "Wait" / "However" 这类关键转折。

4.3 公式

JCISPO = E[ (1/Σ|o_i|) Σᵢ Σₜ sg(r̂i,t) · Âi,t · log πθ(oi,t) ]
i,t = clip(ri,t, 1−εlowIS, 1+εhighIS)

区别 PPO 公式的三处:

  1. 用 REINFORCE 形式而非 surrogate min/clip: 对 log π 直接求梯度,r̂ 只作系数
  2. 对 r̂ 套 stop-gradient: 防止 clip 边界处的梯度奇异
  3. 论文实践中只设 ε_high,不设 ε_low(把 ε_low 设巨大让它名存实亡): 因为 reasoning RL 的关键是给低概率 token 抬升机会,而不是限制下降

没有 KL penalty,也没有 trust region 约束(与 DAPO 类似)。dynamic sampling 和 length penalty 来自 DAPO。

4.4 worked example: 一个 AIME 题的 RL update

设 prompt = "证明 √2 是无理数",采 G=16 条 response。其中第 7 条在中段出现 token "Wait" 启动反思,最终答对,reward=1。

  1. group reward {R_i}: 大约 9 条对(R=1)、7 条错(R=0)
  2. 第 7 条 advantage Â₇ = (1 − 0.56)/std ≈ +0.88
  3. "Wait" token 上 base π_θold("Wait")=0.0008, π_θ_new("Wait")=0.04, 故 r=50
  4. GRPO: clip(50, 0.8, 1.2)=1.2 → 与 r·Â=44 取 min → 取 1.2·Â=1.06,但因 Â>0 且 r>1+ε,trust-region 触发,梯度=0(GRPO 实际行为)
  5. CISPO: r̂ = clip(50, _, 1.2) = 1.2,sg 后乘 Â=0.88,贡献到 ∇ log π → "Wait" 概率被推高

4.5 实测数据

论文 Figure 2 的 Qwen2.5-32B-base 控制实验:

步数到达 50% AIME最终 AIME (4000 step)
GRPO~3500~50%
DAPO~2500~57%
CISPO~1250 (50% of DAPO)~62%

"用 50% 步数追平 DAPO" — 这就是 abstract 里的 "2× speedup"。


5 · RL 工程坑及解

5.1 训练 / 推理 kernel 精度漂移 (FP32 LM head)

Before fix: corr ≈ 0.987 inference prob training prob After fix (FP32 LM head): corr ≈ 0.997 inference prob FP32
训练 / 推理两套 kernel 对同一 token 的概率应该完全一致 (y=x),但在 hybrid 架构上 LM head 出现高幅激活,FP16 溢出导致点云"散开"。把 LM head 升 FP32 之后,corr 从 0.987 升到 0.997——就这一步让 reward 在 RL 训练里能涨。

worked example: 假设某 token logit 在 LM head 输出 [4.2, 28.3, 5.1, ...]。FP16 的 max ≈ 65504,28.3 还在范围内但 softmax(exp(28.3))=2 × 10¹² 已超 FP16,导致 inference kernel 中数值溢出,training kernel(混精度通常对 logits 转 FP32)却没溢出 → 同一 token 两份概率分别是 0.94 和 0.78,r = 0.78/0.94 = 0.83 不再是 1.0,IS 修正彻底失效。

5.2 AdamW 参数

参数VeRL 默认M1 用原因
β₁0.90.9不变
β₂0.9990.95相邻 iter 的 gradient 弱相关,长 EMA 反而有害
eps1e-81e-15梯度量级 1e-18 ~ 1e-5,默认 eps 直接吞掉所有小梯度

5.3 重复检测早停

简单 string match 抓不住"换词重复"。论文用 token 概率作为信号:连续 3000 个 token 都 prob > 0.99 → 立刻截断。直觉: 一旦掉进 repetition mode,模型对每个新 token 都极其确定(因为它在抄前面的)。这条规则同时保护稳定性和省 generation cost。


6 · 阶梯 length 扩展: 40K → 80K 的工程

Stage-wise window expansion: 40K → 48K → 56K → 64K → 72K → 80K 40K 48K 56K 64K 72K 80K 每段切换的触发条件: ① perplexity 在当前长度收敛 ② 99-percentile 输出长度 ≈ 当前 window 观测: 后段 sequence "garbled" → 负样本顶到 window cap → 尾部负 gradient 失衡 解: 早停 + sample-level loss + 调低 grad clip 与 ε_high
不能直接从 40K 跳到 80K—— 模型在 window 切换的尾段出现 pattern collapse。论文用六段阶梯,每段等 perplexity 稳定后再放宽。这条 recipe 与 base model 的 long-context 扩展逻辑同构,只是从 next-token loss 换成了 RL reward 信号。

6.1 为什么扩到 80K 比扩到 1M 难

RL 阶段每条 trajectory 都要"想完",window 上限决定了:(a)单条 rollout latency, (b) negative sample 在 window 边界的累积。Long-context base 训练只对 cross-entropy 负责,RL 还要对 reward + advantage 累积负责,而后者对长尾分布更敏感。这就是为什么 base 1M 已经没问题、但 RL 把 thinking budget 从 40K 推到 80K 还要小心翼翼。

6.2 Worked example: 一条会崩溃的 trajectory

  1. Window=72K,prompt 是一个难数学题
  2. Trace 写到 65K 还没解出来 → reward 几乎肯定 0(负 advantage)
  3. token-level loss 把 65K 个 token 的负 gradient 平均累积
  4. 而 positive trajectory 通常 25K 就结束了 — 短得多,梯度量级远小
  5. Net effect: 模型尾部 25K–72K 段被超量负向更新,生成质量塌陷,出现 garbled 文本

三条解药:重复检测早停切掉胡乱长样本;sample-level normalization 让短/长 traj 权重对等;调小 grad clip 和 ε_high 进一步稳定。


7 · 数据 & curriculum: verifiable + non-verifiable 混合

类别规模奖励
数学竞赛~50K (pass@10 ∈ (0, 0.9))rule-based 答案匹配
逻辑(SynLogic 41 任务)~53K规则验证
竞争编程30Ktest case 通过率
软件工程 (SWE-like)"几千"高质容器沙箱执行,pass/fail
STEM/factual (含模糊答案)~25K(混合)GenRM 五级评分
开放域(写作 / instr-follow)同上pairwise reference 比较 ±1/0/-1

7.1 Curriculum: verifiable 先,general 后

启动阶段只喂可验证任务 → 模型学会"严格 step-by-step"。中段开始混入 general → 学会"在不可验证场景里自适应"。这与 R1 的两阶段 RL 思路一致,但 M1 把这种过渡做得更平滑(动态加权)。

7.2 GenRM 长度偏好的在线监控

非可验证任务的最大坑:GenRM 喜欢长答案 → policy 学到的不是"想得好"而是"写得多"。论文:


8 · 关键 benchmark 结果解读

类别 / BenchmarkM1-80kDeepSeek-R1-0528Qwen3-235BOpenAI o3解读
AIME 202486.091.485.791.6纯数学略输 R1-0528
LiveCodeBench65.073.165.975.8普通编程同 Qwen3
SWE-bench Verified56.057.634.469.1开源仅次 R1-0528,远超 Qwen3
TAU-bench airline62.053.534.752.0超越 o3、Gemini-2.5 Pro
OpenAI-MRCR (128K)73.451.527.756.5超越 o3、Claude 4 Opus
OpenAI-MRCR (1M)56.2开源唯一能跑 1M 的
LongBench-v261.552.150.158.8长上下文综合最强开源
读法提示:M1 的"故事"不是"刷新 AIME",而是 real-world long-context + agentic 三个维度上反超闭源 o3/Claude4。SWE-bench、TAU-bench、MRCR 才是它的主战场——这三个都是需要 1M context + 长 reasoning才能赢的场景。

8.1 RL Scaling 曲线

论文 Figure 4 给出 4000 step 的训练轨迹:

"response 长度和 accuracy 强相关"是论文最强的实证: 模型自己学会了"想得长 = 想得对",而 RL 只提供了 reward,没要求长度。这是 test-time compute scaling 思想在 RL 训练里的直接证据。

8.2 80K vs 40K

同一 base + 同一 RL recipe,只是 thinking budget 翻倍:

边际收益不大但稳定,且每一项都是难任务上更明显。换言之:thinking budget 加倍,M1 把它实实在在地用了出来——这是 lightning attention 的"商业模式"在 ROI 层面成立的最终证明。


9 · 与同类 reasoning model 对比

模型架构RL 算法Max OutputMax Input开源?
OpenAI o1 / o3未知 (估 dense softmax)未知100K200K
Claude 4 Opus未知未知32K200K
Gemini 2.5 Pro未知 (有 1M 入口)未知64K1M
DeepSeek-R1 / R1-0528MoE + softmaxGRPO64K128K
Qwen3-235B-A22BMoE + softmax未公开细节32K128K
QwQ-32Bdense + softmax类 GRPO32K32K
Hunyuan-T1Mamba (SSM)未公开~~
MiniMax-M1-80kHybrid lightning + softmax MoECISPO80K1M
GPT-OSS 20B / 120BMoE softmax未公开~32K128K
M1 在这张表里独占两栏:"linear-attention 类的 reasoning model" + "context 上限 = 1M"。前者意味着 long-CoT FLOPs 优势,后者意味着 agentic / RAG 场景几乎无 ceiling。代价是数学/编程纯比拼上输 R1-0528——但这是 cherry-pick 比较,M1 的赛道是另一条。

9.1 与 R1-0528 的"角色对调"

R1-0528 走"短(32K input/64K output)+ 深"路线: 数学 / 编程极强,适合做 reasoning 引擎核。M1 走"长(1M/80K)+ 广"路线: 适合做 agent backbone(长记忆 + 工具调用)。这两类其实不是替代,是分工。

9.2 与 GPT-OSS / QwQ 的差异

GPT-OSS 和 QwQ 是"小一两个数量级"的 reasoning model(20B–32B 级别),适合 single-GPU。M1 是 frontier scale (456B total)——开源 reasoning 模型里目前的"上限"。架构上 M1 是唯一同时押注 hybrid linear + 大规模 RL 的开源工作。


10 · 局限 / 个人 take / 待验证问题

论文承认的局限

我的疑问

  1. CISPO 对 reasoning RL 的 advantage 在 dense softmax 模型上是否同样大? 论文只在 Qwen2.5-32B 上验证了一次。如果 dense 也有 2× speedup,那 CISPO 可能就是新的 RL 默认。
  2. "Wait/However 等反思 token r 极大,被 clip 砍掉" — 这一现象的本质,究竟是 hybrid 架构特有,还是 base model 训练分布的副作用? 如果是后者,SFT 阶段加点反思样本可能就化解了。
  3. 1M context 的 RL 训练实测效率论文未给。80K thinking budget 已经做到了,但 1M context 的 RL rollout 是否真的可承受? 抑或 1M 只是 inference 的能力,RL 训练只到 80K?
  4. M1 的 lightning attention 在 RL rollout 中的内存优势如何量化? 论文主打 FLOPs 优势,但内存 (KV cache) 才是大模型 inference 的真正瓶颈。线性注意力的 state 是 d×d,与 L 无关,这在 80K trace 下应该是巨大的内存优势,但论文没强调。
  5. SWE-bench 的 sandbox RL pipeline 实现细节论文偏少,但这部分是真正难复现的。开源时这部分代码会一起放吗?
  6. $534K 的 RL 成本是否包括 base 的 continual pretraining (7.5T tokens)? 如果不算,总成本可能数倍于此,真实 ROI 需重新算。

记忆点

立场 Hybrid lightning + RL 把 test-time scaling 这条路的 FLOPs 经济性兑现了一次
公式 CISPO: sg(clip(r, _, 1+ε)) · Â · ∇ log π — clip 限幅, 不杀 token
数字 1M input / 80K output / 456B 总参 / 45.9B 活跃 / 25% R1 FLOPs @100K
陷阱 Hybrid 模型 LM head 必须 FP32, 否则 train/infer corr 0.987 → reward 不涨
扩展 阶梯 length 40K→48K→…→80K, 切换看 PPL 收敛 + 99-percentile
主场 SWE-bench / TAU-bench / MRCR — 长 context + agentic 才是 M1 的赛道

精读笔记 · 配套论文 PDF: /data/szhang967/papers/paper-notes/MiniMaxM1_2506.13585.pdf
See also: 02_MiniMax01_2501.08313.html (base 架构 / lightning attention 推导)