INTELLECT-2: A Reasoning Model Trained Through Globally Decentralized Reinforcement Learning

Prime Intellect Team · Sami Jaghouar et al. · 2025-05-12 · arXiv:2505.07291
关键词: decentralized RL · GRPO · permissionless compute · async RL · TOPLOC · SHARDCAST · QwQ-32B · reasoning
姊妹篇: INTELLECT-1 精读 (DiLoCo decentralized pretraining)

速读卡片 (TL;DR)

一句话:把 32B reasoning 模型 (QwQ-32B 起步) 的 RL post-training 拆到全球 permissionless GPU swarm 上跑——靠 PRIME-RL 解耦 train/inference, SHARDCAST 像 CDN 一样分发 weights, TOPLOC 用 hidden-state hash 在不可信节点上验证 rollout 真实性,async two-step policy lag 把所有通信藏到计算后面。

32B
QwQ-32B 上做 GRPO
2-step
policy lag (≤4 也 OK)
~1%
TOPLOC 证明开销

立场:这是 INTELLECT-1 (decentralized pretraining via DiLoCo) 的 RL 续作。结论一句话: RL 比 pretraining 更适合 decentralized——因为 inference (大头) 天然 embarrassingly parallel,通信只剩一次 weight broadcast 而它能被 async 完全藏掉。


1 · 动机:从 INTELLECT-1 走到 INTELLECT-2 的鸿沟

1.1 历史脉络: 为什么 RL 比 pretraining 更适合 decentralized

INTELLECT-1 (2024-12) 已经证明: 用 DiLoCo + int8 ring all-reduce + ElasticDeviceMesh,可以把 10B-pretraining 在 5 大洲的 GPU 集群上跑到 ~83% 利用率。但即便如此,pretraining 在 decentralized setting 下仍然勉为其难:

RL post-training 与之截然不同:

论文里给出的核心洞察:communication 在 RL 里只剩一件事——把更新后的 policy 推给 inference worker。而这件事可以用 async 完全藏到 inference 计算时间后面。所以 RL = "decentralized 友好"。

INTELLECT-1: Decentralized Pretraining Outer DiLoCo step node 1 node 2 node 3 node 4 每 N 步: 全员 all-reduce (int8) 所有节点同质 / 同步阻塞 INTELLECT-2: Decentralized RL 三角分工 (异质 / 异步) trainer (8×H100) 3090×4 A6000×8 H100×2 MI300X async broadcast → 没有阻塞通信
左: INTELLECT-1 的 pretraining 拓扑——所有节点对等 + 周期性同步 all-reduce。右: INTELLECT-2 的 RL 拓扑——少量可信 trainer + 大量异质 inference worker,通信只有单向 broadcast。

1.2 别的方案为什么不够

"用现成的 RL 框架 + DDP 不行吗?"

方案问题
verl / TRL / OpenRLHFtrain/infer 在同一进程顺序切换,GPU 一会儿当 trainer 一会儿当 vLLM,需要 collocate;无法支持异质硬件
Ray-based async (NeMo-RL, AReaL)需要中心化 orchestrator 维持长连接;一个 inference worker 掉线整个 cluster 卡住
FedAvg / federated关注 privacy,而不是 throughput;每个 worker 自己训自己的,周期性 average——RL 训练分布会漂移
LlamaRL / PipelineRL (async RLHF)解决 async 但假设节点都可信——permissionless 下没有任何作弊检测
"自己 fork verl 改改"verl 把 forward / loss / sampling 紧耦合,decoupling 工作量 ≈ 重写

所以 PRIME-RL 不是"又一个 RL 框架",而是第一次把 trustless 这个维度纳入设计目标的框架。

1.3 为什么这事不平凡: 三个新瓶颈

把 RL 搬到 permissionless swarm 上,有三个 INTELLECT-1 时代不存在的难题:

(a) Trust model 大变。Pretraining 时如果某节点提交错误梯度,DiLoCo outer step 的 averaging 会稀释影响,且最坏情况下 reward (loss) 自己会暴露异常。但 RL 里,一个恶意 inference worker 完全可以:

这些都不会被 reward function (binary 0/1) 直接捕捉,但会污染训练分布。

(b) Async 在 RL 里有质变。Pretraining 的 DiLoCo 是"梯度 stale",RL 的 async 是"policy stale"。后者直接改变了 sampling 分布——rollout 用的是 πθ_{t-2},更新算的是 πθ_t 与 πθ_{t-2} 的 importance ratio。如果 lag 太大,ratio 会爆炸 → GRPO 的 clip 频繁触发 → 学习信号被截掉。

(c) Weight broadcast 在 RL 里成了新瓶颈。32B bf16 = 62 GB。要发给几十个全球 inference worker,如果用 naive 单点 server,带宽根本不够。论文实测一次 broadcast 平均 14 分钟 = 590 Mb/s——这已经是优化后的数据。

记忆点:INTELLECT-1 的核心难题是"梯度通信"。INTELLECT-2 的核心难题转移成"验证 + 广播"——RL 没有梯度跨节点同步问题,但多了"如何信任 rollout"和"如何快速分发 policy"两道大坎。

2 · 背景速查

2.1 术语

术语含义
Permissionless任何人无需许可即可加入贡献算力(类似 crypto mining pool)
PRIME-RL本文新写的 RL 框架,把 training / inference / verification 拆成独立可执行进程
TOPLOClocality-sensitive hashing 方案,验证 inference 是不是真用了规定的 weights 跑的
SHARDCASTtree-topology HTTP 文件分发系统,类 CDN,用来广播 checkpoint shard
GRPODeepSeekMath 的 group-relative PPO 变体,无 value model
Two-step asyncrollout 用的是 t-2 步的 policy(centralized async 通常是 t-1)
QwQ-32B阿里 Qwen 团队的 reasoning 模型,本文 base model
Slashing(借自 PoS 区块链) 检测到作弊后罚没该 worker 的奖励 / 把它踢出 pool
Genesys schemaSYNTHETIC-1 提出的 verifier 接口,让 reward function 可插拔

2.2 系统全貌 (Figure 1 抽象)

GRPO Trainer trusted, FSDP2, H100×N SHARDCAST relay SHARDCAST relay SHARDCAST relay TOPLOC validator 62 GB checkpoint shards 3090×4 consumer A6000×8 H100×2 A100×8 MI300X×8 datacenter rollout + TOPLOC proof verified parquet 三种角色 / 三条数据流: ① trainer→relays→infer (weights) ② infer→validator (rollouts+proofs) ③ validator→trainer (verified data)
系统三角: 中心化可信 trainer (蓝)+ 中间层 SHARDCAST relay 与 TOPLOC validator (黄)+ 不可信异质 inference workers (灰)。注意只有三条数据通道,worker 之间互不通信。

3 · PRIME-RL: 把 train / infer / verify 三相分离

PRIME-RL 与 verl/TRL/OpenRLHF 的根本区别:它把 trainer 和 inference worker 写成两个独立的可执行文件,彼此只通过 Parquet 文件 + HTTP step counter 通信。这一点对应 INTELLECT-1 里 ElasticDeviceMesh 的"动态 join/leave"诉求。

3.1 训练侧

3.2 推理侧

3.3 一个完整的 RL step 走一遍 (worked example)

假设训练已跑到 step 100,trainer 刚 broadcast 了 weights_100。一个"3090×4"消费级 worker 加入:

  1. 0:00 Worker 启动,联系 discovery service,被 orchestrator 邀请加入 pool
  2. 0:30 Worker 从 SHARDCAST relay 下载 weights_100 的 shards,SHA-256 校验通过 → 装载到 vLLM
  3. 0:31 Worker GET /step_counter,得到 "step 102 还差 800 个 rollout";seed = hash(addr) · 102 + 0 = 12345
  4. 0:31 Worker 用 seed=12345 从 285K 题库里采样 16 道 (一个 GRPO group),开始生成
  5. ~5:00 16 条 trajectories(平均 4-8K tokens)生成完毕,期间每 32 token 增量 hash 一次 hidden state
  6. 5:01 Worker 计算 reward(数学: SymPy 比对答案;coding: 跑单元测试)
  7. 5:02 把 (prompts, responses, rewards, advantages, TOPLOC proofs) 打包成 Parquet,signed-URL 上传到 step_102 文件夹
  8. 5:03 触发链上事件,TOPLOC validator 看到新文件,启动验证 (~1 min)
  9. 6:00 验证通过,parquet 添加 accepted=True flag,trainer 的 dataloader 能读到
  10. ~22:00 step 102 收齐 4096 个有效样本,trainer 跑 8 个 GRPO optimizer steps
  11. ~36:00 新 weights_102 写入 SHARDCAST,broadcast 14 min(下一步并行做)
关键观察:"22 分钟一步"中,broadcast (14 min) 完全藏在 inference + verification (22 min) 后面。这就是 async two-step 的物理意义—— inference worker 已经在用 weights_100 跑 step 102 的 rollout,trainer 同时在做 step 100 → 102 的更新,没人等谁。

4 · TOPLOC: 在不信任节点上验证 rollout

这是论文最有"技术新意"的部分。问题: 怎么在不可信 worker 上验证它真的用规定的 weights 跑了 inference?

4.1 设计目标的紧约束

朴素思路:让 validator 重跑一遍 inference 比对 token by token。不行,因为:

TOPLOC 的两个核心 trick:

  1. 验证用 prefill 而不是 decode: 给定 prompt + 完整 response,validator 一次性 forward (parallel),只要算一遍而不是逐 token 自回归 → 可以做到 ~100× 比 decode 快
  2. 对比的不是完整 hidden states,而是 top-k indices + polynomial commitment: 鲁棒处理 GPU 非确定性引起的微小数值差异

4.2 TOPLOC proof 的工作流

Inference Provider (untrusted) decode token t (autoregressive) final hidden state h_t ∈ ℝ⁵¹²⁰ 每 32 tokens 一次: top-k indices + values 提取 exponent + mantissa FP16 → e[5] m[10] Polynomial commit (i_j, p_j) → proof Validator (trusted) prefill (prompt + full response) 一次 parallel forward, 不 autoregressive recompute h_t' (validator 自己的) 用 prover 的 i_j 索引取出 h_t'[i_j] decode polynomial → 与 prover values 对比 指数位匹配? mantissa 差距 < ε? 分别累计 exponent / mantissa 错误数 阈值内 ✓ reward 超阈值 ✗ slash proof
左: inference worker 在 decode 时,每 32 token 取一次 final hidden state 的 top-k 维度,做多项式编码 → 形成 commitment。右: validator 用 prefill 重算 hidden state,在 prover 给定的索引位置上对比 exponent 与 mantissa,允许在阈值内的偏差 → 解决 GPU 非确定性。论文报告 validator 比生成快约 100×。

4.3 三类 check 一图汇总

类别具体 check防的攻击
ComputationTOPLOC hidden-state hash (核心)用更小模型代跑,只 prefill 大模型骗证明
Top-k polynomial commitmentquantized / malicious 模型变种
SamplingEOS token 概率 > 0.1恶意提前 EOS 截断省钱
logit 分布形状(应类指数,不应双峰)小模型 sample + 大模型 prefill 的 hybrid 攻击
Sanityseed = addr · step + sub_id 决定 promptcherry-pick 简单题
reward / advantage 在合理 bound 内提交超大数值搞坏训练
Parquet schema check提交格式错误的文件让 dataloader 崩溃

4.4 一个具体的攻击场景及如何被检出

攻击: 一个 worker 想省钱——用 0.5B 小模型生成 token,但仍然报告自己用了 32B QwQ。它在 submit 之前用 32B 跑一次 prefill 得到看起来"对"的 hidden states。

检测: TOPLOC 的 sampling check 会注意到 token 概率分布。正常 32B sampling 后,该 token 在它自己的 distribution 上概率应当较高(typical mode 接近 1)。但用 0.5B sample 出的 token,在 32B 重算的 distribution 上,会有相当一部分落在 low-probability 区域 → distribution 出现 bimodal (一峰在 1,另一峰在 0)。validator 通过分析 prefill 时取得的 selected-token probability 直方图,发现双峰即拒绝。

反向论证: 如果 TOPLOC 不验证 sampling 形状,只验 hidden state hash 是否对得上呢?那么这个 hybrid 攻击就过得了—— prefill 是真用 32B 跑的,hidden states 自然对。所以 sampling check 不是冗余,而是"证 worker 真的用 32B 来 sample"的最后一道防线。


5 · SHARDCAST: tree-CDN 式权重广播

32B bf16 = 62 GB。要在 ~14 分钟内推给几十个全球 inference worker。Naive 方案的失败:

SHARDCAST 选了中间路线:3 层 tree CDN — origin (训练侧) → relay (中间层) → client (inference worker),每个 relay 像 nginx CDN 节点。

Trainer (origin) relay 1 relay 2 relay 3 relay 4 relay 5 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 每个 client 用 EMA-估计的 throughput 概率从多个 relay 并行 pull shard,既负载均衡又可同时利用多带宽
SHARDCAST 拓扑: trainer 作为 origin push 给 5 个 relay,每个 relay 像 nginx 一样响应 client 的 GET。Client 不是"选最快 relay",而是按 P ∝ success_rate × bandwidth 概率并行从多个 relay 拉 shard——这样能同时利用多个 TCP 连接的带宽,且自然 load-balance。

5.1 设计要点

5.2 数字 sanity check

论文报告: 平均 14 min broadcast 完毕,total transferred 62 GB → 平均带宽 590 Mb/s。这是平均到所有 client 的 aggregate。每个 worker 单独看:如果有 N=20 个 worker,每个收 62 GB,total egress = 20 × 62 = 1240 GB / 14min = 11.8 Gb/s,分摊到 5 个 relay 每个 ~2.4 Gb/s——在数据中心带宽内。


6 · Async RL 与 two-step policy lag

Pretraining 的 DiLoCo 用的是"梯度延迟",RL 用的是"policy 延迟"。论文的图 6 把三种 RL 拓扑画在了一起:

(a) Sync RL infer step T train T infer T+1 train T+1 同 GPU,顺序切换 on-policy ✓ GPU 利用率低 (b) 1-step async infer cluster T (πθ_T) train T 瞬时 broadcast infer T+1 (πθ_T) ← lag 1 train T+1 两 cluster, 1 step off-policy data-center 内 broadcast 极快 (c) 2-step async ← INTELLECT-2 infer T (πθ_{T-2}) train T SHARDCAST broadcast infer T+1 (πθ_{T-1}) train T+1 broadcast (overlap) infer T+2 (πθ_T) ← weights_T 终于到 global swarm; 2 step off-policy broadcast 14 min 完全 hidden Ablation: 不同 lag 下的 reward 轨迹 (DeepScaler 1.5B,Figure 7) steps 0 → 1200 reward sync lag=1 lag=2 lag=4
三种 RL 拓扑对比 + lag ablation。论文实测 lag=1/2/4 与 sync 几乎重合 (DeepScaler 1.5B/2K context)。物理解释: GRPO 用 importance ratio 校正分布漂移,只要 ratio 不爆炸就 OK——而 lag 4 之内每步 KL(πθ_T || πθ_{T-4}) 仍然小。

6.1 为什么 RL 能容忍 lag 而 pretraining 不行

反向论证: 如果 pretraining 也 lag 2 步会怎样?——梯度直接陈旧,SGD 有用的方向被噪声淹没。RL 的"延迟"在不同位置:它延迟的是 sampling distribution,不是 gradient 本身。GRPO 的 loss 会自动用 importance ratio πθ / πθ_old 重新加权——这一项明确为 off-policy 而生。所以RL 比 pretraining 天然多一道防御 stale data 的机制

6.2 Lag 的实际限制

论文虽然说 lag=4 还能稳定,但有暗示 lag > 4-5 时 importance ratio 会大量超出 clip 区间 → 大批样本被截掉,等效于学习信号丢失。Section 5 (Discussion) 里提到:"lag 4-5 步可以 hide weight broadcast / verification / KL log-prob 计算等所有 blocking stages"——隐含的最优工作点。


7 · Two-Sided GRPO Clipping & 训练稳定性

7.1 原始 GRPO 的不对称问题

原 GRPO 目标:

J = E[ min( r·Â , clip(r, 1−ε, 1+ε)·Â ) ],   r = πθ/πθ_old

当 advantage  > 0(好 rollout):clip 把 r 上限压在 1+ε,防止过度激励。
当 Â < 0(差 rollout):因为外面的 min,clip 在 r 很大时不生效——理由是"鼓励大力远离差 rollout"。

但在 INTELLECT-2 的 32B + async 设定下,r 偶尔会冲到 100+,与负 Â 相乘就是巨大的 loss spike → gradient explosion → 模型崩。原因有二:

7.2 修补: 加上一个上界 δ

J = E[ min( min(r, δ)·Â, clip(r,1−ε,1+ε)·Â ) ],   δ > 1+ε

论文用 ε = 0.2, δ = 4。语义: 仍然鼓励远离差样本,但 r 不能超过 4——避免单个 token 把整个 batch 的 loss 拉飞。

7.3 其他稳定性 patches (实战日记)

问题论文修复
Gradient norm 持续上涨 → 崩溃aggressive clipping (max norm = 0.05–0.1),论文用 0.1
Entropy loss 跌后又涨 → 模型崩前兆没有完美 fix;增大 KL penalty 权重能 delay 但学得慢
QwQ 比 DeepSeek-R1-Distill 更不稳怀疑因 QwQ 已 RL 过一轮 → "已经 RL'ed 的模型再 RL 难"
torch.compile 引发崩溃整个 codebase 关掉 torch.compile
vLLM 报告的 log_prob 数值不稳trainer 端用 policy 自己重算 log_prob

7.4 数据 pipeline 的两道筛子

Offline filtering: 用 base model (R1-Distill-7B) 跑 pass@8。保留 1/8 ≤ pass@8 ≤ 4/8 的题。太简单的题所有 group 全对 → advantage = 0 没信号;太难全错 → 同样无信号。论文 Figure 8 显示:不过滤 → reward 几乎不动;过滤 → reward 显著上升。

Online filtering: 即便过滤过,生成时仍可能某 prompt 全对/全错。继续重新采样 prompt 直到攒够 4096 个非零 advantage 样本再训练一步。"副作用刚好是好事": 这等价于把更多算力推向 inference,正符合 decentralized swarm 的算力分布(infer 多 / train 少)。


8 · 实验关键结果

8.1 系统级数字

TARGET-SHORT 一步的时间分解:broadcast 14 min · 第一个 rollout 文件 10 min 后到达 · TOPLOC 验证 ~1 min · 攒齐 batch 22 min · trainer 跑 8 个 optimizer step 22 min
关键:train 时间(22 min)≈ broadcast + 攒 batch 时间(22 min)→ 几乎完美 overlap,trainer GPU 利用率接近满

8.2 Benchmark

ModelAIME24AIME25LiveCodeBench v5GPQA-DIFEval
INTELLECT-278.864.967.866.881.5
QwQ-32B (base)76.664.866.166.383.4
R1-Distill-32B69.958.455.165.272.0
DeepSeek-R1 (671B)78.665.164.171.682.7

8.3 怎么读这张表

这篇论文的主菜是系统而非模型把它当 "RL infrastructure paper" 读 → 满分。当 "新 SOTA 模型 paper" 读 → 失望。Prime Intellect 自己也在论文里承认这一点。

8.4 Length reward 没收敛

实验目标之一是"用户 prompt 里指定 thinking budget,模型遵守"。结论: 没学会。Length penalty 下降很慢,远不及 1.5B/7B ablation 的速度。论文猜测原因: 32B 模型已有强 prior,length 信号弱,需要更长训练 / 更高 length-reward 权重。


9 · 与同类工作对比

工作定位与 INTELLECT-2 差异
INTELLECT-1decentralized pretraining (DiLoCo + int8 ring all-reduce)对面问题: pretraining 而非 RL;没有 trustless 设计
NeMo-RLNVIDIA 的中心化 RL 栈 + sync/async + spec decoding聚焦单 cluster 加速 (rollout speedup);所有节点可信
OpenRLHFRay-based,中心化train/infer 同进程切换,异质硬件支持差;无验证机制
verl字节开源 RL 框架,本文承认借鉴train/infer 顺序;PRIME-RL 把它解耦成两个 binary
FedAvg / federated RL各 worker 各自训,周期性 average关注 privacy 不是 throughput;各 worker 训练分布漂移
LlamaRL / PipelineRLasync RLHF (Meta)解决 async,但假设 trusted cluster;无 TOPLOC 等价物
Tülu 3Allen 的 1-step async RL post-trainingcentralized;data-center scale;不需要 SHARDCAST
SkyRL-v0long-horizon agent RL聚焦 agent / tool calls,不是 decentralized infra

简单说: INTELLECT-2 是这个矩阵里唯一既"async RL"又"trustless permissionless"的组合。NeMo-RL 比它更快(单 cluster),但不能搬到 swarm 上;Tülu 3 与它最像但仍然 centralized。


10 · 与 INTELLECT-1 的 differential

这一节专门给读过 INTELLECT-1 的人。

组件 / 概念INTELLECT-1 (pretrain)INTELLECT-2 (RL)
核心训练范式DiLoCo (local AdamW 内层 + outer SGD)GRPO + async two-step
跨节点通信每 N=500 inner step 一次 int8 ring all-reduce单向 broadcast (trainer → worker)
通信压缩int8 quantize 梯度 → 80× 减少不压缩 weight,但用 SHARDCAST 多源 + pipelined
动态 join/leaveElasticDeviceMesh (PyTorch backend)HTTP step counter + Parquet 文件交换
容错fault-tolerant ring + checkpoint掉线 worker 自动 deregister + 重 invite
节点同质性需基本同构 (一致 GPU 数 / 类型)异质 (3090 到 MI300X 都能贡献)
Trust model(假定贡献者非恶意)TOPLOC + slashing,permissionless
占主要算力的角色worker = trainer (各自训完整 model)worker = inferer (4.5× train FLOPs)
worker 内存需求必须装得下完整 10B + AdamW state只需装 32B inference (KV+weights),消费级 GPU 够
"卡"的瓶颈跨节点 all-reduce 带宽weight broadcast 时间(已被 async 藏掉)

10.1 哪些抽象层被 carry over 了?

10.2 哪些是真正"新"的?

记忆点:从 INTELLECT-1 到 INTELLECT-2,对 decentralized 这个标签的理解变了——前者强调的是"通信少",后者强调的是"不可信也行"。这是更底层的、对 truly permissionless 的承诺。

11 · 局限 / 个人 take / 待验证问题

论文承认的局限

我的怀疑 + 待验证

  1. TOPLOC 真实抗攻击率?论文没给 "我们捕获了 X% 的恶意 rollout" 这种数字。在 testnet 跑了两周,有真正的恶意攻击者吗?可能还没到那个对抗强度
  2. 2-step async 在 32B 上够稳吗?ablation 用的是 1.5B/2K context。32B 模型的 importance ratio 分布会更胖尾,clip frequency 可能更高,论文没汇报 32B 的 clip ratio 时间序列
  3. 14 min broadcast 是 bottleneck 还是 capacity?如果换 100B+ 模型(310+ GB),broadcast 会增到 70 min。要么 lag 加到 5-7,要么换更激进的压缩(int8 weight → ~80 GB)。论文没讨论 scaling
  4. Cherry-pick 防御靠的 deterministic seed,但 worker 可以"挑节点 ID"。如果 worker 故意申请多个 node address,一直挑出 hash 落在简单题上的那些?论文没说 address 是否绑定 stake / KYC
  5. SHARDCAST relay 是中心化的。如果 5 个 relay 全宕,整个训练停摆。论文承认了 P2P 是 future work
  6. "vLLM log_prob 不稳定" 这个发现—— 是版本问题还是结构性?如果是结构性,所有用 vLLM 做 RL rollout 的工作都要重算 log_prob,这是个不大不小的 implicit overhead
  7. QwQ 比 R1-Distill 难训这个观察 → 是不是说明"二次 RL"会越来越难,reasoning 模型可能存在"RL 资本耗尽"现象?这对未来 reasoning model 持续学习是个隐忧

个人 take

这是一篇系统工程论文,不是模型论文。它的真正贡献不在 +2 AIME24,而在把 RL trustless decentralized 这个概念从 ppt 推到能跑出 32B 的工程现实。三个组件(PRIME-RL, TOPLOC, SHARDCAST)都是完整工程实现,有理由相信它们会成为下一波 decentralized 训练框架的基础设施——尤其当 reasoning 模型规模和 inference compute 进一步扩大的时候。

但同时要清醒: 它的"permissionless"目前仍在 testnet 状态。真正的对抗性测试(有金钱激励的攻击者)还没到。在那之前,TOPLOC 的"incentive-compatible 因为攻击者不知道哪条会被检"的论证只能算合理的,不能算验证过的

记忆点

立场 RL 比 pretraining 更适合 decentralized——通信只剩 broadcast, 且能被 async 完全藏掉
三件套 PRIME-RL (解耦 binary) · TOPLOC (top-k hidden hash 验证) · SHARDCAST (tree CDN 广播)
数字 32B QwQ · 285K 任务 · lag=2 · broadcast 14 min · TOPLOC 100× 比 decode 快
公式 two-sided GRPO: J = min(min(r,δ)·Â, clip(r,1±ε)·Â),δ=4
对比 INTELLECT-1 从"通信少"升级到"不可信也行"
陷阱 QwQ 已 RL 过,提升空间有限;length reward 32B 学不会

精读笔记 v1 · 2026-05-07 · 配套论文 PDF: /data/szhang967/papers/paper-notes/INTELLECT2_2505.07291.pdf · 姊妹篇: INTELLECT-1