RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System

Yinjie Wang, Tianbao Xie, Ke Shen, Mengdi Wang, Ling Yang (Princeton / HKU) · 2026-02-02 · arXiv:2602.02488 · ICML 2026 · Code: Gen-Verse/Open-AgentRL
Keywords: agentic RL, generative reward model, process reward, environment adaptation, curriculum, GRPO, OSWorld, AlfWorld

TL;DR

主流 agentic RL 框架 (veRL / AReaL / slime / AgentGym-RL) 把 environment 和 reward model 当成静态外设,只迭代 policy。RLAnything 把三者拧成一个 闭环联合优化系统:policy 用 step+outcome 整合奖励训练;reward model 用 consistency feedback (step 标签 × 综合 step 质量) 自监督共同迭代;environment task 由 reward model 的诊断性 critique 驱动,自动变易 / 变难。理论上证明 task 难度平衡能同时改善 PRM 估计精度。

+9.1%
Qwen3-VL-8B-Thinking @ OSWorld
+18.7%
Qwen2.5-7B @ AlfWorld (in-domain)
+11.9%
Qwen2.5-7B @ LiveBench (code)

立场真正有意思的不是 +9.1%,而是 reward model 训得越好,人写的 verifier 反而可以不用——在 GUI 这种 verifier 极贵的领域,这给"自演化 agent"打开了一个口子。

目录
  1. 动机 — 为什么环境和 reward 不能再静态了
  2. 背景速查 — PRM / ORM / GRPO / curriculum
  3. 方法详解
    1. 🔑 工作流: vanilla RL vs RLAnything (含 OSWorld Excel 完整 example)
    2. 三件套闭环图
    3. Integration Feedback (policy)
    4. Consistency Feedback (reward model)
    5. Environment auto-adaptation
  4. 公式与定理
  5. 实验关键结果
  6. 与同类工作对比
  7. 局限 / 个人 take / 待验证
  8. 记忆点

§1 动机 — 为什么环境和 reward 不能再静态了

1.1 历史脉络

RL for LLM 的演化大致是三步:

  1. RLHF (InstructGPT, 2022):静态偏好数据 → 训 reward model → 冻住 reward → PPO。reward 训完就不动了。
  2. RLVR (DeepSeek-R1, OpenAI o1, 2024–2025):放弃学出来的 reward,直接用 verifiable outcome (数学题答案对错、单元测试通过率) 作为 0/1 信号。reward 是死规则,environment 是题库 + checker。
  3. Agentic RL (UI-TARS, Search-R1, AgentGym, 2025):policy 在 environment 里跑长 trajectory,outcome 来自 environment 的 final verifier。问题立刻浮现——

当 trajectory 长到 30–60 步,binary outcome 信号过于稀疏。把 advantage 平摊到几十个 step,任何一步都拿不到强 gradient。于是出现两条修补路:

RLAnything 的立场:policy / reward / environment 三者必须同时动,且互相提供 critique 信号。如果只优化两个 (任意搭配),整个系统都会有"短板"。

1.2 别的方案为什么不够 — 对比表

框架policyrewardenvironment跨长 trajectory 的 step 信号痛点
RLHF (InstructGPT)dynamicfrozenN/A (single-turn)reward 老化 / hacking
RLVR / DAPO / GRPOdynamicverifier (静态规则)题库静态无 (binary outcome only)长 trajectory 信号稀疏
veRL / AReaL / slimedynamic外部 (规则或冻 RM)静态取决于使用者仅 infra,不解决 reward/env 退化
AgentGym-RL / OpenManus-RLdynamic静态规则固定 env pool多数无env 太简单或太难时 stuck
RLVE (Zeng 2025) / AutoForgedynamic静态dynamic (难度自适应)缺 step 信号,长 horizon 仍弱
Co-evolve coder + UT (Wang 2025e)dynamicdynamic (UT 联合训练)静态单元测试粒度,非长 trajectory仅适用于 coding
RLAnythingdynamicdynamic (consistency)dynamic (critic-guided)PRM × m + outcome

1.3 为什么这事不平凡

把三个组件全部 dynamic 起来听起来像"再加两个 loss",但有三个非显然的难点:

  1. PRM 的 self-training 没有外部 ground truth:如果 reward model 自己出标签自己学,会塌成 trivial constant (例如恒输出 +1)。RLAnything 用 Rτᵢ × Sτᵢ,j 这个 consistency 信号,把 outcome (公正、可信) 和 step 多次采样的平均 (粗略 self-consistency) 当 anchor,理论上证明这个 objective 与 PRM 的预测精度等价 (Theorem 1)。
  2. Curriculum 与 PRM 训练耦合:作者证明 (Theorem 2),当 P(Oτ=−1 | q) → 1 (太难) 或 → 0 (太易) 时,importance-weight ratio ‖f₊‖/‖f₋‖ 会发散,违反 Theorem 1 的 μ = p₊ + p₋ > 1 条件。也就是说不做 curriculum,PRM 训不动——这正是把 env adaptation 拉进闭环的理论依据,而不是经验装饰。
  3. Critic 反馈要"可执行":简单根据 accuracy 自动调难度 (Zeng 2025) 只能输出 0/1 信号"加点提示";RLAnything 让 reward model 的 reasoning trace rτᵢ,j 担任 诊断报告:它会告诉 task rewriter "agent 把 fx 按钮和 Σ 按钮认错了",rewriter 才知道往 task 里加 "Use Function Wizard (fx), not AutoSum" 这种 targeted hint。这个粒度是裸 accuracy 给不出来的。

§2 背景速查

术语简释
PPO / GRPO / DAPO三代 RL 优化器。GRPO (Shao 2024) 用 group-wise advantage 替代 critic;DAPO (Yu 2025) 加 clip-higher / dynamic sampling。RLAnything 算 advantage 时遵循 GRPO 风格:对同一 task 内 trajectories 在同一 step index i 标准化 Rτᵢ
PRM (Process Reward Model)对 trajectory 的每一步打分。本文用 generative PRM:LLM 当 reward model,先 reasoning 再吐 ±1。
ORM (Outcome Reward Model) / verifiable outcome对整条 trajectory 打分。OSWorld 用人写 evaluator script;AlfWorld 用环境内置 reward;coding 用 unit test pass rate。
Curriculum learning按难度排序训练样本。这里是 online 的:训练中根据 rollout accuracy 实时改写 task。
Reward hackingpolicy 学会钻 reward 的空子,而非完成真任务。dynamic reward + verifiable anchor 是一种缓解。
Consistency loss这里特指 step 标签 Sτᵢ,j 与综合 step 质量 Rτᵢ 的点乘——agreement 越高,reward model 对该 step reasoning 越受奖励。
Importance weight (f₊, f₋)定理 2 里出现的归因权重,衡量 trajectory 在 p₊ / p₋ 上的"密度倾斜",当 task 极端难易时严重失衡。

§3 方法详解

3.0 工作流: vanilla RL vs RLAnything 一图说清

RLAnything 的描述容易迷糊,因为"三件套同时优化"听起来很玄。实际工作流是一个固定的 5 步循环 — 比 vanilla GRPO 多两步、改一步。先并排对比 per-iteration 操作:

步骤Vanilla RLVR / GRPORLAnything (每个 iteration k)
① 采样 taskq ∼ Q (Q 静态)q ∼ Q (Q 会被改写)
② Rolloutpolicy 跑 8 条 trajectory τ同上,但记录每一步 τᵢ
③ 拿 reward只有 outcome Oτ ∈ {−1,+1}Oτ + 每步 ask reward-model m=3 次拿 Sτᵢ,j ∈ {−1,+1};合成 Rτᵢ = Oτ + (1/3)Σ Sτᵢ,j
④ 更新 policyGRPO on R = OτGRPO on Rτᵢ(step-level, 信号密集 30×)
新增: 更新 reward model—(reward 是 fixed verifier)把 policy 的 trajectory 当 reward-model 的训练数据,supervision = Rτᵢ·Sτᵢ,j(consistency loss)
新增: 更新 task—(Q 不变)看 q 的 rollout accuracy:>0.8 → 让另一个 LLM 改难;<0.2 → 改易;改写时把 reward-model 的失败诊断作为提示

看清这 5 步后,核心差别就两件事 — 都是把 vanilla RL 里"事先定死"的东西改成在线训练 / 在线生成:

  1. reward 从 fixed verifier 变成 trained model:vanilla RL 的 reward 是写死的 (比如 "答案对就 +1");RLAnything 的 reward model 是一个 LLM,在跟 policy 一起 RL 训练,每步都打分。
  2. task 从 fixed set 变成 mutable set:vanilla RL 的 Q 是 dataset,从头到尾不变;RLAnything 的 Q 是一个 mutable pool,每 iteration 都根据 policy 表现做"题目改写"。

3.0.1 用 OSWorld 一个 Excel 任务跑一遍(论文 Figure 3 左上)

这是论文给的具体例子。任务 q: "Calculate each employee's age" — Excel 工作表里有员工出生年(C 列),要在 D 列填年龄。Policy = Qwen3-VL-8B-Thinking,既是 actor 也是 reward model 自己。

Iteration k=1 — task q: "Calculate each employee's age" ① Rollout (8 trajectories) τ⁽¹⁾ step₁: "Click fx in formula bar" τ⁽¹⁾ step₂: "Choose DATE function" τ⁽¹⁾ step₃: "Press Backspace 13× ... type =2023-C2" final answer: 1990-01-01 (date type) → Oτ⁽¹⁾ = −1 (失败 ×8) ② Reward model 给每步评 m=3 次 step₁ → S₁,₁=+1, S₁,₂=+1, S₁,₃=−1 → mean = +0.33 step₂ → S₂,₁=−1, S₂,₂=−1, S₂,₃=+1 → mean = −0.33 step₃ → S₃,₁=−1, S₃,₂=−1, S₃,₃=−1 → mean = −1.0 Rτ,3 = Oτ + mean S = −1 + (−1.0) = −2.0 Rτ,1 = −0.67,  Rτ,2 = −1.33 ③ Policy update (GRPO) Aτᵢ = standardize(Rτᵢ) across 8 traj, 同 i → step₃ 拿到最强的 negative advantage(−2.0) → policy 学到 "不要在 formula bar 写 =2023-C2" ④ Reward model update (consistency) 第 j=1 次评 step₃: S=−1, Rτ,3=−2.0 → supervision R·S = (−2.0)(−1) = +2.0 → 鼓励再说 −1 step₁,j=3 评 −1, Rτ,1=−0.67 → R·S=+0.67 → 弱鼓励 ⑤+⑥ Environment task adaptation (论文 Figure 3 原例) rollout accuracy(q) = 0/8 = 0.0 < αlow=0.2 → 触发"改易" Critic feedback summary (LLM 读 reward-model reasoning): "1) Clicked AutoSum button(Σ) instead of Function Wizard(fx); 2) Produced a date value instead of numeric age" → 新 task q′: "Calculate each employee's age. Hint: Use Function Wizard (fx) to choose a date function for age, not AutoSum, and make sure the result is number, not a date."    → 新 accuracy 0.25 > 0.0 ✓ 接受替换 Iteration k=2 — q ← q′ (带 hint),policy/reward 继续 RL 训 ... 直至 accuracy ≥ 0.8 再触发改难 注: 题目改写不算作弊 — q′ 保留原 task 语义,只是把"reward model 已经识别到的 policy 弱点"显式写入提示,等价于课程学习的下一关。
一个 iteration 的具体数字流转,用 OSWorld 的 Excel 年龄计算任务(论文 Figure 3 左上原例 + 我补的中间计算)。注意三个回路在同一个 iteration 里全部跑:policy 拿 step-level R 做 GRPO 更新;reward model 用 R·S 当 consistency 信号自己 RL 训;task 根据 accuracy 触发 LLM 改写。这就是"三件套闭环"的具体含义。

3.0.2 跟 vanilla RL 的差别有多大?

用上面 Excel 任务做对比:

对比维度Vanilla GRPO (e.g. veRL / AReaL)RLAnything
每步看到的 reward整条 trajectory 共享一个数: Oτ=−1。step₁/step₂/step₃ 拿到的 advantage 一样,gradient 平均分摊到 30 步上step₁ A=−0.67, step₂ A=−1.33, step₃ A=−2.0。错得最离谱的那一步拿到最强信号
credit assignment稀疏 — 30 步 trajectory 只有 1 个 reward 信号密集 — 30 步 trajectory 拿到 30 个 reward 信号
失败后下一轮看到的 q同一个 "Calculate ages",再失败再失败q′ 带提示 "use Function Wizard not AutoSum",课程难度自动降
reward 准确性由 task 设计者写死的 verifier(可能 brittle)reward model 随 policy 一起 RL 训,policy 学到新错法,reward model 同步学到新检测法
训练所需人工需要标注 outcome verifier + 写题只要 outcome verifier (二元成败) + 一个 seed task 集合
最反直觉的一点: reward model 是同一个 LLM,既当 actor 又当 critic(论文 OSWorld 实验用 Qwen3-VL-8B-Thinking 二合一)。这听起来像"自评作弊",但 R·S 的 supervision 形式保证了 anchor:Rτᵢ 里有一项是 Oτ(verifiable outcome),只要 outcome 不可篡改,reward model 的"评 step"能力就被锚在真实成败上。这是论文 Theorem 1 的核心 — 只要 m 足够大、p++p>1,reward precision 渐近趋于 1。
反向论证: 如果只做 vanilla RL,这个 Excel 任务会怎样?

Qwen3-VL-8B-Thinking 在 8 条 rollout 上 0/8 通过,只拿到 8 个 O=−1 信号。GRPO 把整条 30 步 trajectory 的 advantage 都设为 −1 的标准化,policy 不知道"问题出在哪一步"。下一 iteration 还是同一个 task,policy 继续犯同样的错(因为它学到的是"整个 trajectory 都不好",但不知道哪里不好)。论文 Table 1 显示 OSWorld 上 vanilla GRPO 从 22.9% 涨到 27.2% (+4.3%),而 RLAnything 涨到 32.0% (+9.1%) — 差距主要来自 step-level credit assignment + task curriculum 这两件事。

3.1 三件套闭环

整篇论文的精华是 Algorithm 1。每个 k-th iteration 包含四步:① policy rollout;② 用 reward model 给每个 step 做 m 次评估;③ 用 Rτᵢ 更新 policy,同时用 Rτᵢ·Sτᵢ,j 更新 reward model;④ 根据 rollout accuracy 触发 task 改写。

Environment task q ∈ Q Policy π_θ trajectory τ Reward r_φ step S_τᵢ,j ∈ {±1} sample q → τ τᵢ 送评 (m 次) critic 摘要 → harder/easier(q) R_τᵢ = O_τ + λ·mean S R_τᵢ·S 自训练 蓝实线: forward 数据流 · 红线: env adapt · 绿虚线: integrated reward 喂回 policy
三件套闭环:env 出 task,policy 跑 trajectory,reward model 给 step 评分;reward 评分既驱动 policy 的 GRPO 更新,也通过 R·S 这个 consistency 信号自训练,最后 reward 的诊断 reasoning 又被压成"critic summary"喂给 task rewriter。三个回路同时跑,没有谁是 frozen。

3.2 Integration Feedback for Policy

给一个 trajectory τ = (τ₁, ..., τ_T) 和 outcome Oτ ∈ {−1, +1}。对第 i 步,query reward model m 次得到 Sτᵢ,1, ..., Sτᵢ,m ∈ {−1, +1} (m=3 in paper)。整合的 step reward:

Rτᵢ = Oτ + (λ/m) · Σj=1..m Sτᵢ,j,   λ = 1 by default

每步都把整段 outcome 加进去 (注意不是 discount),保证即使 reward model 全部认为这一步正确,只要 outcome 是负的 R 也会被拉到 0;反之亦然。这是防 reward hacking 的关键 anchor。advantage 用 GRPO 风格在同 task、同 step index i 上做标准化:

Aπτᵢ = (Rτᵢ − μi) / σi,   μi, σi 在 {τ ~ π(·|q)} 上算

Worked example: AlfWorld trajectory (T=8, m=3)

policy 接到 task "Place ClothType into ToiletType",采 8 个 rollout。取其中某条轨迹 τ:

step iactionSτᵢ,1Sτᵢ,2Sτᵢ,3mean SOτRτᵢ
1–6go to 浴室、橱柜...(找布)-1-1+1-0.33+10.67
7take cloth 1 from toilet 1+1+1+1+1.00+12.00
8put cloth 1 in drawer 2 (失误)-1-1-1-1.00+10.00

同一个 step index i=7 在 8 条 rollouts 上的 Rτᵢ 分布大致 {2, 1.3, 0.67, 2, ..., −0.33}。标准化后给本条 τ 的 step 7 一个偏高的 A,GRPO 把 "take cloth"这个 action 强化。反向论证:如果不加 outcome anchor (令 λ→∞ 仅用 mean S),reward model 早期偏差就会被无限放大;如果不加 step 信号 (λ=0 退化成 outcome-only GRPO),长 trajectory 的所有 step advantage 退化成相同的 ±1,Figure 6(b) 显示这就是 baseline 在 30+ 步任务上不收敛的根因。

3.3 Consistency Feedback for Reward Model

核心一行式:

RSτᵢ,j = Rτᵢ · Sτᵢ,j

解读:Rτᵢ ∈ [−2, 2] (λ=1 时) 是一个 polled estimate ——综合了 outcome 与 m 次 step 评估。Sτᵢ,j 是单次评估。把它俩相乘:

同样 advantage 在 j 维上标准化:Arτᵢ,j = (Rτᵢ·Sτᵢ,j − μj)/σj。reward model 输出的是 reasoning trace + 末位 ±1,被 RL 强化的是整段 reasoning 而不只是末位 token。

R_τᵢ = −2 0 (uncertain) +2 R_τᵢ = +1.33 (3 次 S = [+1,+1,−1], O=+1): S=+1 → RS=+1.33 ✓ 奖 S=+1 → RS=+1.33 ✓ 奖 S=−1 → RS=−1.33 ✗ 罚 R_τᵢ = +0.1 (评估分裂): S=+1 → RS=+0.1 ≈0 S=−1 → RS=−0.1 ≈0 梯度被压缩,不学 → "不确定的 step"对 reward model 训练自动失活,只有 majority-vote 与 outcome 一致的 step 才贡献 gradient。
Consistency feedback 的直觉:Rτᵢ 是综合 anchor,Sτᵢ,j 是单次评估;相乘当 reward,实际效果是"奖励与大局一致的 reasoning"。绝对值越靠近 0 (即 step 评估意见分裂或与 outcome 矛盾),gradient 被压缩,实现隐式 uncertainty filtering。

3.4 Environment Auto-Adaptation

每个 task q 有当前 rollout accuracy acc(q)。两个阈值 αhigh=0.8、αlow=0.2。逻辑:

"critique 摘要" s 来自所有至少一次 Sτᵢ,j=−1 的 step 的 reasoning trace rτᵢ,j 的 LM 汇总 (Appendix C.6),并不是单纯的 accuracy 数字。在 OSWorld 例子里,s = "1. 把 fx 误点成 Σ; 2. 用了 SUM 给出日期而非年龄"。改写 LM (Qwen3-4B) 据此把 task 描述里追加 "Use Function Wizard (fx), make sure result is number"。

α_low=0.2 α_high=0.8 acc=0 acc=1 acc=0.0 (too hard) GUI: 误按按钮 → critic: "fx vs Σ" → easier(q; s): 加 hint acc′=0.25 ✓ acc=0.5 (sweet spot) 不改动 μ = p₊+p₋ 最大化 保留原 q acc=0.875 (too easy) AlfWorld: 浪费步找物 → critic: "spent most time finding" → harder(q; s): 换 SoapBottle acc′=0.5 ✓
Env auto-adapt 的三种状态:太难 / sweet spot / 太易。critique 不只是难度数字,而是 reward model 对失败步的具体诊断文本,这是让 task rewriter 能做 targeted 修改 (而不是瞎合成) 的关键。

反向论证:为什么阈值检查要做双向 (新 task 要既不再过难也不超出原难度)?如果直接接受 acc(q′) ∈ [0.2, 0.8] 的任何 q′,LM 容易把 task 改得失去原 essence (例如把 GUI 任务改成 trivia),accuracy 也能落进区间。论文 §3.2.9 的 96.0% (GUI) / 96.7% (AlfWorld) / 94.2% (coding) pass-at-least-one 率 (由 Qwen3-32B 16 次独立 trial 验证),就是这套接受准则有效性的证据。

§4 公式与定理

4.1 Theorem 1 — consistency 优化 ⇒ PRM 精度

定义 reward precision A = P(Sτ⁺ᵢ > Sτ⁻ᵢ | Oτ⁺=1, Oτ⁻=−1),其中 Sτᵢ = (1/m)Σ Sτᵢ,j 是 mean process reward。令 μ ≜ p₊ + p₋,p₊ = P(Sτ⁺ᵢ,j=1), p₋ = P(Sτ⁻ᵢ,j=−1)。结论:

A → 1 当 m → ∞   ⇔   μ > 1;   且 A ≥ 1 − exp(−m(μ−1)²/4)

直觉:μ 是 "对正 trajectory 的 step 也说正" + "对负 trajectory 的 step 也说负" 的概率和。要让 PRM 能区分好坏 step,这俩概率不能都偏向同一类——必须 μ>1 (即偏向"正向 calibration") 才能让两个 distribution 在 m 重采样后逐渐分离。Hoeffding 风格的指数收敛给出了 m=3 在实践中已经够用的依据。

4.2 Theorem 2 — task 难度失衡 ⇒ μ 估计偏

𝔼q,τ,S[RSτᵢ,j] = 4·𝔼q[⟨p₊, f₊⟩ + ⟨p₋, f₋⟩] + C

当 λ=1。f₊, f₋ 是 trajectory 上的 importance-weight 函数,且

‖f₊‖/‖f₋‖ → 0,   当 P(Oτ=−1 | q) → 1 (task 全失败)
‖f₊‖/‖f₋‖ → ∞,   当 P(Oτ=1 | q) → 1 (task 全成功)

含义:reward model 的 RL objective 可分解为 p₊ 与 p₋ 两个内积的加权和,权重就是 importance norm。当 task 太难,几乎所有 trajectory 都是 O=−1,p₊ 那边几乎没采样,梯度被 f₋ 主导;反之亦然。这就是为什么要做 env adaptation——不是为了 policy,是为了让 reward model 的 μ 估计不偏。这条因果链是 RLAnything 区别于 RLVE / EnvGen 的核心论点。

4.3 边界敏感性 (Theorem 1 数值表)

μm=1m=3m=10m=30
1.050.00060.00190.00620.0186
1.20.00990.0290.0950.259
1.40.0390.1130.3300.698
1.60.0860.2360.5510.917

表中数值是下界 1 − exp(−m(μ−1)²/4)。读出来的事:μ 离 1 越近,m 必须很大才能拉满 A。论文用 m=3,等于赌 μ 不会接近 1——而这恰好是 env adaptation 要负责维持的。

§5 实验关键结果

5.1 主表 — 三件套消融

三种配置:① Policy (只用 integrated reward 训 policy,reward 和 env 冻);② Policy + Reward (再加 consistency 训 RM);③ Policy + Reward + Env = RLAnything。

settingGUI (OSWorld)LLM (AlfWorld)Coding (LiveBench)
In-domainOODIn-domainOODCodeUT
Before40.416.139.044.931.327.8
Policy48.319.851.159.338.827.8
+ Reward49.620.055.661.840.073.3
+ Reward + Env52.1 +11.721.3 +5.260.2 +21.263.6 +18.743.2 +11.978.9 +51.1

读三件事:① 三个 dynamic 组件单调累加,没有一个是噪声;② OOD 上 +5.2 / +18.7 的提升说明这不是 over-fit to 训练 task;③ coding 上 UT accuracy +51.1 是巨大的——意味着 reward model (这里是 unit test 生成器) 在 consistency loss 下变成了一个真能判断 code 对错的工具,而不是表面合理。

5.2 λ 消融 (AlfWorld, 100 steps)

λRM process accRM outcome accpolicy acc
1/451.862.548.0
155.562.454.1
457.460.253.3

λ 大 → RM 更看重 step quality,process acc 提升但 outcome 预测能力下降;λ=1 是甜区。policy 也最爱 λ=1。

5.3 优化的 RM 信号 > 人写 verifier (Figure 6a)

把 outcome reward 完全拿掉,只让 policy 拿 optimized reward model 的 step 信号训练——OSWorld 上 still 比有 verifiable outcome 的 GRPO baseline 更高。这是全文最 disruptive 的实验:在 GUI 这种 verifier 极贵 (人写脚本)、不可 scale 的场景下,自演化的 reward model 可以替代人工 verifier。

5.4 accepted task 线性 scale (Figure 7a)

新接受的 task 数量随训练 step 近似线性增长,policy 在新 task 上的 accuracy 稳定在 ~0.4,意味着 env adapter 持续在 "稍微超出 policy 当前能力"的区间出题——这正好对应 §4.2 让 μ 远离 1 的目标。

§6 与同类工作对比

系统dynamic reward?dynamic env?step signal?关键差异
veRL / AReaL / slime由 user 决定这些是 RL infra,不解决信号设计
AgentGym-RL / OpenManus-RL提供 env 池但 reward / env 静态
RLVE (Zeng 2025)是 (多档难度)env scale 但缺 step;短 horizon
EnvGen / EvoCUA是 (LM 合成)合成任务质量缺验证;无 critic 反馈
RL Tango (Zha 2025)是 (gen+ver 共训)有 (single-turn)仅 single-turn,无 trajectory
AgentPRM (Xi 2025)是 (PRM 训练)PRM 需要外部标签;reward / env 不耦合
Co-evolve coder + UT (Wang 2025e)UT 粒度仅 coding,本文 §3.2.7 把它纳为特例
RLAnything是 (consistency loss)是 (critic-guided)是 (PRM × m + outcome)三件套 + 理论保证

§7 局限 / 个人 take / 待验证

待验证问题

  1. m=3 是否真是 sweet spot?当 m=1 时 Rτᵢ 退化成 O+λS,RM 自训练几乎只剩 outcome anchor;m=10 会不会让 μ 估计更稳但 compute 翻 3 倍。
  2. 把 reward model 换成更小的模型 (e.g. Qwen2.5-1.5B) 时,critic reasoning trace 还能不能产生可用的 task rewriting 信号?这是落地的关键。
  3. env adapter 用的 LM (Qwen3-4B) 会不会 mode-collapse —— task 改写多轮以后是否会偏向某类 task family?
  4. OSWorld 9.1% 提升里,有多少来自 47 个 pre-created task perturbations (§3.1.4),多少来自实际 online 改写?
  5. "RM signal > human verifier" 是不是 specific to OSWorld 的人写脚本质量低?在 AlfWorld 这种 env 自带 reward 的场景能不能复现?

§8 记忆点

立场 agentic RL 的瓶颈不在 policy 算法 (PPO/GRPO/DAPO 早就够用) 而在 reward 与 environment 退化;把这两个变量也 dynamic 起来是必经之路。
核心公式 Rτᵢ = Oτ + (λ/m)Σ Sτᵢ,j 给 policy;RSτᵢ,j = Rτᵢ · Sτᵢ,j 给 reward model。outcome anchor + step mean = 双重防 hacking。
理论 Theorem 1: PRM 精度 ⇔ μ=p₊+p₋ > 1。Theorem 2: task 全成或全败时 importance weight 失衡,μ 估计偏 → 必须 env adapt。
机制 env adaptation 由 reward model 的 reasoning trace 而非 accuracy 数字驱动 → targeted 改写而不是瞎合成。
破坏性结论 §3.2.6:训好的 reward model 单独当 supervision 已经 > 人写 verifier。GUI / 真实世界 agent 的 verifier 瓶颈被绕过。
数字记忆 OSWorld +9.1, AlfWorld +18.7 / +21.2, LiveBench +11.9, LiveCodeBench UT +45.9, CodeContests UT +43.3。m=3 evaluations, α=(0.2, 0.8), λ=1 默认。
对手 RLVE (env-only), AgentPRM (PRM-only), RL Tango (single-turn 双训), Co-evolve coder+UT (coding-only) — RLAnything 在 multi-turn × 三件套 这个交叉点上独占。
开源 Gen-Verse/Open-AgentRL,与作者另一个项目 DemyAgent 配对。