Don't Just Fine-tune the Agent, Tune the Environment
速读卡片 (TL;DR)
一句话: 这是 ICLR 2026 上由 蚂蚁集团 AWorld Team + 浙大 + 西湖大学 推的一个 agent RL 训练范式 —— 反对当前主流的 "合成 trajectory + SFT" 路线,也指出 "直接 GRPO RL 在 multi-turn tool use 上 70 步内就 collapse" 这件事的根因:环境本身没有教学能力。他们的解法 Environment Tuning = "把环境改造成会反馈、会给提示、会渐进出题的老师",而不是去改 agent 网络的训练 loss。具体三件套: (1) 四阶段课程(语法 → 基础 + 增强反馈 → 复杂 + 增强反馈 → alignment 关掉增强); (2) Actionable Environment Augmentation —— 把"No available route"改成"Invalid airport code[s]:..."这种实指性 pedagogical hint; (3) Fine-grained Progress Reward —— 按 turn 评 state·exec 两项,平均成 dense reward。只用 BFCL V3 的 400 条样本,把 Qwen2.5-7B-Instruct 从 7.00% 提到 36.92%,watt-tool-8B 从 35.74% 提到 54.34% 超过 GPT-4o / o3,OOD 上 Llama-3.1-8B-Instruct 在 BFCL V4 Web Search 从 1.00% 飙到 15.00%。
立场: 这是 agent 训练里"把 env 当 first-class 变量"的 ICLR 2026 代表作 —— 不发明新 RL 算法,而是认真把"环境提供什么反馈、什么时候提供、按什么难度"做成可调旋钮。和读过的 #06 AgentGym-RL(ScalingInter 课程 / 沿 horizon 维度)、#13 RLAnything(env+policy+reward 三者闭环联合优化) 是同一脉; 和 #22 TOUCAN(1.5M traj SFT)、#23 EnvScaler(扩 env 给 RL 用) 是路线分歧 —— 这篇说: 数据其实 400 条就够,但环境得改造。和 #28 BFCL 的关系最直接: 它把 BFCL V3 当训练集而不只是测试集用,且只用其中的 400 / 800 条。
1 · 背景 — "tune the agent" vs "tune the environment" 两条路线
1.1 multi-turn tool use 的三难
论文 §1 用三个 ℂ1/ℂ2/ℂ3 把问题钉死:
| 挑战 | 论文措辞 | 具体后果 |
|---|---|---|
| ℂ1 数据稀缺 | "BFCL V3 multi-turn 仅 800 样本" | 传统 SFT scaling 走不通 |
| ℂ2 环境复杂 | "8 domain × 84 tool, 跨域 API + 编排" | RL cold-start: 不够熟练的 agent 探索不出有意义的 rollout |
| ℂ3 长 interaction chain | "任何一 turn 失败 → 全任务失败" | 训练不稳定、gradient explosion、performance collapse |
作者还放了一个非常关键的负面实验数字(§3.1):
"when fine-tuning Qwen2.5-7B-Instruct directly in a single-stage RL setup with 400 training instances, training collapsed within 70 steps, yielding a mere 10% improvement in success rate."
—— 这是他们立"不能直接 RL"的实证根据,也是后面四阶段课程存在的理由。
1.2 两条主流路线各自的失败模式
| 路线 | 代表 | 失败模式(论文措辞) |
|---|---|---|
| 合成轨迹 SFT | ToolACE-2, watt-tool, xLAM-2, TOUCAN(#22) | 过拟合静态分布,OOD 崩塌(xLAM-2 在 BFCL V3 拿 70.50,到 BFCL V4 Web Search 掉到 5.00) |
| online RL on 原始 env | ReCall, ARTIST, AgentGym-RL(#06) | 稀疏 reward + cold-start → 70 步内 collapse, "yield only modest gains on BFCL" |
| Environment Tuning | 本文 | "shifting from trajectory-based imitation to environment-based exploration" |
"Tune the Environment" 这个标题的 真实意思不是炒概念: 它指的是 —— 保持 agent 是普通的 GRPO RL agent,但是把 env 在训练阶段改成会主动反馈错因的 "augmented env",并按课程切换 env 难度和 reward 函数。评测时 env 还原成标准 BFCL env(stage 4 关掉 augmentation 就是为了 align)。这是它与"环境 = 黑盒输入"传统 RL setup 的根本性差异。
2 · 核心方法 — 三件套 + 四阶段课程
2.1 一图看 Environment Tuning 的训练流水线
2.2 训练算法 — adapted GRPO + decoupled clip + KL
RL 算法本身没有发明新东西,是 GRPO + DAPO + ProRL 的组合:
关键超参: β = 0.1(KL 系数,论文承认相对偏高,§D.3 有 justify), ε_low = 0.2, ε_high = 0.28(decoupled clip 来自 DAPO)。论文未给 GPU 数 / 训练总时长 / 总 token cost。
3 · 关键设计 — "tune the environment" 究竟改了什么
3.1 Actionable Environment Augmentation 的两个层次
这是全文最 concrete 的 "到底改了 env 什么" 描述。§3.3 给了两个 case study:
| 层次 | case | Standard 返回 | Augmented 返回 | 暗示给 agent 的是什么 |
|---|---|---|---|---|
| inter-tool 依赖 | BFCL Travel API | "No available route" | "Invalid airport code[s]:..." | "先调另一个 tool 拿 airport code" |
| tool 内部约束 | BFCL File System | "FileNotFoundError" | "Paths are not allowed. Specify only file/directory name..." | "本环境的 rm 不接受 full path" |
核心 insight: 不是改 reward 给提示,而是改 tool 的 error string 给提示。差别在于 —— hint 出现在 observation 里、走 agent 的语言通道、可以被 attention/CoT 利用;若放进 reward 里只是给 gradient 一个 scalar 信号,语义就丢了。这其实是把 "合成 trajectory 中老师写的注释" 内化进了 env 本身,让 agent 通过探索而非模仿学到。
3.2 Progress Reward 的两个组件
§3.4 + Appendix B 把 rt = rtstate · rtexec 拆得清楚:
- state 评估: 针对会修改 env 状态的 call(create file, book flight)。每 turn 末把当前 env 状态和 ground-truth 比对 —— "focus on whether the agent's actions achieve the desired final state, rather than prescribing a specific execution path"。这是 BFCL V3 的官方 state-based eval 的"turn-级别下沉"版本。
- exec 评估: 针对返回值才是结果的 call(get stock price, check weather)。直接比 function return value 和 ground-truth。
每 turn 必须 两项都对才给 1。RP = 全 turn 平均 success rate。Ablation(§4.3, Fig 4b)显示: binary terminal reward 在 Missing Param / Missing Func split 上完全 train 不起来(性能近零),只有这个 dense 形式才让复杂 split 有 gradient。
3.3 课程为什么是四阶段不是三阶段
这点很 sneaky 但重要: 如果只到 Stage 3(带 augmentation 训完即评估),agent 会依赖 hint; 评测时 hint 没了就崩。Stage 4 的作用就是 "align with evaluation conditions" —— 把 agent 在 hint-free env 上再 finetune 一段,迫使它把"靠 hint 学到的 dependency 知识"内化为 policy。论文 Table 3 显示 Stage 4 在 Base split 上 +5.66 pp,但在 L.Ctxt 上反而 +4.00 pp 而 M.Func -0.67 pp、M.Param -0.67 pp —— 这是典型的"trade-off align in/out of curriculum"现象。
4 · ⭐ 评测的 benchmark — 全部 verbatim 分数
论文只评了 3 个 benchmark 家族(都是 function-calling/tool-use 域内),核心是 BFCL,V3 当 ID(in-distribution),V4 + ACEBench 当 OOD。
4.1 BFCL V3 Multi-Turn(ID, 4 split, 训练集所在地)
(Patil et al. 2025b. 总 800 条,作者切 100×4 = 400 训练 / 400 测试。完整 4 个 split 都进入训练,见 Stage 3。)
| Model | Avg | Base | M.Func | M.Param | L.Ctxt |
|---|---|---|---|---|---|
| Proprietary 参考线 | |||||
| Claude Sonnet 4 | 57.00 | 63.00 | 58.00 | 51.00 | 56.00 |
| GPT-4o | 51.00 | 59.00 | 54.00 | 41.00 | 50.00 |
| o3 | 49.25 | 47.00 | 55.00 | 47.00 | 48.00 |
| Gemini 2.5 Pro | 28.75 | 32.00 | 29.00 | 22.00 | 32.00 |
| Open-source SFT baseline | |||||
| xLAM-2-8b-fc-r | 70.50 | 77.85 | 69.15 | 65.80 | 69.20 |
| Arch-Agent-7B | 42.05 | 47.15 | 53.75 | 34.20 | 33.10 |
| BitAgent-8B | 36.99 | 47.85 | 33.20 | 26.15 | 40.75 |
| ToolACE-2-Llama-3.1-8B | 37.99 | 48.85 | 34.15 | 25.20 | 43.75 |
| watt-tool-8B | 35.74 | 45.85 | 33.15 | 25.20 | 38.75 |
| Base model + Environment Tuning | |||||
| Qwen2.5-7B-Instruct (base) | 7.00 | 9.33 | 9.33 | 6.33 | 3.00 |
| + Environment Tuning | 36.92 (+29.92) | 50.33 (+41.00) | 40.33 (+31.00) | 29.33 (+23.00) | 27.67 (+24.67) |
| Llama-3.1-8B-Instruct (base) | 5.48 | 6.15 | 6.80 | 3.20 | 5.75 |
| + Environment Tuning | 28.25 (+22.77) | 28.20 (+22.05) | 25.85 (+19.05) | 22.15 (+18.95) | 36.80 (+31.05) |
| ToolACE-2 (SFT base) | 37.99 | 48.85 | 34.15 | 25.20 | 43.75 |
| + Environment Tuning | 47.18 (+9.19) | 55.20 (+6.35) | 38.15 (+4.00) | 38.20 (+13.00) | 57.15 (+13.40) |
| watt-tool-8B (SFT base) | 35.74 | 45.85 | 33.15 | 25.20 | 38.75 |
| + Environment Tuning | 54.34 (+18.50) | 64.15 (+18.30) | 48.15 (+15.00) | 40.20 (+15.00) | 64.85 (+26.10) |
读法: (a) 在 ID 上 watt-tool + Env Tuning 54.34% 超过 Claude Sonnet 4(57.00)以外的所有 frontier(o3 49.25 / GPT-4o 51 / Gemini 28.75)—— 但仍输 xLAM-2-8b-fc-r 70.50。作者的说辞是 xLAM-2 训练数据有 60K 条而他们只用 400,且xLAM-2 在 OOD 上崩塌(下表)。(b) Qwen2.5-7B 从 7.00 → 36.92,是"近乎从零起步的 RL"凭 400 条就到 Gemini 2.5 Pro 同档(28.75)。
4.2 BFCL V4 Web Search + Memory(OOD)
(Patil 2025b 的新 track,网络数据 post-date 模型训练 cutoff,真 OOD。下面 base 行都是 Llama-3.1-8B-Instruct;Env Tuning 模型对比的是它们的 SFT 起点。)
| Model | BFCL V4 Web Search | BFCL V4 Memory | |||||
|---|---|---|---|---|---|---|---|
| Avg | Base | No Snippet | Avg | KV | Vector | Recursive Sum | |
| xLAM-2-8b-fc-r | 5.00 | 8.00 | 2.00 | 13.33 | 7.10 | 14.19 | 18.71 |
| BitAgent-8B | 4.50 | 7.00 | 2.00 | 10.32 | 2.58 | 16.77 | 11.61 |
| Llama-3.1-8B-Instruct (base) | 1.00 | 1.00 | 1.00 | 15.91 | 5.81 | 15.48 | 26.45 |
| + Environment Tuning | 15.00 | 24.00 | 6.00 | 18.06 | 17.42 | 26.45 | 10.32 |
| ToolACE-2 (SFT base) | 9.00 | 13.00 | 5.00 | 22.80 | 7.10 | 24.52 | 36.77 |
| + Environment Tuning | 14.00 | 23.00 | 5.00 | 19.57 | 8.39 | 18.06 | 32.26 |
| watt-tool-8B (SFT base) | 4.00 | 5.00 | 3.00 | 13.33 | 3.23 | 14.19 | 22.58 |
| + Environment Tuning | 8.00 | 15.00 | 1.00 | 19.35 | 7.10 | 27.10 | 23.87 |
读法: (a) SFT 模型的 OOD 大塌方是论文最有说服力的论点 —— xLAM-2 V3 70.50 → V4 Web Search 5.00,跌 65 pp; 同样规模数据 SFT 训出来的 BitAgent 4.50。(b) Llama base 在 Memory 上的 Recursive Sum 是 26.45,Env Tuning 后反而掉到 10.32;ToolACE-2 也从 36.77 → 32.26。这是 negative trade-off:OOD generalization 是平均涨的、但某些子项是损的。(c) Web Search Avg 涨幅清晰 —— Llama-3.1 1.00 → 15.00 是 15×,这是论文最 cherry-picked 的数字。
4.3 ACEBench Agent split(advanced OOD)
| Model | Avg | Multi-turn | Multi-step |
|---|---|---|---|
| xLAM-2-8b-fc-r | 1.65 | 0.00 | 3.33 |
| BitAgent-8B | 5.00 | 10.00 | 0.00 |
| Llama-3.1-8B-Instruct (base) | 1.65 | 0.00 | 3.33 |
| + Environment Tuning | 4.17 | 5.00 | 3.33 |
| ToolACE-2 (SFT base) | 8.34 | 10.00 | 6.67 |
| + Environment Tuning | 15.00 (+6.66) | 10.00 | 20.00 (+13.33) |
| watt-tool-8B (SFT base) | 2.50 | 5.00 | 0.00 |
| + Environment Tuning | 7.50 | 0.00 | 15.00 |
读法: ACEBench 上所有模型都很差(absolute number 都两位数以下),作者用的是相对涨幅说服力 —— ToolACE-2 8.34 → 15.00 是 +80% relative。注意 multi-turn 维度上 watt-tool 是 5.00 → 0.00 的负迁移,作者没解释。
5 · Ablation — head-to-head 拆解课程
5.1 直接 GRPO 失败 vs 课程
Table 3(Qwen2.5-7B-Instruct, BFCL V3 ID):
| Setting | Avg | Base | M.Func | M.Param | L.Ctxt |
|---|---|---|---|---|---|
| Qwen2.5-7B base | 7.00 | 9.33 | 9.33 | 6.33 | 3.00 |
| + direct GRPO(0.9 R_P + 0.1 R_format) | 17.42 | 20.00 | 24.67 | 14.67 | 10.33 |
| + Stage 1 only | 15.50 | 19.00 | 22.33 | 9.33 | 11.33 |
| + through Stage 2 | 25.83 | 32.00 | 33.67 | 20.00 | 17.67 |
| + through Stage 3 | 32.00 | 44.67 | 34.33 | 25.33 | 23.67 |
| + through Stage 4 (full) | 36.92 | 50.33 | 40.33 | 29.33 | 27.67 |
关键观察:
- 课程 vs 直接 GRPO: 36.92 vs 17.42 = +19.50 pp 的纯课程效益。
- Stage 1 单独反而比 direct GRPO 还低(15.50 vs 17.42)—— 因为它只是学了格式,但完全没学任务。Stage 1 的价值是建立可用 gradient,不是直接出分。
- Stage 2 → 3 跳得最猛(+6.17 pp avg),这是引入 M.Param / M.Func / L.Ctxt 三种复杂 split 的效果。
- Stage 4 关 augmentation 后涨 +4.92,主要在 Base,部分 split 反而轻微下降(M.Func 40.33<41.00 是另一种衡量;这里没明显倒退)。
5.2 Augmentation 的贡献(Fig 4a, 仅曲线无表格)
论文给的是训练曲线(没数值表),叙述措辞: "For Missing Parameters and Missing Functions splits, Environment Augmentation brings substantial performance improvements of over 20%"。这两个 split 是ambiguity类(参数缺失要求 agent 反问、tool 缺失要求 agent 识别),恰好是 hint 给 actionable feedback 最有用的场景。
5.3 Progress Reward vs binary reward(Fig 4b)
- Stage 2 (Base) 上 binary reward 与 progress reward 差距不大;
- Stage 3 (M.Param + M.Func) 上 binary reward 训不起来,性能近零;
- L.Ctxt 上 progress reward 更稳定。
结论与 §3.4 一致: 稀疏 binary reward 在 long-horizon 上彻底失效,dense per-turn reward 是必需。
6 · 🔍 开源现状 — repo 实地清点
6.1 location
论文 abstract 原文: "The source code will be available under https://github.com/inclusionAI in the next version." 实际上 v1 发布时代码还没放,到 2026 年 1 月 v2 后才并入:
https://github.com/inclusionAI/AWorld-RL/tree/main/EnvTuning — 这是蚂蚁集团 AWorld 团队的 agentic RL 算法合集 repo的子目录, 与 FunReason / FunReason-MT / V2P / RAG-R1 同级 (即 AWorld-RL 本身是个 "蚂蚁出的所有 agentic RL 论文的总仓"; Environment Tuning 是其中一个算法子模块)。
主仓: AWorld-RL · github.com/inclusionAI/AWorld-RL
license: MIT(repo-level)
training stack: 基于 AWorld framework 上的 agentic RL —— 集成了 GRPO / DAPO / ProRL 的若干 trick
最新 commit / news: 2026/04/06 (FunReason ACL 2026 接收;EnvTuning 自身更新节奏未在 README 高亮)
6.2 复用矩阵
| artifact | 开源状态 | note |
|---|---|---|
| 训练代码 (curriculum + augmented env hooks) | ✓ MIT | EnvTuning 子目录,基于 AWorld framework |
| 训练数据 (BFCL V3 400 子集) | ✓ 用 BFCL 公开数据 | BFCL 自身 Apache-2.0,见 #28 |
| 训练后的 8B 模型 ckpt | 📦 部分 (HF: inclusionAI / 个人账号) | 论文未直接列单个 ckpt URL;Bingguang/IcyFish 账号下散落 |
| Augmented env spec (具体 hint 字典) | 📜 嵌入代码 | 不是独立 artifact,是 BFCL env 的 patch |
| 评测 harness | ✓ 直接用 BFCL/ACEBench 官方 | 无 fork |
6.3 复现门槛评估
- 训练数据极小(400 条) → 这是论文最强的实用卖点。
- GPU 需求: 论文未给(无 H100×N 描述、无总时长)。但基于 8B model + adapted GRPO + 400 sample + 4 stage,单节点 8×H100 ~ 1-2 天是合理量级估算 —— 比 TOUCAN(#22)(1.5M traj SFT)便宜 100×。
- 核心 IP 是 augmentation hint 字典: 这部分是手工 / 半 prompted 写出来的,如果想换 benchmark(BFCL → MCP-Universe 等),需要重新为目标 env 写一套 actionable hint,这是隐性的 manual labor。
- 本仓库 star / 流量在 v2 发布后才长,目前(2026-05)未在任何 frontier model card 中被引用。
7 · landscape — 它在 28 篇里的位置
7.1 与"tune the agent"系的对比
| 笔记 | 路线 | 对 env 的处理 | 训练数据规模 | OOD 表现 |
|---|---|---|---|---|
| #22 TOUCAN | SFT on synthetic traj | 真 MCP env(495 server)但只读回执 | 1.5M trajectory | BFCL 强,τ² 中等(论文自报) |
| #23 EnvScaler | Reinforce++ on synthetic env | 程序化造 env (191 个 Python class) | ~9K trajectory | BFCL-MT 41.88(超 GPT-4.1) |
| #18 AWM | GRPO on synthetic env | SQLite + Python 合成 1,000 env | 未公开 trajectory 数 | BFCLv3 8B 53.83→65.94 |
| #06 AgentGym-RL | ScalingInter-RL | 固定 env, 沿 horizon 维度做课程 | 27 task suite | 多域,未对比 BFCL |
| #13 RLAnything | 三件套联合优化(env+policy+reward) | 把 env 当 first-class 变量 | OSWorld 任务 | OSWorld +9.1% |
| #29 Env Tuning(本文) | adapted GRPO on augmented env | 把 env 的 error string 改成 hint | 400 problem instance | BFCL V3 36.92, V4 Web 15.00 (Qwen) |
7.2 与"造 env"系的关系
这篇明显不是造 env 的论文 —— 它假设 env 已经存在(BFCL),只是给现成 env 套了一层"actionable feedback wrapper"。所以它和 #18 AWM、#23 EnvScaler、#20 SETA 是正交关系:
- #18 AWM 解决"没有 env 怎么办 → 合成 1000 个"
- #23 EnvScaler 解决"每个 env 容量太小 → 程序化扩"
- #20 SETA 解决"怎么用 Docker 做真 terminal env"
- #29 (本文) 解决"已有 env 但 cold-start 训不起来 → 改 env 反馈"
更准确的对位是 #13 RLAnything 的 "env 作为可优化变量" 哲学;但 RLAnything 真正联合优化 env,这篇不优化 env,只是静态地把 env 改成更教学型。所以它是 RLAnything 的简化版(env 改造一次性人手完成,不是 RL 进化出来的)。
7.3 与 benchmark 系的关系
训练集是 #28 BFCL V3 Multi-Turn 的 4 个 split; OOD 测试是 BFCL V4 + ACEBench。未触碰 #25 MCP-Universe、#21 #26 的 MCP benchmark 家族。这意味着如果想知道 Environment Tuning 在 MCP 域是否成立,需要 community follow-up —— 这也是用户问的复用价值最大点。
8 · 局限 / 个人 take
8.1 实事求是的局限
- augmentation 字典是 manual labor:论文 §3.3 给的两个例子(airport code / file path)显然是手写的、绑定特定 BFCL tool。换到新 env 必须重新编写,不是 scalable 的方法。论文 §5 自己也承认: "automated mechanisms for curriculum and feedback generation" 是 future work。
- 评测域窄:只 BFCL + ACEBench。没碰 MCP / web / GUI / code。当前 SOTA 在 BFCL V3 上 xLAM-2 还是 70.50,环境调优后 watt-tool-Env Tuning 是 54.34 —— 没打过开源 SFT SOTA。论文用"OOD generalization 更好"来对冲这一点,但 ID 落后 16 pp 是事实。
- OOD 有 negative case:Memory Recursive Sum 上 Llama-3.1+Env Tuning 26.45 → 10.32, watt-tool multi-turn 5.00 → 0.00 —— "强 OOD generalization" 这个 claim 是平均下来成立,某些子项是损的。
- 没给 compute:GPU 数、时长、wall-clock cost 三个数字一个都没有。这对实用性评估是缺失。
- 对 Llama 系列的 RL 退化未深探:base Llama-3.1-8B + Env Tuning 只到 28.25,远低于 Qwen2.5-7B 同方法的 36.92。论文承认 "applying RL to Llama-based models has proven difficult" 但没给 Env Tuning 在这点上是否缓解的对比数据。
- v1 时代码没放:虽然 v2 (2026-01) 后并入 AWorld-RL,但 v1 (2025-10) → v2 中间 3 个月空窗期没有可复现物。
8.2 critical insight — 这篇真正的 paradigm contribution 在哪
最有价值的洞察不是"四阶段课程"也不是"progress reward" —— 这两件 RL agentic 圈早就在尝试。真正的 paradigm shift 是: 把 env 的 error string 当作 channel-of-information 而不是 channel-of-reward 来用。 Standard RL 圈一直把 "feedback" 等同于 reward(scalar),所有 reward shaping 论文都在这里折腾。这篇说: 你给 agent 一个 string 比给一个 scalar 信息量大得多 —— 因为 string 走 attention,attention 能 generalize,scalar 不能。这点和 "SFT 用 trajectory 教 dependency" 殊途同归(都是用 token 而非 reward 传授知识),区别在于这里 dependency 是由 env 在 agent 失败时 lazily 输入的,所以 agent 必须先探索失败才能学到。这是把"合成 trajectory 注释"内化为"env runtime feedback"的关键 trick。
8.3 critical limitation — 什么时候不要 "tune the environment"
当目标 env 已经被广泛部署、不可改写时(例如要训练一个能直接接生产 MCP server 的 agent),你无法修改 server 端的 error string —— rate-limit error 就是 rate-limit error,Slack API 不会给你"pedagogical hint"。这时 Environment Tuning 就退化成 "把训练 env 改造但测试 env 不变",而 Stage 4 (关 augmentation) 的存在就是为了缓解这一点 —— 但如果 production env 的 noise 与 BFCL standard env 差异巨大(例如有真 auth fail / 网络抖动),Stage 4 align 不一定足够。所以这方法更适合 controlled / sandboxed env(BFCL / ACEBench 都是),不太适合 wild MCP 环境(#25 MCP-Universe 真接 11 个 MCP server)。这也解释了为什么作者不评 MCP-Universe —— 不是技术能力不够,而是 augmentation 概念在那里不易落地。
8.4 一句话价值定位
Environment Tuning 是 agent RL "把 env 从黑盒变白盒、把 error 从 punish 变 teach" 这一思想的 ICLR 2026 代表作 —— 实证证明 400 条样本 + 改造 env 可以胜过 60K 条 SFT(在 OOD 上);但方法本身的 scalability 取决于 augmentation 字典能否自动化,而这是论文里的 open question。 对实践者最大的价值: 如果你有 BFCL-like 的 controlled env、想用 RL 但被 cold-start 卡住,把 env error string 加工成 hint 比改 RL loss 更好用 —— 这一点是 transferable 的 design 经验,即便论文本身不直接复用。
精读 · #29 · 2026-05 · arXiv:2510.10197 · code
cross-links: #06 · #13 · #18 · #20 · #22 · #23 · #25 · #26 · #28