Don't Just Fine-tune the Agent, Tune the Environment

Zhejiang University · Shanghai Innovation Institute · Westlake University · AWorld Team, Inclusion AI · Nanjing University
Siyuan Lu*, Zechuan Wang*, Hongxuan Zhang, Qintong Wu, Leilei Gan†, Chenyi Zhuang†, Jinjie Gu, Tao Lin† · 2025-10-11 (v1) · 2026-01-30 (v2) · ICLR 2026
*Equal contributions; work done during Siyuan & Zechuan 在蚂蚁集团实习期间 · †通讯作者
arXiv:2510.10197 · HTML · GitHub: inclusionAI/AWorld-RL/EnvTuning · HF Paper Page
关键词: environment tuning · 4-stage curriculum RL · actionable augmentation · fine-grained progress reward · BFCL V3/V4 · ACEBench · 400 problem instances · adapted GRPO+DAPO+ProRL

速读卡片 (TL;DR)

一句话: 这是 ICLR 2026 上由 蚂蚁集团 AWorld Team + 浙大 + 西湖大学 推的一个 agent RL 训练范式 —— 反对当前主流的 "合成 trajectory + SFT" 路线,也指出 "直接 GRPO RL 在 multi-turn tool use 上 70 步内就 collapse" 这件事的根因:环境本身没有教学能力。他们的解法 Environment Tuning = "把环境改造成会反馈、会给提示、会渐进出题的老师",而不是去改 agent 网络的训练 loss。具体三件套: (1) 四阶段课程(语法 → 基础 + 增强反馈 → 复杂 + 增强反馈 → alignment 关掉增强); (2) Actionable Environment Augmentation —— 把"No available route"改成"Invalid airport code[s]:..."这种实指性 pedagogical hint; (3) Fine-grained Progress Reward —— 按 turn 评 state·exec 两项,平均成 dense reward。只用 BFCL V3 的 400 条样本,把 Qwen2.5-7B-Instruct 从 7.00% 提到 36.92%,watt-tool-8B 从 35.74% 提到 54.34% 超过 GPT-4o / o3,OOD 上 Llama-3.1-8B-Instruct 在 BFCL V4 Web Search 从 1.00% 飙到 15.00%。

400
训练 problem instance — BFCL V3 4 个 split 各取 100
4 stages
语法 → 基础+aug → 复杂+aug → 关 aug align
+47.34 pp
Qwen2.5-7B BFCL V3 涨幅(7.00 → 36.92 vs GRPO 17.42)
+14.00 pp
Llama-3.1-8B BFCL V4 Web Search OOD 涨幅(1.00 → 15.00)

立场: 这是 agent 训练里"把 env 当 first-class 变量"的 ICLR 2026 代表作 —— 不发明新 RL 算法,而是认真把"环境提供什么反馈、什么时候提供、按什么难度"做成可调旋钮。和读过的 #06 AgentGym-RL(ScalingInter 课程 / 沿 horizon 维度)、#13 RLAnything(env+policy+reward 三者闭环联合优化) 是同一脉; 和 #22 TOUCAN(1.5M traj SFT)、#23 EnvScaler(扩 env 给 RL 用) 是路线分歧 —— 这篇说: 数据其实 400 条就够,但环境得改造。和 #28 BFCL 的关系最直接: 它把 BFCL V3 当训练集而不只是测试集用,且只用其中的 400 / 800 条。


1 · 背景 — "tune the agent" vs "tune the environment" 两条路线

1.1 multi-turn tool use 的三难

论文 §1 用三个 ℂ1/ℂ2/ℂ3 把问题钉死:

挑战论文措辞具体后果
ℂ1 数据稀缺 "BFCL V3 multi-turn 仅 800 样本" 传统 SFT scaling 走不通
ℂ2 环境复杂 "8 domain × 84 tool, 跨域 API + 编排" RL cold-start: 不够熟练的 agent 探索不出有意义的 rollout
ℂ3 长 interaction chain "任何一 turn 失败 → 全任务失败" 训练不稳定、gradient explosion、performance collapse

作者还放了一个非常关键的负面实验数字(§3.1):

"when fine-tuning Qwen2.5-7B-Instruct directly in a single-stage RL setup with 400 training instances, training collapsed within 70 steps, yielding a mere 10% improvement in success rate."

—— 这是他们立"不能直接 RL"的实证根据,也是后面四阶段课程存在的理由。

1.2 两条主流路线各自的失败模式

路线代表失败模式(论文措辞)
合成轨迹 SFT ToolACE-2, watt-tool, xLAM-2, TOUCAN(#22) 过拟合静态分布,OOD 崩塌(xLAM-2 在 BFCL V3 拿 70.50,到 BFCL V4 Web Search 掉到 5.00)
online RL on 原始 env ReCall, ARTIST, AgentGym-RL(#06) 稀疏 reward + cold-start → 70 步内 collapse, "yield only modest gains on BFCL"
Environment Tuning 本文 "shifting from trajectory-based imitation to environment-based exploration"

"Tune the Environment" 这个标题的 真实意思不是炒概念: 它指的是 —— 保持 agent 是普通的 GRPO RL agent,但是把 env 在训练阶段改成会主动反馈错因的 "augmented env",并按课程切换 env 难度和 reward 函数评测时 env 还原成标准 BFCL env(stage 4 关掉 augmentation 就是为了 align)。这是它与"环境 = 黑盒输入"传统 RL setup 的根本性差异。


2 · 核心方法 — 三件套 + 四阶段课程

2.1 一图看 Environment Tuning 的训练流水线

Stage 1 · 语法掌握 数据 split: 仅 Base 子集 · 环境: Standard(不 augment) · 目标: 让 agent 学会"环境能解析的 tool-call 格式" reward = I_tool · (R_format + R_tool) 其中 R_format = (N − C_format)/N, R_tool = C_correct/(C_correct + C_error), I_tool 仅 attempted tool-call 时为 1 → 不评估任务对错,只评 "well-formed 且 valid argument" Stage 2 · 基础学习(开启增强) 数据 split: 完整 Base split · 环境: Augmented · reward: Progress Reward R_P R_P = (1/T) Σ_t (r_t^state · r_t^exec) — 每 turn 评 state 改写 + exec 返回值两项 augmented env 的关键 trick: failure 时返回 实指性 hint 而非通用错 → 例: "Invalid airport code[s]:..."暗示 agent "需要先查 airport code" Stage 3 · 复杂场景(仍带增强) 数据 split: + Missing Param + Missing Func + Long-Context(完整 400 训练集) 环境: Augmented · reward: Progress Reward R_P(同 Stage 2) 目标: 学会处理 ambiguity / 识别 functional gap / 从噪声 context 检索 → ablation 显示这一步是涨分主力(Stage 2 → 3: +6.17 pp avg) Stage 4 · 与评测环境对齐(关闭增强) 数据 split: 完整 400 训练集 · 环境: Standard(关 augmentation) · reward: R_P 目标: 强迫 agent 在没有 pedagogical hint 时也能完成任务 — generalize 出去 → 关键: 评测时 BFCL/ACEBench 都是 standard env,这一步保证 train-test distribution match → Stage 4 涨幅 +4.92 pp,主要在 Base(+5.66)和 L.Ctxt(+4.00) Pillar 1: Structured Curriculum 4 阶段从简到难 用于 cold-start 缓解 ℂ2 Pillar 2: Actionable Env Aug 把通用错改成 pedagogical hint 教 tool 依赖 + 内部约束 Pillar 3: Progress Reward turn-by-turn state·exec dense reward 用于 reward sparsity 缓解 ℂ3
图: Environment Tuning 的四阶段课程 + 三大支柱。注意 Stage 1 用的是"task-agnostic"reward(只评格式),从 Stage 2 起切到 task-aware 的 Progress Reward;augmentation 在 Stage 2/3 开启,Stage 4 关闭以 align 评测分布。

2.2 训练算法 — adapted GRPO + decoupled clip + KL

RL 算法本身没有发明新东西,是 GRPO + DAPO + ProRL 的组合:

ℒ(θ) = −𝔼t[ min( rt(θ) Ât, clip(rt(θ), 1−εlow, 1+εhigh) Ât ) ] + β · DKLθ ∥ πref)
Ât(τ) = ( R(τ) − μ𝒢 ) / ( σ𝒢 + εA )

关键超参: β = 0.1(KL 系数,论文承认相对偏高,§D.3 有 justify), ε_low = 0.2, ε_high = 0.28(decoupled clip 来自 DAPO)。论文未给 GPU 数 / 训练总时长 / 总 token cost


3 · 关键设计 — "tune the environment" 究竟改了什么

3.1 Actionable Environment Augmentation 的两个层次

这是全文最 concrete 的 "到底改了 env 什么" 描述。§3.3 给了两个 case study:

层次caseStandard 返回Augmented 返回暗示给 agent 的是什么
inter-tool 依赖 BFCL Travel API "No available route" "Invalid airport code[s]:..." "先调另一个 tool 拿 airport code"
tool 内部约束 BFCL File System "FileNotFoundError" "Paths are not allowed. Specify only file/directory name..." "本环境的 rm 不接受 full path"

核心 insight: 不是改 reward 给提示,而是改 tool 的 error string 给提示。差别在于 —— hint 出现在 observation 里、走 agent 的语言通道、可以被 attention/CoT 利用;若放进 reward 里只是给 gradient 一个 scalar 信号,语义就丢了。这其实是把 "合成 trajectory 中老师写的注释" 内化进了 env 本身,让 agent 通过探索而非模仿学到。

3.2 Progress Reward 的两个组件

§3.4 + Appendix B 把 rt = rtstate · rtexec 拆得清楚:

每 turn 必须 两项都对才给 1。RP = 全 turn 平均 success rate。Ablation(§4.3, Fig 4b)显示: binary terminal reward 在 Missing Param / Missing Func split 上完全 train 不起来(性能近零),只有这个 dense 形式才让复杂 split 有 gradient。

3.3 课程为什么是四阶段不是三阶段

这点很 sneaky 但重要: 如果只到 Stage 3(带 augmentation 训完即评估),agent 会依赖 hint; 评测时 hint 没了就崩。Stage 4 的作用就是 "align with evaluation conditions" —— 把 agent 在 hint-free env 上再 finetune 一段,迫使它把"靠 hint 学到的 dependency 知识"内化为 policy。论文 Table 3 显示 Stage 4 在 Base split 上 +5.66 pp,但在 L.Ctxt 上反而 +4.00 pp 而 M.Func -0.67 pp、M.Param -0.67 pp —— 这是典型的"trade-off align in/out of curriculum"现象。


4 · ⭐ 评测的 benchmark — 全部 verbatim 分数

论文只评了 3 个 benchmark 家族(都是 function-calling/tool-use 域内),核心是 BFCL,V3 当 ID(in-distribution),V4 + ACEBench 当 OOD。

4.1 BFCL V3 Multi-Turn(ID, 4 split, 训练集所在地)

(Patil et al. 2025b. 总 800 条,作者切 100×4 = 400 训练 / 400 测试。完整 4 个 split 都进入训练,见 Stage 3。)

ModelAvgBaseM.FuncM.ParamL.Ctxt
Proprietary 参考线
Claude Sonnet 457.0063.0058.0051.0056.00
GPT-4o51.0059.0054.0041.0050.00
o349.2547.0055.0047.0048.00
Gemini 2.5 Pro28.7532.0029.0022.0032.00
Open-source SFT baseline
xLAM-2-8b-fc-r70.5077.8569.1565.8069.20
Arch-Agent-7B42.0547.1553.7534.2033.10
BitAgent-8B36.9947.8533.2026.1540.75
ToolACE-2-Llama-3.1-8B37.9948.8534.1525.2043.75
watt-tool-8B35.7445.8533.1525.2038.75
Base model + Environment Tuning
Qwen2.5-7B-Instruct (base)7.009.339.336.333.00
+ Environment Tuning36.92 (+29.92)50.33 (+41.00)40.33 (+31.00)29.33 (+23.00)27.67 (+24.67)
Llama-3.1-8B-Instruct (base)5.486.156.803.205.75
+ Environment Tuning28.25 (+22.77)28.20 (+22.05)25.85 (+19.05)22.15 (+18.95)36.80 (+31.05)
ToolACE-2 (SFT base)37.9948.8534.1525.2043.75
+ Environment Tuning47.18 (+9.19)55.20 (+6.35)38.15 (+4.00)38.20 (+13.00)57.15 (+13.40)
watt-tool-8B (SFT base)35.7445.8533.1525.2038.75
+ Environment Tuning54.34 (+18.50)64.15 (+18.30)48.15 (+15.00)40.20 (+15.00)64.85 (+26.10)

读法: (a) 在 ID 上 watt-tool + Env Tuning 54.34% 超过 Claude Sonnet 4(57.00)以外的所有 frontier(o3 49.25 / GPT-4o 51 / Gemini 28.75)—— 但仍输 xLAM-2-8b-fc-r 70.50。作者的说辞是 xLAM-2 训练数据有 60K 条而他们只用 400,且xLAM-2 在 OOD 上崩塌(下表)。(b) Qwen2.5-7B 从 7.00 → 36.92,是"近乎从零起步的 RL"凭 400 条就到 Gemini 2.5 Pro 同档(28.75)。

4.2 BFCL V4 Web Search + Memory(OOD)

(Patil 2025b 的新 track,网络数据 post-date 模型训练 cutoff,真 OOD。下面 base 行都是 Llama-3.1-8B-Instruct;Env Tuning 模型对比的是它们的 SFT 起点。)

ModelBFCL V4 Web SearchBFCL V4 Memory
AvgBaseNo SnippetAvgKVVectorRecursive Sum
xLAM-2-8b-fc-r5.008.002.0013.337.1014.1918.71
BitAgent-8B4.507.002.0010.322.5816.7711.61
Llama-3.1-8B-Instruct (base)1.001.001.0015.915.8115.4826.45
+ Environment Tuning15.0024.006.0018.0617.4226.4510.32
ToolACE-2 (SFT base)9.0013.005.0022.807.1024.5236.77
+ Environment Tuning14.0023.005.0019.578.3918.0632.26
watt-tool-8B (SFT base)4.005.003.0013.333.2314.1922.58
+ Environment Tuning8.0015.001.0019.357.1027.1023.87

读法: (a) SFT 模型的 OOD 大塌方是论文最有说服力的论点 —— xLAM-2 V3 70.50 → V4 Web Search 5.00,跌 65 pp; 同样规模数据 SFT 训出来的 BitAgent 4.50。(b) Llama base 在 Memory 上的 Recursive Sum 是 26.45,Env Tuning 后反而掉到 10.32;ToolACE-2 也从 36.77 → 32.26。这是 negative trade-off:OOD generalization 是平均涨的、但某些子项是损的。(c) Web Search Avg 涨幅清晰 —— Llama-3.1 1.00 → 15.00 是 15×,这是论文最 cherry-picked 的数字。

4.3 ACEBench Agent split(advanced OOD)

ModelAvgMulti-turnMulti-step
xLAM-2-8b-fc-r1.650.003.33
BitAgent-8B5.0010.000.00
Llama-3.1-8B-Instruct (base)1.650.003.33
+ Environment Tuning4.175.003.33
ToolACE-2 (SFT base)8.3410.006.67
+ Environment Tuning15.00 (+6.66)10.0020.00 (+13.33)
watt-tool-8B (SFT base)2.505.000.00
+ Environment Tuning7.500.0015.00

读法: ACEBench 上所有模型都很差(absolute number 都两位数以下),作者用的是相对涨幅说服力 —— ToolACE-2 8.34 → 15.00 是 +80% relative。注意 multi-turn 维度上 watt-tool 是 5.00 → 0.00 的负迁移,作者没解释。

评测覆盖小结: 论文只评了 BFCL V3 / BFCL V4 / ACEBench 三个 family,全是 BFCL 系或 BFCL 衍生(ACEBench 是 BFCL 风格的新出题)。没有 MCP 类 benchmark (没有 MCP-Universe / Atlas / τ²-Bench),也没有 web/GUI/code 类。这与 ICLR 2026 同期 #22 TOUCAN(BFCL+τ²+MCP-Universe)、#25 MCP-Universe(11 MCP server)、#28 BFCL V4 自身评测面相比要窄一些 —— 但全在 BFCL 同样的 state-based eval 范式内,这意味着 Progress Reward 的 rtstate · rtexec 形式刚好与评测 protocol 对齐,某种意义上是 over-engineered for BFCL。

5 · Ablation — head-to-head 拆解课程

5.1 直接 GRPO 失败 vs 课程

Table 3(Qwen2.5-7B-Instruct, BFCL V3 ID):

SettingAvgBaseM.FuncM.ParamL.Ctxt
Qwen2.5-7B base7.009.339.336.333.00
+ direct GRPO(0.9 R_P + 0.1 R_format)17.4220.0024.6714.6710.33
+ Stage 1 only15.5019.0022.339.3311.33
+ through Stage 225.8332.0033.6720.0017.67
+ through Stage 332.0044.6734.3325.3323.67
+ through Stage 4 (full)36.9250.3340.3329.3327.67

关键观察:

5.2 Augmentation 的贡献(Fig 4a, 仅曲线无表格)

论文给的是训练曲线(没数值表),叙述措辞: "For Missing Parameters and Missing Functions splits, Environment Augmentation brings substantial performance improvements of over 20%"。这两个 split 是ambiguity类(参数缺失要求 agent 反问、tool 缺失要求 agent 识别),恰好是 hint 给 actionable feedback 最有用的场景。

5.3 Progress Reward vs binary reward(Fig 4b)

结论与 §3.4 一致: 稀疏 binary reward 在 long-horizon 上彻底失效,dense per-turn reward 是必需。


6 · 🔍 开源现状 — repo 实地清点

6.1 location

论文 abstract 原文: "The source code will be available under https://github.com/inclusionAI in the next version." 实际上 v1 发布时代码还没放,到 2026 年 1 月 v2 后才并入:

https://github.com/inclusionAI/AWorld-RL/tree/main/EnvTuning — 这是蚂蚁集团 AWorld 团队的 agentic RL 算法合集 repo的子目录, 与 FunReason / FunReason-MT / V2P / RAG-R1 同级 (即 AWorld-RL 本身是个 "蚂蚁出的所有 agentic RL 论文的总仓"; Environment Tuning 是其中一个算法子模块)。

组织: inclusionAI(蚂蚁集团 InclusionAI org;含 AWorld、Ring-1T 等)
主仓: AWorld-RL · github.com/inclusionAI/AWorld-RL
license: MIT(repo-level)
training stack: 基于 AWorld framework 上的 agentic RL —— 集成了 GRPO / DAPO / ProRL 的若干 trick
最新 commit / news: 2026/04/06 (FunReason ACL 2026 接收;EnvTuning 自身更新节奏未在 README 高亮)

6.2 复用矩阵

artifact开源状态note
训练代码 (curriculum + augmented env hooks)✓ MITEnvTuning 子目录,基于 AWorld framework
训练数据 (BFCL V3 400 子集)✓ 用 BFCL 公开数据BFCL 自身 Apache-2.0,见 #28
训练后的 8B 模型 ckpt📦 部分 (HF: inclusionAI / 个人账号)论文未直接列单个 ckpt URL;Bingguang/IcyFish 账号下散落
Augmented env spec (具体 hint 字典)📜 嵌入代码不是独立 artifact,是 BFCL env 的 patch
评测 harness✓ 直接用 BFCL/ACEBench 官方无 fork

6.3 复现门槛评估


7 · landscape — 它在 28 篇里的位置

7.1 与"tune the agent"系的对比

笔记路线对 env 的处理训练数据规模OOD 表现
#22 TOUCAN SFT on synthetic traj 真 MCP env(495 server)但只读回执 1.5M trajectory BFCL 强,τ² 中等(论文自报)
#23 EnvScaler Reinforce++ on synthetic env 程序化造 env (191 个 Python class) ~9K trajectory BFCL-MT 41.88(超 GPT-4.1)
#18 AWM GRPO on synthetic env SQLite + Python 合成 1,000 env 未公开 trajectory 数 BFCLv3 8B 53.83→65.94
#06 AgentGym-RL ScalingInter-RL 固定 env, 沿 horizon 维度做课程 27 task suite 多域,未对比 BFCL
#13 RLAnything 三件套联合优化(env+policy+reward) 把 env 当 first-class 变量 OSWorld 任务 OSWorld +9.1%
#29 Env Tuning(本文) adapted GRPO on augmented env 把 env 的 error string 改成 hint 400 problem instance BFCL V3 36.92, V4 Web 15.00 (Qwen)

7.2 与"造 env"系的关系

这篇明显不是造 env 的论文 —— 它假设 env 已经存在(BFCL),只是给现成 env 套了一层"actionable feedback wrapper"。所以它和 #18 AWM、#23 EnvScaler、#20 SETA 是正交关系:

更准确的对位是 #13 RLAnything 的 "env 作为可优化变量" 哲学;但 RLAnything 真正联合优化 env,这篇不优化 env,只是静态地把 env 改成更教学型。所以它是 RLAnything 的简化版(env 改造一次性人手完成,不是 RL 进化出来的)。

7.3 与 benchmark 系的关系

训练集是 #28 BFCL V3 Multi-Turn 的 4 个 split; OOD 测试是 BFCL V4 + ACEBench。未触碰 #25 MCP-Universe、#21 #26 的 MCP benchmark 家族。这意味着如果想知道 Environment Tuning 在 MCP 域是否成立,需要 community follow-up —— 这也是用户问的复用价值最大点。


8 · 局限 / 个人 take

8.1 实事求是的局限

  1. augmentation 字典是 manual labor:论文 §3.3 给的两个例子(airport code / file path)显然是手写的、绑定特定 BFCL tool。换到新 env 必须重新编写,不是 scalable 的方法。论文 §5 自己也承认: "automated mechanisms for curriculum and feedback generation" 是 future work。
  2. 评测域窄:只 BFCL + ACEBench。没碰 MCP / web / GUI / code。当前 SOTA 在 BFCL V3 上 xLAM-2 还是 70.50,环境调优后 watt-tool-Env Tuning 是 54.34 —— 没打过开源 SFT SOTA。论文用"OOD generalization 更好"来对冲这一点,但 ID 落后 16 pp 是事实。
  3. OOD 有 negative case:Memory Recursive Sum 上 Llama-3.1+Env Tuning 26.45 → 10.32, watt-tool multi-turn 5.00 → 0.00 —— "强 OOD generalization" 这个 claim 是平均下来成立,某些子项是损的。
  4. 没给 compute:GPU 数、时长、wall-clock cost 三个数字一个都没有。这对实用性评估是缺失。
  5. 对 Llama 系列的 RL 退化未深探:base Llama-3.1-8B + Env Tuning 只到 28.25,远低于 Qwen2.5-7B 同方法的 36.92。论文承认 "applying RL to Llama-based models has proven difficult" 但没给 Env Tuning 在这点上是否缓解的对比数据。
  6. v1 时代码没放:虽然 v2 (2026-01) 后并入 AWorld-RL,但 v1 (2025-10) → v2 中间 3 个月空窗期没有可复现物。

8.2 critical insight — 这篇真正的 paradigm contribution 在哪

最有价值的洞察不是"四阶段课程"也不是"progress reward" —— 这两件 RL agentic 圈早就在尝试。真正的 paradigm shift 是: 把 env 的 error string 当作 channel-of-information 而不是 channel-of-reward 来用 Standard RL 圈一直把 "feedback" 等同于 reward(scalar),所有 reward shaping 论文都在这里折腾。这篇说: 你给 agent 一个 string 比给一个 scalar 信息量大得多 —— 因为 string 走 attention,attention 能 generalize,scalar 不能。这点和 "SFT 用 trajectory 教 dependency" 殊途同归(都是用 token 而非 reward 传授知识),区别在于这里 dependency 是由 env 在 agent 失败时 lazily 输入的,所以 agent 必须先探索失败才能学到。这是把"合成 trajectory 注释"内化为"env runtime feedback"的关键 trick。

8.3 critical limitation — 什么时候不要 "tune the environment"

当目标 env 已经被广泛部署、不可改写时(例如要训练一个能直接接生产 MCP server 的 agent),你无法修改 server 端的 error string —— rate-limit error 就是 rate-limit error,Slack API 不会给你"pedagogical hint"。这时 Environment Tuning 就退化成 "把训练 env 改造但测试 env 不变",而 Stage 4 (关 augmentation) 的存在就是为了缓解这一点 —— 但如果 production env 的 noise 与 BFCL standard env 差异巨大(例如有真 auth fail / 网络抖动),Stage 4 align 不一定足够。所以这方法更适合 controlled / sandboxed env(BFCL / ACEBench 都是),不太适合 wild MCP 环境(#25 MCP-Universe 真接 11 个 MCP server)。这也解释了为什么作者不评 MCP-Universe —— 不是技术能力不够,而是 augmentation 概念在那里不易落地。

8.4 一句话价值定位

Environment Tuning 是 agent RL "把 env 从黑盒变白盒、把 error 从 punish 变 teach" 这一思想的 ICLR 2026 代表作 —— 实证证明 400 条样本 + 改造 env 可以胜过 60K 条 SFT(在 OOD 上);但方法本身的 scalability 取决于 augmentation 字典能否自动化,而这是论文里的 open question。 对实践者最大的价值: 如果你有 BFCL-like 的 controlled env、想用 RL 但被 cold-start 卡住,把 env error string 加工成 hint 比改 RL loss 更好用 —— 这一点是 transferable 的 design 经验,即便论文本身不直接复用。


精读 · #29 · 2026-05 · arXiv:2510.10197 · code
cross-links: #06 · #13 · #18 · #20 · #22 · #23 · #25 · #26 · #28