Rethinking Agentic Reinforcement Learning In Large Language Models
速读卡片 (TL;DR)
一句话:这篇 position paper 主张把 LLM 训练范式从"单步 RLHF/RLVR 的退化 MDP"升格为"多步 POMDP 内的 Agentic RL"——LLM 不再是 passive responder,而是在 trajectory 上做长程决策的 proactive agent,这一框架天然把 planning / tool / memory / action 四件套接进 cumulative-return 的优化目标里。
立场:当前流行的 RLHF/DPO/GRPO 把 response 当独立样本、把 reward 当一次性 preference,这是 POMDP 的退化形式;只有在 cumulative return + partial observation + 多轮交互上做 RL 的系统才配叫 Agentic RL。
1 · 动机:为什么需要重新定义 Agentic RL
1.1 历史脉络:从 RLHF 单步偏好到 Agentic 多步轨迹
过去三年的 LLM 后训练史,可以画成一条从单步逐渐被迫长出多步的曲线:
论文给出的语境是: 早期 LLM 训练范式更像把 LLM 当"sophisticated auto-regressive predictor",RL 其实只在最后一步给一个 preference reward。这种结构跟传统 RL 几乎没什么共通点——传统 RL 关心的是 cumulative return over a trajectory。
转折点是两件事的耦合:
- Reasoning model 起飞(R1/o1):long-CoT 内部其实就是一条很长的 latent trajectory;
- 工具 / 浏览器 / 代码执行 被并入 inference 循环 (ReAct, ReTool, Search-R1):此时 trajectory 真的对外可见,且每一步的 observation 都不完整(网页只显示一部分,工具 output 有限)。
论文的判断是: 这两件事已经把 LLM 的 RL 变成了 POMDP,但学界仍在用 single-step 的 algorithm formalism 训它,这是不匹配的。
1.2 别的看法为什么不够
论文表 1 把现有 survey/work 拉在一张表上比较——大多数只覆盖 LLM、Agents、RL 三者的子集,真正把三件事融合的工作很少:
| 视角 | 关心什么 | 盲点 |
|---|---|---|
| 纯 LLM 视角 (post-training survey) | SFT / RLHF / DPO 的 alignment | 不谈 trajectory / agent |
| 纯 Agent 视角 (LLM agent survey) | ReAct / 工具 / planning 的 prompt patterns | 不谈 RL training, 大多 frozen LLM |
| 纯 RL 视角 (RL for LLM) | PPO/GRPO algorithm 改进 | 基本仍 single-step, 不考虑 multi-turn env |
| LLM × Agent (paper [56,102]) | 用 LLM 做 agent decision | 不训, 不优化, 是 prompt engineering |
| RL × Agent (经典 RL) | policy / value, MDP/POMDP | 不带 LLM, 没有 language reasoning |
| LLM × RL × Agent (本文 + Landscape Survey 2509) | 三件事必须并轨 | — |
现实问题: 一条多轮 tool-use trajectory 里,token-level 的 GRPO 优化 (single response 内的 advantage) 跟 trajectory-level 的 success/fail 信号是不同尺度的——前者太细,后者太粗。中间那一层(每一个 tool call 是不是好决策)就是 single-step 视角看不见的地方。
1.3 为什么 position-paper 级的重新定义是必要的
把这件事用一个公式说清楚: 假设一个 agent 任务有 H 步, 每步 observation ot ⊂ st (partial), action at 来自一个混合空间(natural language + tool call + memory write/read), 反馈 rt 来自 environment + verifier。
对比 RLHF / DPO / 标准 GRPO:
把 JRLHF 套进 Jagentic 的框架: 当且仅当 H=1, observation 完全可见, action 是单条 response 时, Jagentic 退化为 JRLHF。这就是论文标题里 "rethinking" 想戳破的点 —— 你以为你在做 RL,你其实只在做 single-step contextual bandit。
真实的 Agentic 任务上,论文论证三件事会出问题:
- credit assignment 错位: trajectory 终点 reward 被无差别地按 token 级 advantage 分摊到所有步骤,但只有 1-2 个 critical decision 真的承担因果——这是 StepPO[87]/HiPER[67] 试图修的事;
- partial observation 没建模: search-R1 里检索回来的网页是 ot,真实 web 状态 st 远不止这些。但 GRPO 不知道这件事,把 o 当 s 算 likelihood;
- memory / tool 当成 prompt 拼接: 没显式 modelling 它们改变 state transition 的事实,所以 reward shaping 看不到 "memory 写得好" 的功劳。
2 · 背景速查
| 术语 | 含义 |
|---|---|
| MDP | (S, A, P, R, γ)。state 全可观, transition Markov |
| POMDP | (S, A, O, P, Z, R, γ)。多了 observation set O 和 observation function Z(o|s,a)。Agent 看到 o ≠ 看到 s |
| Trajectory τ | (s₀, a₀, r₀, ..., sH),Agentic RL 优化的对象 |
| Cumulative return | Σ γt rt, 与 RLHF 的 single r 形成对照 |
| RLHF | 用人类 preference 训 reward model, 再 PPO 优化 LLM |
| RLVR | RL with Verifiable Reward, reward 来自一个可执行的 verifier (代码、数学、单元测试) |
| PPO | Schulman 2017。clipped ratio 控信任域 |
| GRPO | DeepSeekMath 2024。组内 reward 标准化代替 critic |
| DAPO | ByteDance 2025。clip-higher / dynamic sampling / token-level loss |
| GSPO | Qwen3。sequence-level importance ratio,稳 MoE |
| SAPO | Qwen 2025。soft adaptive (sigmoid gating) 替代 hard clip |
| ReAct | Thought→Action→Obs→Thought 的 prompting pattern |
| MCTS / UCB1 | 用搜索代替直接 sampling 的 planning paradigm |
3 · 核心论点:从退化 MDP 到 Agentic POMDP
论文最重要的概念图(我重画了一份),把三种 RL formulation 摆在一起:
3.1 数学符号对齐
| 对象 | RLHF 视角 | POMDP / Agentic 视角 |
|---|---|---|
| state | x (prompt) — 一次性 | st (latent), 包括 env 真状态 |
| observation | = state (没区分) | ot ∼ Z(·|st, at-1) |
| action | y (entire response) | at ∈ Atok ∪ Atool ∪ Amem |
| transition | 无 (退化为 bandit) | st+1 ∼ P(·|st, at) |
| reward | r(x,y) terminal | r(st, at) per-step |
| policy | πθ(y|x) | πθ(at|ht), ht = 历史 |
| objective | E[r(x,y)] | E[Σ γt rt] |
从这张对应表能看到:RLHF 不是 RL 的特例,而是 RL 的极端退化——所有时间维度都被压平成 1。把它拿去训需要长程决策的 agent,就像用平均速度优化一段曲线积分。
4 · Agentic Capability Taxonomy: Action / Plan / Memory / Tool
论文的 §2.1 用一个非常工整的 control-theoretic 分解给出 agent 能力分类。这是文中"建设性"部分,把 RL 框架要拥抱的四类基本组件拆开讲。
4.1 Action — interface of intervention
形式化分两类:
Q-function 的标准定义,以及 Bellman optimality:
论文指出: 预定义的 action space 在 open-ended scenario 下是 LLM agent 的根本枷锁。代表性补救:
- DynaSAUR [63] — 让 agent 动态生成并执行 program, action 边用边长出来,旧 action 进 reusable pool;
- SAND [104] — self-consistency sampling 候选 action + execution-guided critique, 反 over-commit;
- KnowAgent [131] — 用 action knowledge base 约束 planning trajectory, 反 hallucinated action;
- PRAct [52] — textual gradient 从 reflective engine 抽 actionable principle。
4.2 Planning — prospective reasoning
MCTS + UCB1 + 学到的 dynamics model:
关键观察 (来自 Webb et al. [97]): 大脑里 planning 是多个 component process 的协调(conflict monitoring, state prediction, task coordination)。LLM 单独做每件事都行, 但自主 coordinate 它们朝目标走仍然是难点——这是 brain-inspired agentic architecture 的动机。
另一个反直觉发现 [66]: ReAct 这类"每步前都 plan"的范式会因为 perpetual planning 的计算无限性而退化;但完全不 plan 又封死了上限。动态分配 test-time compute 才是答案。
4.3 Memory — temporal context integration
形式化从 LSTM 出发:
Ct = ft⊙Ct-1 + it⊙C̃t
到 DQN replay buffer:
论文的核心断言: LLM 没有 native long-term memory。现有 augmentation 大多是 static / heuristic pipeline,缺学到的 storage / retrieval control。Agentic RL 的工作:
- Memory-R1 [109] — 把 memory operation 当 action, 用 RL 学 read/write policy;
- Mem1 [129] — 端到端 RL 让 agent 在 constant memory budget 下处理长任务;
- Mem0 [9] — graph-based 表征对话中的 relational structure;
- MemoryBank [127] — 持久 memory 解 statelessness。
这四篇代表 LLM long-term memory 的两条平行演化路线: external storage + learned CRUD vs internal compressed state。📖 四篇串读合集 →
(注意我们的 sibling note 04_MemPalace 谈的就是这条线;01_DR-Venus、02_LiteResearcher 在 long-horizon retrieval 角度切入相关问题。)
4.4 Tools — external capability extension
Tool 形式化为黑盒函数 + 选择问题:
典型作品:
- ReAct [110] — interleaved reasoning + acting 的开山,设定了 thought→tool→obs 这条 backbone;
- FireAct [6] — 多任务多策略 fine-tuning, 数据多样性 > scale;
- ReTool [19] — 把 code execution 织进 long-form reasoning, RL 学"何时何地" invoke tool; 📖 单篇精读 →
- Search-R1 — 把搜索引擎织进 reasoning,定义了 retrieved-token masking 这个 agentic RL 训练栅栏,跟 ReTool 是同期姊妹工作(同框架,不同工具); 📖 单篇精读 →
论文反复强调一点: tool 不是装饰品,它改变 state transition P(st+1|st, at)。这意味着 tool 选错不止当下错,还会让后续 observation 整个偏。POMDP 框架本身天然能 model 这件事,bandit 框架做不到。
<think> / <search> 或 <code> tag,环境返回 <information> 或 <interpreter> 内容;RL 只对模型自己生成的 token 算梯度,外部返回的 token 全 mask 掉(retrieved-token masking)。如果不 mask,gradient 会试图"通过 LLM 解释检索结果"反向更新策略,训练立刻崩。两篇分别用 search engine / Python interpreter 做工具,但同样的 outcome-only reward + masking 配方都 work,这本身就是这条 line 的关键发现 — 见两篇单独精读。
5 · RL 算法谱系: PPO 一路演化到 DAPO/GSPO/SAPO
论文 §2.2 给了一份从 PPO 到 SAPO 的 algorithm timeline,我抽出关键节点和它们的特点:
5.1 关键 loss 摘录
PPO (Schulman 2017)
wt = πθ/πθ_old。actor-critic, critic 估 V。
GRPO (DeepSeekMath 2024)
同 prompt 抽 G 个 response,组内归一化代替 critic。省一半显存,稳定性靠 clip + KL。
DAPO (ByteDance 2025)
四件套:Clip-Higher (asymmetric clip 探索↑) + Dynamic Sampling (滤掉 reward 全 0/全 1 的 prompt) + Token-level loss (按 length sum 而非 mean) + Overlong Reward Shaping。AIME 50 分,只用一半 step。
GSPO (Qwen3 2025)
把 importance ratio 上升到 sequence level (几何平均/均匀对数平均),对 MoE expert routing variance 友好。
SAPO (Qwen 2025)
Hard clip → smooth sigmoid gate, asymmetric temperature 处理正负 advantage。Qwen3-VL 验证。
5.2 一个常被忽略的细节: token-level vs trajectory-level
论文反复 mention 但没明说的: 上面所有 algorithm 仍把 RL "做在一个 response 内部的 token 上"——单 episode、单回合、单 reward。要变成 Agentic, 必须扩展到 跨多回合的 trajectory-level credit assignment(StepPO 这条线)。
| Granularity | 谁在做 | 问题 |
|---|---|---|
| token-level | PPO/GRPO/DAPO | 同一 response 内所有 token 共享一个 advantage,粒度过细 |
| sequence-level | GSPO/SAPO | 对 MoE 友好,但仍是单 response |
| step/turn-level | StepPO/HiPER/Agent-Omit | 正确粒度,但 algorithm 还在早期 |
| trajectory-level | terminal reward + Monte Carlo | 方差极大,长任务难训 |
6 · 三大挑战 (论文 §3)
6.1 Environment — 训练环境本身要被优化
核心新框架: RLAnything [93] —— 把 environment 当成可被训练的对象而非 fixture。流程:
- 动态评估 task 难度 (用 strategy deduction 的 accuracy);
- 用 reward model 的错误分析反哺 language model 修改任务;
- quality control 保证修改有效。
这件事的洞察: 静态 benchmark 已经无法支撑长程 agent 的训练,环境必须跟 policy 共同演化。
6.2 Trustworthy — 多 agent + hallucination
- G-Safeguard [90] — 用 GNN 检测 multi-agent utterance graph 上的异常 + topological intervention 做 attack remediation;
- FSPO [41] — 反事实: RL 反而会增加 hallucination。用 evidence verification 动态调 token-level advantage,激励 factuality。
6.3 Capability Boundaries — RL 是否真能"突破"基模
论文引用 Yue et al. [115] 的关键质疑:RLVR 能不能让 LLM 突破 base model 的 capability boundary, 还是只是在重新分配概率质量? 现有解法两路:
- RL-PLUS [15] — hybrid policy: 内部 exploitation + 外部数据 → 用 multiple importance sampling 修正分布,exploration-based advantage 引导高价值路径;
- HiPER [67] — hierarchical: high-level planner + low-level executor + Hierarchical Advantage Estimation 解 sparse reward 下 credit assignment 不稳的问题;
- Summarization-based [54] — 把 tool history 压缩成 task-relevant summary, 在 compact RL 里同时学 tool-use 和 summarization 策略;
- Demystifying RL in agentic reasoning [114] — 关键发现: 真实 end-to-end tool-use trajectory 显著优于"拼接合成数据"做 SFT 初始化; 多样性 数据是 sustained exploration 的关键; 少 tool call 的深思熟虑 比频繁调用更好;
- StepPO [87] — step-level optimization 的位置定义。
6.4 System — 把 evaluative + directive 信号都从 next-state 里榨出来
- OpenClaw-RL [92] — 任何 agent 交互产生的 next-state 都是 live learning source: 用 PRM judge 抽 evaluative 标量 reward, 用 Hindsight-Guided OPD 蒸馏 directive 监督。统一对话/terminal/SWE 任务在一个 loop 里。
- ClawGUI [83] — 把"训练-评测-real-device 部署"合一,GUI agent lifecycle solution。
- MetaClaw [103] — continual meta-learning 框架, base policy + 自演化 skill library。
7 · Worked example: 一个数学+工具任务跑通框架
用一个具体任务把 §3 的 Agentic POMDP 框架 instantiate。任务: "317 mod 41 等于多少?"
7.1 退化 MDP 视角 (RLHF/GRPO 是怎么看的)
x = "3^17 mod 41 = ?"
y = "<think> 3^2=9, 3^4=81≡81−41=40≡−1, 3^8≡1, 3^16≡1,
3^17 = 3 · 3^16 ≡ 3 (mod 41) </think> \n
答案: 3"
r(x, y) = 1 (verifier 判等)
整个轨迹被压成一对 (x, y) → r。GRPO 在这一对上算 token-level advantage:
结果: "3^4=81−41=40" 这个关键 step 的 token 跟"\n答案:" 的废话 token 拿一样的 advantage。这是退化视角的根本缺陷。
7.2 Agentic POMDP 视角
同一个题, 把它放进 ReTool/ReAct 框架, 让 LLM 调用 Python 工具:
7.3 同一条 trajectory, 不同 algorithm 怎么处理
| 算法 | credit 怎么分 | 问题 |
|---|---|---|
| RLHF / DPO | 把整条压成一对 (x, y),按 preference 训 | tool_call 的因果完全丢失 |
| vanilla GRPO | token-level  = +1 / +1 / +1 / ... | "调 tool" 这个 step 跟"\n" token 同等重要 |
| DAPO + token-level loss | 同上但按长度归一 | 仍未识别 step 边界 |
| StepPO / HiPER | 识别 step 边界, 给 a₁ 更高 advantage | 正确视角, 但需 step segmentation |
| Memory-R1 / OpenClaw-RL | 从 next-state 里抽 evaluative + directive 双信号 | 需要 PRM judge / hindsight teacher |
反向论证: 如果不把 a₁ (调 tool 决策) 单独 credit,会发生什么? RL 训练后会观察到模型仍在生成"先 thought 再 thought 再 thought ... 然后给答案"这种 纯 CoT 风格 ——因为 tool_call 跟纯 CoT 在 reward 上没区别,而且 tool_call 在数据里占少数 token。这正是为什么单纯 GRPO 训不出 robust tool agent 的根因。
8 · 与同类工作对比
| 工作 | 类型 | 定位差异 |
|---|---|---|
| Landscape Survey 2509.02547 (Zhang et al.) | survey | 覆盖更全面,library-centric, breadth-first; 本文更position-paper, 聚焦概念重定义 |
| INTELLECT-3 (models/notes/08) | 具体训练 | Agentic RL 的实证落地: 用 RL 训能调工具的 30B 模型, 验证本文 §3 所主张的多步 trajectory 训练; 是"位置文章主张被实践"的例子 |
| NVIDIA NeMo-RL (spec-rl/notes/01) | 系统 | 关心的是 RL rollout 怎么更快, 与本文正交; 但二者结合即:用 spec decoding 加速 Agentic POMDP 的多步 rollout(后者轨迹更长,加速空间更大) |
| Kimi K2.5 Agent Swarm (models/notes/06) | 系统/方法 | Multi-agent rollout 实现, 把本文 §4 的 capability taxonomy 推到 multi-agent layer。本文的 single-agent POMDP 是 K2.5 swarm 的 building block |
| sibling 01 DR-Venus | data/RL | 研究 long-horizon retrieval 训练 — §6.3 capability boundary 的具体子问题 |
| sibling 02 LiteResearcher | agent 框架 | multi-step research agent, 印证 §3 多步 trajectory 必要性 |
| sibling 03 Agent-World | environment | 对应 §6.1 RLAnything 的同一类问题 |
| sibling 04 MemPalace | memory | 对应 §4.3 memory capability 的具体方法 |
9 · 局限 / 个人 take / 待验证问题
论文的局限
- Position 而非 quantitative.没有 benchmark 数据支持"Agentic POMDP 训出的 agent 比退化 MDP 训的强"——这是 follow-up 工作的事;
- POMDP 框架仍偏 abstract.真的怎么 estimate observation function Z(o|s,a)、怎么处理 latent state 都没具体方法论;
- 对 Trustworthy/Safety 章节笔墨偏少.对 multi-agent collusion / reward hacking 在长程 trajectory 下被放大的现象没深谈;
- 没区分 inference-time agent 和 training-time agent.很多被引方法 (ReAct, MCTS) 是纯 prompting,不涉及参数更新,严格讲不是"agentic RL"。
我的疑问 (待验证)
- POMDP 化框架在credit assignment 实际效果上是否真比 token-level GRPO 强?StepPO/HiPER 在 ALFWorld/SWE-bench 上的对比目前还没大规模复现;
- 论文的 capability taxonomy (action/plan/memory/tool) 与 Landscape Survey 2509 的分类有没有冲突?如果有,谁更适合做训练实践的指导?
- "environment as optimization target" (RLAnything) 实际上和 PBT/AutoML 有多少 overlap?是否新瓶装旧酒?
- 本文谈 multi-modal action space (token + tool + memory),但没讨论不同 action 维度的 advantage scale 如何归一化——这是工程上必爆的痛点;
- 把 LLM 当 POMDP policy 时, hidden state 是 KV cache 还是 context tokens?这俩的语义其实不同——前者随 layer 不同,后者是 first-class symbolic;
- 论文表 1 里 "Designs" 那一列只有自己打勾。从被引文献分布看,Landscape Survey 2509 也覆盖了同三件事。这种 self-positioning 是否过强?
个人 take
这篇 paper 的最大价值不在"提出了什么新方法",而在于给整个 field 提供了一组可以反复引用的 vocabulary:degenerate single-step MDP、Agentic POMDP、four-component taxonomy、step-level credit assignment。这些词在过去半年的论文里已经在自发出现,本文提供了把它们正式拼接起来的位置坐标。读者(尤其是工程读者)拿来给自己的 RL 训练 stack 做"我现在做的是 ① / ② / ③ 哪一档?"的自检很有用。
记忆点
公式 JRLHF 是 Jagentic 在 H=1, full obs, single action 时的极端退化
能力四件套 Action / Planning / Memory / Tools(围绕 LLM policy 中心)
算法谱系 PPO → GRPO → DAPO/GSPO/SAPO,但全在 single response 内打转
真正缺失 step/turn-level credit assignment(StepPO/HiPER 这条线还在早期)
挑战 Environment 要可优化 (RLAnything)、Trustworthy (G-Safeguard/FSPO)、Capability Boundary (RL-PLUS)
阅读组合 本文 + Survey 2509 + INTELLECT-3 + Kimi K2.5 ≈ Agentic RL 全栈观
精读笔记 v1 · 2026-05-09 · 配套论文 PDF: /data/szhang967/papers/paper-notes/agents/RethinkingAgenticRL_2604.27859.pdf