Rethinking Agentic Reinforcement Learning In Large Language Models

Cui, Zhu, Fang, Li, Li (Beijing / Shanghai) · 2026-05-06 · arXiv:2604.27859v2
关键词: Agentic RL · POMDP · planning · tool use · memory · paradigm shift

速读卡片 (TL;DR)

一句话:这篇 position paper 主张把 LLM 训练范式从"单步 RLHF/RLVR 的退化 MDP"升格为"多步 POMDP 内的 Agentic RL"——LLM 不再是 passive responder,而是在 trajectory 上做长程决策的 proactive agent,这一框架天然把 planning / tool / memory / action 四件套接进 cumulative-return 的优化目标里。

MDP → POMDP
paradigm 重定位
4 + 1
Action / Plan / Memory / Tool + Env
PPO→GSPO/SAPO
10+ derivative algorithms 谱系

立场:当前流行的 RLHF/DPO/GRPO 把 response 当独立样本、把 reward 当一次性 preference,这是 POMDP 的退化形式;只有在 cumulative return + partial observation + 多轮交互上做 RL 的系统才配叫 Agentic RL。


1 · 动机:为什么需要重新定义 Agentic RL

1.1 历史脉络:从 RLHF 单步偏好到 Agentic 多步轨迹

过去三年的 LLM 后训练史,可以画成一条从单步逐渐被迫长出多步的曲线:

2022 2023 2024 2025 2026 Single-Step "Degenerate MDP" RLHF · DPO · 单 prompt → 单 response → 单 reward Multi-Step Agentic POMDP tool / memory / web / env · trajectory return InstructGPT/RLHF DPO · ReAct GRPO · PPO-RLVR DAPO/Search-R1 GSPO/SAPO/ReTool StepPO · Agent-Omit 三年间被迫从 single-step 滑向 multi-step
一条肉眼可见的演化:RLHF/DPO 时代每个 (prompt, response) 是独立样本;到 Search-R1/ReTool 这一代,模型在一条轨迹里要 search → read → reason → answer,一次决策错了后面全错——这才是 RL 真正应该解决的问题。

论文给出的语境是: 早期 LLM 训练范式更像把 LLM 当"sophisticated auto-regressive predictor",RL 其实只在最后一步给一个 preference reward。这种结构跟传统 RL 几乎没什么共通点——传统 RL 关心的是 cumulative return over a trajectory

转折点是两件事的耦合:

论文的判断是: 这两件事已经把 LLM 的 RL 变成了 POMDP,但学界仍在用 single-step 的 algorithm formalism 训它,这是不匹配的。

1.2 别的看法为什么不够

论文表 1 把现有 survey/work 拉在一张表上比较——大多数只覆盖 LLM、Agents、RL 三者的子集,真正把三件事融合的工作很少:

视角关心什么盲点
纯 LLM 视角 (post-training survey)SFT / RLHF / DPO 的 alignment不谈 trajectory / agent
纯 Agent 视角 (LLM agent survey)ReAct / 工具 / planning 的 prompt patterns不谈 RL training, 大多 frozen LLM
纯 RL 视角 (RL for LLM)PPO/GRPO algorithm 改进基本仍 single-step, 不考虑 multi-turn env
LLM × Agent (paper [56,102])用 LLM 做 agent decision不训, 不优化, 是 prompt engineering
RL × Agent (经典 RL)policy / value, MDP/POMDP不带 LLM, 没有 language reasoning
LLM × RL × Agent (本文 + Landscape Survey 2509)三件事必须并轨

现实问题: 一条多轮 tool-use trajectory 里,token-level 的 GRPO 优化 (single response 内的 advantage) 跟 trajectory-level 的 success/fail 信号是不同尺度的——前者太细,后者太粗。中间那一层(每一个 tool call 是不是好决策)就是 single-step 视角看不见的地方。

1.3 为什么 position-paper 级的重新定义是必要的

把这件事用一个公式说清楚: 假设一个 agent 任务有 H 步, 每步 observation ot ⊂ st (partial), action at 来自一个混合空间(natural language + tool call + memory write/read), 反馈 rt 来自 environment + verifier。

Jagentic(θ) = Eτ ∼ πθ [ Σt=0..H γt · r(ot, at) ]

对比 RLHF / DPO / 标准 GRPO:

JRLHF(θ) = Ex∼D, y∼πθ(·|x) [ r(x, y) − β · KL(πθ || πref) ]

把 JRLHF 套进 Jagentic 的框架: 当且仅当 H=1, observation 完全可见, action 是单条 response 时, Jagentic 退化为 JRLHF。这就是论文标题里 "rethinking" 想戳破的点 —— 你以为你在做 RL,你其实只在做 single-step contextual bandit。

真实的 Agentic 任务上,论文论证三件事会出问题:

  1. credit assignment 错位: trajectory 终点 reward 被无差别地按 token 级 advantage 分摊到所有步骤,但只有 1-2 个 critical decision 真的承担因果——这是 StepPO[87]/HiPER[67] 试图修的事;
  2. partial observation 没建模: search-R1 里检索回来的网页是 ot,真实 web 状态 st 远不止这些。但 GRPO 不知道这件事,把 o 当 s 算 likelihood;
  3. memory / tool 当成 prompt 拼接: 没显式 modelling 它们改变 state transition 的事实,所以 reward shaping 看不到 "memory 写得好" 的功劳。
论文最锋利的一句话:"将 LLM 形式化为 PMDP 内的 policy πθ(a|s) 是关键(crucial),因为它承认了真实任务中固有的 uncertainty 和 sequential dependency"。— 翻译: 不写成 POMDP, 你就在假装这件事不存在。

2 · 背景速查

术语含义
MDP(S, A, P, R, γ)。state 全可观, transition Markov
POMDP(S, A, O, P, Z, R, γ)。多了 observation set O 和 observation function Z(o|s,a)。Agent 看到 o ≠ 看到 s
Trajectory τ(s₀, a₀, r₀, ..., sH),Agentic RL 优化的对象
Cumulative returnΣ γt rt, 与 RLHF 的 single r 形成对照
RLHF用人类 preference 训 reward model, 再 PPO 优化 LLM
RLVRRL with Verifiable Reward, reward 来自一个可执行的 verifier (代码、数学、单元测试)
PPOSchulman 2017。clipped ratio 控信任域
GRPODeepSeekMath 2024。组内 reward 标准化代替 critic
DAPOByteDance 2025。clip-higher / dynamic sampling / token-level loss
GSPOQwen3。sequence-level importance ratio,稳 MoE
SAPOQwen 2025。soft adaptive (sigmoid gating) 替代 hard clip
ReActThought→Action→Obs→Thought 的 prompting pattern
MCTS / UCB1用搜索代替直接 sampling 的 planning paradigm

3 · 核心论点:从退化 MDP 到 Agentic POMDP

论文最重要的概念图(我重画了一份),把三种 RL formulation 摆在一起:

① Degenerate single-step "MDP" (RLHF / DPO / vanilla GRPO 的视角) prompt x response y (single) scalar r(x,y) H=1, full obs, no transition ② Classical MDP (传统 RL: state 全可观, deterministic transition) s₀ a₀ s₁,r₀ a₁ → ... → s_H cumulative return, 但 obs = state ③ Agentic POMDP (本文主张): partial obs + 多轮 + 多模 action + 长程 reward s_t (隐) o_t (web片段) tool_call(query) memory.write(k,v) cot_token... env / Z(o|s,a) 环境给新观察, 非 deterministic s_{t+1} o_{t+1} → ... → Σ γt r_t trajectory return
三种 formulation 的差距。① 是当前 RLHF/GRPO 默认形态——本质是 contextual bandit;② 是经典 RL,有时间维度但状态全可观;③ 才是 Agentic 真实场景——隐 state + 噪声 observation + 多模 action(tool / memory / token mixed) + 长程 reward。从 ① 跳到 ③ 不是"细化",是问题类型变了

3.1 数学符号对齐

对象RLHF 视角POMDP / Agentic 视角
statex (prompt) — 一次性st (latent), 包括 env 真状态
observation= state (没区分)ot ∼ Z(·|st, at-1)
actiony (entire response)at ∈ Atok ∪ Atool ∪ Amem
transition无 (退化为 bandit)st+1 ∼ P(·|st, at)
rewardr(x,y) terminalr(st, at) per-step
policyπθ(y|x)πθ(at|ht), ht = 历史
objectiveE[r(x,y)]E[Σ γt rt]

从这张对应表能看到:RLHF 不是 RL 的特例,而是 RL 的极端退化——所有时间维度都被压平成 1。把它拿去训需要长程决策的 agent,就像用平均速度优化一段曲线积分。


4 · Agentic Capability Taxonomy: Action / Plan / Memory / Tool

论文的 §2.1 用一个非常工整的 control-theoretic 分解给出 agent 能力分类。这是文中"建设性"部分,把 RL 框架要拥抱的四类基本组件拆开讲。

LLM Agent πθ Action A 离散/连续/程序 DynaSAUR · SAND · KnowAgent · PRAct Planning prospective reasoning MCTS/UCB1 · ReAct DynaPlan · PilotRL Memory temporal context Memory-R1 · Mem0 · Mem1 Tools external capability ReAct · ReTool FireAct · summarization Environment (web · OS · code · GUI · embodied)
论文 Fig.1 的语义还原。中心是 LLM policy,周边四向各管一个能力维度;最外环是 environment。Agentic RL 的训练目标 = 让 πθ这四个维度上同时做出可被 reward 评价的决策。注意 "memory write" 本身就是一个 action,不只是 buffer。

4.1 Action — interface of intervention

形式化分两类:

A = {a(1), ..., a(N)} (discrete) · A ⊆ ℝd (continuous)

Q-function 的标准定义,以及 Bellman optimality:

Qπ(s,a) = Eπ[ Σ γk Rt+k | St=s, At=a ]

论文指出: 预定义的 action space 在 open-ended scenario 下是 LLM agent 的根本枷锁。代表性补救:

4.2 Planning — prospective reasoning

MCTS + UCB1 + 学到的 dynamics model:

at = argmaxa [ Q(s,a) + c · √(ln N(s) / (N(s,a)+ε)) ]
ŝt+1 = f̂θ(st, at), min Σ γkt+k s.t. dynamics

关键观察 (来自 Webb et al. [97]): 大脑里 planning 是多个 component process 的协调(conflict monitoring, state prediction, task coordination)。LLM 单独做每件事都行, 但自主 coordinate 它们朝目标走仍然是难点——这是 brain-inspired agentic architecture 的动机。

另一个反直觉发现 [66]: ReAct 这类"每步前都 plan"的范式会因为 perpetual planning 的计算无限性而退化;但完全不 plan 又封死了上限。动态分配 test-time compute 才是答案。

4.3 Memory — temporal context integration

形式化从 LSTM 出发:

it, ft, õt = σ(W·[ht-1,xt]+b)
Ct = ft⊙Ct-1 + it⊙C̃t

到 DQN replay buffer:

D = {(si,ai,ri,s'i,di)}Ni=1, B ∼ U(D)

论文的核心断言: LLM 没有 native long-term memory。现有 augmentation 大多是 static / heuristic pipeline,缺学到的 storage / retrieval control。Agentic RL 的工作:

这四篇代表 LLM long-term memory 的两条平行演化路线: external storage + learned CRUD vs internal compressed state。📖 四篇串读合集 →

(注意我们的 sibling note 04_MemPalace 谈的就是这条线;01_DR-Venus02_LiteResearcher 在 long-horizon retrieval 角度切入相关问题。)

4.4 Tools — external capability extension

Tool 形式化为黑盒函数 + 选择问题:

yt = Ti(xt; θT) ; p(Ti|st) = Softmax(WT·φ(st))
Thoughtt → Actiont (tool call) → Obst+1 → Thoughtt+1

典型作品:

论文反复强调一点: tool 不是装饰品,它改变 state transition P(st+1|st, at)。这意味着 tool 选错不止当下错,还会让后续 observation 整个偏。POMDP 框架本身天然能 model 这件事,bandit 框架做不到。

奠基双胞胎:Search-R1 (2025-03) & ReTool (2025-04) — 这两篇定义了 agentic RL 训练 LLM tool-use 的事实标准:模型在 trajectory 里穿插 <think> / <search><code> tag,环境返回 <information><interpreter> 内容;RL 只对模型自己生成的 token 算梯度,外部返回的 token 全 mask 掉(retrieved-token masking)。如果不 mask,gradient 会试图"通过 LLM 解释检索结果"反向更新策略,训练立刻崩。两篇分别用 search engine / Python interpreter 做工具,但同样的 outcome-only reward + masking 配方都 work,这本身就是这条 line 的关键发现 — 见两篇单独精读。

5 · RL 算法谱系: PPO 一路演化到 DAPO/GSPO/SAPO

论文 §2.2 给了一份从 PPO 到 SAPO 的 algorithm timeline,我抽出关键节点和它们的特点:

2017 2023 2024 2025 H1 2025 H2 PPO clipped ratio DPO no reward model SimPO/KTO GRPO group-relative,no critic VinePPO/VAPO DAPO clip-higher · dyn sample GSPO seq-level ratio (MoE) GMPO/TreePO/PSGPO SAPO soft sigmoid gate 演化主线: critic 取消 → 组内归一 → 长序列 / MoE 适配 → 软化 clip
从 PPO 到 SAPO,RL-for-LLM 算法走过的路。注意所有这些算法仍在 single-step formulation 内打转——它们解决的都是"如何稳定地从一个 (prompt, response) batch 提取梯度",而不是"如何处理 partial obs 与 long horizon"。后者是 StepPO/HiPER/Agent-Omit 这一辈正在攻的。

5.1 关键 loss 摘录

PPO (Schulman 2017)
JPPO = E[ min(wt Ât, clip(wt, 1−ε, 1+ε) Ât) ]

wt = πθθ_old。actor-critic, critic 估 V。

GRPO (DeepSeekMath 2024)
Âi = (ri − mean(r)) / std(r) , 按 token broadcast

同 prompt 抽 G 个 response,组内归一化代替 critic。省一半显存,稳定性靠 clip + KL。

DAPO (ByteDance 2025)

四件套:Clip-Higher (asymmetric clip 探索↑) + Dynamic Sampling (滤掉 reward 全 0/全 1 的 prompt) + Token-level loss (按 length sum 而非 mean) + Overlong Reward Shaping。AIME 50 分,只用一半 step。

GSPO (Qwen3 2025)
wi = exp( (1/|yi|) Σt log π/πold )

把 importance ratio 上升到 sequence level (几何平均/均匀对数平均),对 MoE expert routing variance 友好。

SAPO (Qwen 2025)
f(x) = σ(τ(x−1)) · 4/τ , τpos ≠ τneg

Hard clip → smooth sigmoid gate, asymmetric temperature 处理正负 advantage。Qwen3-VL 验证。

5.2 一个常被忽略的细节: token-level vs trajectory-level

论文反复 mention 但没明说的: 上面所有 algorithm 仍把 RL "做在一个 response 内部的 token 上"——单 episode、单回合、单 reward。要变成 Agentic, 必须扩展到 跨多回合的 trajectory-level credit assignment(StepPO 这条线)。

Granularity谁在做问题
token-levelPPO/GRPO/DAPO同一 response 内所有 token 共享一个 advantage,粒度过细
sequence-levelGSPO/SAPO对 MoE 友好,但仍是单 response
step/turn-levelStepPO/HiPER/Agent-Omit正确粒度,但 algorithm 还在早期
trajectory-levelterminal reward + Monte Carlo方差极大,长任务难训

6 · 三大挑战 (论文 §3)

6.1 Environment — 训练环境本身要被优化

核心新框架: RLAnything [93] —— 把 environment 当成可被训练的对象而非 fixture。流程:

  1. 动态评估 task 难度 (用 strategy deduction 的 accuracy);
  2. 用 reward model 的错误分析反哺 language model 修改任务;
  3. quality control 保证修改有效。

这件事的洞察: 静态 benchmark 已经无法支撑长程 agent 的训练,环境必须跟 policy 共同演化

6.2 Trustworthy — 多 agent + hallucination

6.3 Capability Boundaries — RL 是否真能"突破"基模

论文引用 Yue et al. [115] 的关键质疑:RLVR 能不能让 LLM 突破 base model 的 capability boundary, 还是只是在重新分配概率质量? 现有解法两路:

6.4 System — 把 evaluative + directive 信号都从 next-state 里榨出来


7 · Worked example: 一个数学+工具任务跑通框架

用一个具体任务把 §3 的 Agentic POMDP 框架 instantiate。任务: "317 mod 41 等于多少?"

7.1 退化 MDP 视角 (RLHF/GRPO 是怎么看的)

x = "3^17 mod 41 = ?"
y = "<think> 3^2=9, 3^4=81≡81−41=40≡−1, 3^8≡1, 3^16≡1,
       3^17 = 3 · 3^16 ≡ 3 (mod 41) </think> \n
     答案: 3"
r(x, y) = 1   (verifier 判等)

整个轨迹被压成一对 (x, y) → r。GRPO 在这一对上算 token-level advantage:

Âtoken = (1 − mean) / std,所有 token 共享

结果: "3^4=81−41=40" 这个关键 step 的 token 跟"\n答案:" 的废话 token 拿一样的 advantage。这是退化视角的根本缺陷。

7.2 Agentic POMDP 视角

同一个题, 把它放进 ReTool/ReAct 框架, 让 LLM 调用 Python 工具:

t=0 o₀ = "3^17 mod 41 = ?" a₀ = thought("先化简指数: 17 = 16+1, 而 3^4 ≡ −1 (mod 41)") r₀ = 0 (no terminal signal yet), s₀ 包含全部隐变量 t=1 o₁ = thought 之后 KV cache 状态 a₁ = tool_call(python, "pow(3, 17, 41)") r₁ = 0 (中间步骤), 这一步改变 P(s₂|s₁,a₁) t=2 o₂ = tool_response("3") ← partial: agent 看到 "3", 不知道 Python 内部用了什么算法 a₂ = memory.write("3^17 mod 41 = 3") r₂ = 0 t=3 o₃ = updated history a₃ = answer("3") r₃ = +1 (verifier 判等) trajectory τ = (o₀,a₀,...,o₃,a₃,r₃), cumulative return G = 1 (γ=1) 优化目标: J = Eτ[Σ rt] —— 反向传播给每一步的 at credit assignment 应能识别: a₁ (调 tool) 是 critical decision, 比 a₀ 重要
同一题在 Agentic POMDP 下的 trajectory 展开。注意三件事: ① observation 是 partial 的(t=2 的 tool 输出只有一个数字,真实 state 含 Python interpreter 内部上下文);② action 是 mixed-modal(thought / tool_call / memory_write / answer 各有自己的子空间);③ reward 是稀疏的,只在 t=3 出现。这正是 RLHF/GRPO 看不到的结构。

7.3 同一条 trajectory, 不同 algorithm 怎么处理

算法credit 怎么分问题
RLHF / DPO把整条压成一对 (x, y),按 preference 训tool_call 的因果完全丢失
vanilla GRPOtoken-level  = +1 / +1 / +1 / ..."调 tool" 这个 step 跟"\n" token 同等重要
DAPO + token-level loss同上但按长度归一仍未识别 step 边界
StepPO / HiPER识别 step 边界, 给 a₁ 更高 advantage正确视角, 但需 step segmentation
Memory-R1 / OpenClaw-RL从 next-state 里抽 evaluative + directive 双信号需要 PRM judge / hindsight teacher

反向论证: 如果不把 a₁ (调 tool 决策) 单独 credit,会发生什么? RL 训练后会观察到模型仍在生成"先 thought 再 thought 再 thought ... 然后给答案"这种 纯 CoT 风格 ——因为 tool_call 跟纯 CoT 在 reward 上没区别,而且 tool_call 在数据里占少数 token。这正是为什么单纯 GRPO 训不出 robust tool agent 的根因。


8 · 与同类工作对比

工作类型定位差异
Landscape Survey 2509.02547 (Zhang et al.)survey覆盖更全面,library-centric, breadth-first; 本文更position-paper, 聚焦概念重定义
INTELLECT-3 (models/notes/08)具体训练Agentic RL 的实证落地: 用 RL 训能调工具的 30B 模型, 验证本文 §3 所主张的多步 trajectory 训练; 是"位置文章主张被实践"的例子
NVIDIA NeMo-RL (spec-rl/notes/01)系统关心的是 RL rollout 怎么更快, 与本文正交; 但二者结合即:用 spec decoding 加速 Agentic POMDP 的多步 rollout(后者轨迹更长,加速空间更大)
Kimi K2.5 Agent Swarm (models/notes/06)系统/方法Multi-agent rollout 实现, 把本文 §4 的 capability taxonomy 推到 multi-agent layer。本文的 single-agent POMDP 是 K2.5 swarm 的 building block
sibling 01 DR-Venusdata/RL研究 long-horizon retrieval 训练 — §6.3 capability boundary 的具体子问题
sibling 02 LiteResearcheragent 框架multi-step research agent, 印证 §3 多步 trajectory 必要性
sibling 03 Agent-Worldenvironment对应 §6.1 RLAnything 的同一类问题
sibling 04 MemPalacememory对应 §4.3 memory capability 的具体方法
读法建议: 本文 + Landscape Survey 2509 一起读最划算。前者给概念框架,后者给方法穷举。再加 INTELLECT-3 / Kimi K2.5 看实证落地。如果只读一份, 本文的 §3 (Agentic POMDP framing) 和 §4 capability taxonomy 是新读者最快"对齐到 Agentic RL 思维方式"的入口。

9 · 局限 / 个人 take / 待验证问题

论文的局限

我的疑问 (待验证)

  1. POMDP 化框架在credit assignment 实际效果上是否真比 token-level GRPO 强?StepPO/HiPER 在 ALFWorld/SWE-bench 上的对比目前还没大规模复现;
  2. 论文的 capability taxonomy (action/plan/memory/tool) 与 Landscape Survey 2509 的分类有没有冲突?如果有,谁更适合做训练实践的指导?
  3. "environment as optimization target" (RLAnything) 实际上和 PBT/AutoML 有多少 overlap?是否新瓶装旧酒?
  4. 本文谈 multi-modal action space (token + tool + memory),但没讨论不同 action 维度的 advantage scale 如何归一化——这是工程上必爆的痛点;
  5. 把 LLM 当 POMDP policy 时, hidden state 是 KV cache 还是 context tokens?这俩的语义其实不同——前者随 layer 不同,后者是 first-class symbolic;
  6. 论文表 1 里 "Designs" 那一列只有自己打勾。从被引文献分布看,Landscape Survey 2509 也覆盖了同三件事。这种 self-positioning 是否过强?

个人 take

这篇 paper 的最大价值不在"提出了什么新方法",而在于给整个 field 提供了一组可以反复引用的 vocabulary:degenerate single-step MDP、Agentic POMDP、four-component taxonomy、step-level credit assignment。这些词在过去半年的论文里已经在自发出现,本文提供了把它们正式拼接起来的位置坐标。读者(尤其是工程读者)拿来给自己的 RL 训练 stack 做"我现在做的是 ① / ② / ③ 哪一档?"的自检很有用。


记忆点

立场 RLHF/DPO/GRPO 都是 single-step degenerate MDP, 不是真 RL;真 RL = Agentic POMDP
公式 JRLHF 是 Jagentic 在 H=1, full obs, single action 时的极端退化
能力四件套 Action / Planning / Memory / Tools(围绕 LLM policy 中心)
算法谱系 PPO → GRPO → DAPO/GSPO/SAPO,但全在 single response 内打转
真正缺失 step/turn-level credit assignment(StepPO/HiPER 这条线还在早期)
挑战 Environment 要可优化 (RLAnything)、Trustworthy (G-Safeguard/FSPO)、Capability Boundary (RL-PLUS)
阅读组合 本文 + Survey 2509 + INTELLECT-3 + Kimi K2.5 ≈ Agentic RL 全栈观

精读笔记 v1 · 2026-05-09 · 配套论文 PDF: /data/szhang967/papers/paper-notes/agents/RethinkingAgenticRL_2604.27859.pdf