Rethinking Agentic Reinforcement Learning In Large Language Models

Cui, Zhu, Fang, Li, Li (Beijing / Shanghai) · 2026-05-06 · arXiv:2604.27859v2
关键词: Agentic RL · POMDP · planning · tool use · memory · paradigm shift

速读卡片 (TL;DR)

一句话:这篇 position paper 主张把 LLM 训练范式从"单步 RLHF/RLVR 的退化 MDP"升格为"多步 POMDP 内的 Agentic RL"——LLM 不再是 passive responder,而是在 trajectory 上做长程决策的 proactive agent,这一框架天然把 planning / tool / memory / action 四件套接进 cumulative-return 的优化目标里。

MDP → POMDP

paradigm 重定位

4 + 1

Action / Plan / Memory / Tool + Env

PPO→GSPO/SAPO

10+ derivative algorithms 谱系

立场:当前流行的 RLHF/DPO/GRPO 把 response 当独立样本、把 reward 当一次性 preference,这是 POMDP 的退化形式;只有在 cumulative return + partial observation + 多轮交互上做 RL 的系统才配叫 Agentic RL。

1 · 动机:为什么需要重新定义 Agentic RL

1.1 历史脉络:从 RLHF 单步偏好到 Agentic 多步轨迹

过去三年的 LLM 后训练史,可以画成一条从单步逐渐被迫长出多步的曲线:

一条肉眼可见的演化:RLHF/DPO 时代每个 (prompt, response) 是独立样本;到 Search-R1/ReTool 这一代,模型在一条轨迹里要 search → read → reason → answer,一次决策错了后面全错——这才是 RL 真正应该解决的问题。

论文给出的语境是: 早期 LLM 训练范式更像把 LLM 当"sophisticated auto-regressive predictor",RL 其实只在最后一步给一个 preference reward。这种结构跟传统 RL 几乎没什么共通点——传统 RL 关心的是 cumulative return over a trajectory。

转折点是两件事的耦合:

Reasoning model 起飞(R1/o1):long-CoT 内部其实就是一条很长的 latent trajectory;
工具 / 浏览器 / 代码执行 被并入 inference 循环 (ReAct, ReTool, Search-R1):此时 trajectory 真的对外可见,且每一步的 observation 都不完整(网页只显示一部分,工具 output 有限)。

论文的判断是: 这两件事已经把 LLM 的 RL 变成了 POMDP,但学界仍在用 single-step 的 algorithm formalism 训它,这是不匹配的。

1.2 别的看法为什么不够

论文表 1 把现有 survey/work 拉在一张表上比较——大多数只覆盖 LLM、Agents、RL 三者的子集,真正把三件事融合的工作很少:

视角	关心什么	盲点
纯 LLM 视角 (post-training survey)	SFT / RLHF / DPO 的 alignment	不谈 trajectory / agent
纯 Agent 视角 (LLM agent survey)	ReAct / 工具 / planning 的 prompt patterns	不谈 RL training, 大多 frozen LLM
纯 RL 视角 (RL for LLM)	PPO/GRPO algorithm 改进	基本仍 single-step, 不考虑 multi-turn env
LLM × Agent (paper [56,102])	用 LLM 做 agent decision	不训, 不优化, 是 prompt engineering
RL × Agent (经典 RL)	policy / value, MDP/POMDP	不带 LLM, 没有 language reasoning
LLM × RL × Agent (本文 + Landscape Survey 2509)	三件事必须并轨	—

现实问题: 一条多轮 tool-use trajectory 里,token-level 的 GRPO 优化 (single response 内的 advantage) 跟 trajectory-level 的 success/fail 信号是不同尺度的——前者太细,后者太粗。中间那一层(每一个 tool call 是不是好决策)就是 single-step 视角看不见的地方。

1.3 为什么 position-paper 级的重新定义是必要的

把这件事用一个公式说清楚: 假设一个 agent 任务有 H 步, 每步 observation o_t ⊂ s_t (partial), action a_t 来自一个混合空间(natural language + tool call + memory write/read), 反馈 r_t 来自 environment + verifier。

J_agentic(θ) = E_{τ ∼ π_θ} [ Σ_t=0..H γ^t · r(o_t, a_t) ]

对比 RLHF / DPO / 标准 GRPO:

J_RLHF(θ) = E_{x∼D, y∼π_θ(·|x)} [ r(x, y) − β · KL(π_θ || π_ref) ]

把 J_RLHF 套进 J_agentic 的框架: 当且仅当 H=1, observation 完全可见, action 是单条 response 时, J_agentic 退化为 J_RLHF。这就是论文标题里 "rethinking" 想戳破的点 —— 你以为你在做 RL,你其实只在做 single-step contextual bandit。

真实的 Agentic 任务上,论文论证三件事会出问题:

credit assignment 错位: trajectory 终点 reward 被无差别地按 token 级 advantage 分摊到所有步骤,但只有 1-2 个 critical decision 真的承担因果——这是 StepPO[87]/HiPER[67] 试图修的事;
partial observation 没建模: search-R1 里检索回来的网页是 o_t,真实 web 状态 s_t 远不止这些。但 GRPO 不知道这件事,把 o 当 s 算 likelihood;
memory / tool 当成 prompt 拼接: 没显式 modelling 它们改变 state transition 的事实,所以 reward shaping 看不到 "memory 写得好" 的功劳。

论文最锋利的一句话:"将 LLM 形式化为 PMDP 内的 policy π_θ(a|s) 是关键(crucial),因为它承认了真实任务中固有的 uncertainty 和 sequential dependency"。— 翻译: 不写成 POMDP, 你就在假装这件事不存在。

2 · 背景速查

术语	含义
MDP	(S, A, P, R, γ)。state 全可观, transition Markov
POMDP	(S, A, O, P, Z, R, γ)。多了 observation set O 和 observation function Z(o\|s,a)。Agent 看到 o ≠ 看到 s
Trajectory τ	(s₀, a₀, r₀, ..., s_H),Agentic RL 优化的对象
Cumulative return	Σ γ^t r_t, 与 RLHF 的 single r 形成对照
RLHF	用人类 preference 训 reward model, 再 PPO 优化 LLM
RLVR	RL with Verifiable Reward, reward 来自一个可执行的 verifier (代码、数学、单元测试)
PPO	Schulman 2017。clipped ratio 控信任域
GRPO	DeepSeekMath 2024。组内 reward 标准化代替 critic
DAPO	ByteDance 2025。clip-higher / dynamic sampling / token-level loss
GSPO	Qwen3。sequence-level importance ratio,稳 MoE
SAPO	Qwen 2025。soft adaptive (sigmoid gating) 替代 hard clip
ReAct	Thought→Action→Obs→Thought 的 prompting pattern
MCTS / UCB1	用搜索代替直接 sampling 的 planning paradigm

3 · 核心论点:从退化 MDP 到 Agentic POMDP

论文最重要的概念图(我重画了一份),把三种 RL formulation 摆在一起:

^t r_t trajectory return

三种 formulation 的差距。① 是当前 RLHF/GRPO 默认形态——本质是 contextual bandit;② 是经典 RL,有时间维度但状态全可观;③ 才是 Agentic 真实场景——隐 state + 噪声 observation + 多模 action(tool / memory / token mixed) + 长程 reward。从 ① 跳到 ③ 不是"细化",是问题类型变了。

3.1 数学符号对齐

对象	RLHF 视角	POMDP / Agentic 视角
state	x (prompt) — 一次性	s_t (latent), 包括 env 真状态
observation	= state (没区分)	o_t ∼ Z(·\|s_t, a_t-1)
action	y (entire response)	a_t ∈ A_tok ∪ A_tool ∪ A_mem
transition	无 (退化为 bandit)	s_t+1 ∼ P(·\|s_t, a_t)
reward	r(x,y) terminal	r(s_t, a_t) per-step
policy	π_θ(y\|x)	π_θ(a_t\|h_t), h_t = 历史
objective	E[r(x,y)]	E[Σ γ^t r_t]

从这张对应表能看到:RLHF 不是 RL 的特例,而是 RL 的极端退化——所有时间维度都被压平成 1。把它拿去训需要长程决策的 agent,就像用平均速度优化一段曲线积分。

4 · Agentic Capability Taxonomy: Action / Plan / Memory / Tool

论文的 §2.1 用一个非常工整的 control-theoretic 分解给出 agent 能力分类。这是文中"建设性"部分,把 RL 框架要拥抱的四类基本组件拆开讲。

_θ Action A 离散/连续/程序 DynaSAUR · SAND · KnowAgent · PRAct Planning prospective reasoning MCTS/UCB1 · ReAct DynaPlan · PilotRL Memory temporal context Memory-R1 · Mem0 · Mem1 Tools external capability ReAct · ReTool FireAct · summarization Environment (web · OS · code · GUI · embodied)

论文 Fig.1 的语义还原。中心是 LLM policy,周边四向各管一个能力维度;最外环是 environment。Agentic RL 的训练目标 = 让 π_θ 在这四个维度上同时做出可被 reward 评价的决策。注意 "memory write" 本身就是一个 action,不只是 buffer。

4.1 Action — interface of intervention

形式化分两类:

A = {a⁽¹⁾, ..., a^(N)} (discrete) · A ⊆ ℝ^d (continuous)

Q-function 的标准定义,以及 Bellman optimality:

Q^π(s,a) = E_π[ Σ γ^k R_t+k | S_t=s, A_t=a ]

论文指出: 预定义的 action space 在 open-ended scenario 下是 LLM agent 的根本枷锁。代表性补救:

DynaSAUR [63] — 让 agent 动态生成并执行 program, action 边用边长出来,旧 action 进 reusable pool;
SAND [104] — self-consistency sampling 候选 action + execution-guided critique, 反 over-commit;
KnowAgent [131] — 用 action knowledge base 约束 planning trajectory, 反 hallucinated action;
PRAct [52] — textual gradient 从 reflective engine 抽 actionable principle。

4.2 Planning — prospective reasoning

MCTS + UCB1 + 学到的 dynamics model:

a_t = argmax_a [ Q(s,a) + c · √(ln N(s) / (N(s,a)+ε)) ]

ŝ_t+1 = f̂_θ(s_t, a_t), min Σ γ^k r̂_t+k s.t. dynamics

关键观察 (来自 Webb et al. [97]): 大脑里 planning 是多个 component process 的协调(conflict monitoring, state prediction, task coordination)。LLM 单独做每件事都行, 但自主 coordinate 它们朝目标走仍然是难点——这是 brain-inspired agentic architecture 的动机。

另一个反直觉发现 [66]: ReAct 这类"每步前都 plan"的范式会因为 perpetual planning 的计算无限性而退化;但完全不 plan 又封死了上限。动态分配 test-time compute 才是答案。

4.3 Memory — temporal context integration

形式化从 LSTM 出发:

i_t, f_t, õ_t = σ(W·[h_t-1,x_t]+b)
C_t = f_t⊙C_t-1 + i_t⊙C̃_t

到 DQN replay buffer:

D = {(s_i,a_i,r_i,s'_i,d_i)}^N_i=1, B ∼ U(D)

论文的核心断言: LLM 没有 native long-term memory。现有 augmentation 大多是 static / heuristic pipeline,缺学到的 storage / retrieval control。Agentic RL 的工作:

Memory-R1 [109] — 把 memory operation 当 action, 用 RL 学 read/write policy;
Mem1 [129] — 端到端 RL 让 agent 在 constant memory budget 下处理长任务;
Mem0 [9] — graph-based 表征对话中的 relational structure;
MemoryBank [127] — 持久 memory 解 statelessness。

这四篇代表 LLM long-term memory 的两条平行演化路线: external storage + learned CRUD vs internal compressed state。📖 四篇串读合集 →

(注意我们的 sibling note 04_MemPalace 谈的就是这条线;01_DR-Venus、02_LiteResearcher 在 long-horizon retrieval 角度切入相关问题。)

4.4 Tools — external capability extension

Tool 形式化为黑盒函数 + 选择问题:

y_t = T_i(x_t; θ_T) ; p(T_i|s_t) = Softmax(W_T·φ(s_t))

Thought_t → Action_t (tool call) → Obs_t+1 → Thought_t+1

典型作品:

ReAct [110] — interleaved reasoning + acting 的开山,设定了 thought→tool→obs 这条 backbone;
FireAct [6] — 多任务多策略 fine-tuning, 数据多样性 > scale;
ReTool [19] — 把 code execution 织进 long-form reasoning, RL 学"何时何地" invoke tool; 📖 单篇精读 →
Search-R1 — 把搜索引擎织进 reasoning,定义了 retrieved-token masking 这个 agentic RL 训练栅栏,跟 ReTool 是同期姊妹工作(同框架,不同工具); 📖 单篇精读 →

论文反复强调一点: tool 不是装饰品,它改变 state transition P(s_t+1|s_t, a_t)。这意味着 tool 选错不止当下错,还会让后续 observation 整个偏。POMDP 框架本身天然能 model 这件事,bandit 框架做不到。

奠基双胞胎:Search-R1 (2025-03) & ReTool (2025-04) — 这两篇定义了 agentic RL 训练 LLM tool-use 的事实标准:模型在 trajectory 里穿插 <think> / <search> 或 <code> tag,环境返回 <information> 或 <interpreter> 内容;RL 只对模型自己生成的 token 算梯度,外部返回的 token 全 mask 掉(retrieved-token masking)。如果不 mask,gradient 会试图"通过 LLM 解释检索结果"反向更新策略,训练立刻崩。两篇分别用 search engine / Python interpreter 做工具,但同样的 outcome-only reward + masking 配方都 work,这本身就是这条 line 的关键发现 — 见两篇单独精读。

5 · RL 算法谱系: PPO 一路演化到 DAPO/GSPO/SAPO

论文 §2.2 给了一份从 PPO 到 SAPO 的 algorithm timeline,我抽出关键节点和它们的特点:

从 PPO 到 SAPO,RL-for-LLM 算法走过的路。注意所有这些算法仍在 single-step formulation 内打转——它们解决的都是"如何稳定地从一个 (prompt, response) batch 提取梯度",而不是"如何处理 partial obs 与 long horizon"。后者是 StepPO/HiPER/Agent-Omit 这一辈正在攻的。

5.1 关键 loss 摘录

PPO (Schulman 2017)

J_PPO = E[ min(w_t Â_t, clip(w_t, 1−ε, 1+ε) Â_t) ]

w_t = π_θ/π_{θ_old}。actor-critic, critic 估 V。

GRPO (DeepSeekMath 2024)

Â_i = (r_i − mean(r)) / std(r) , 按 token broadcast

同 prompt 抽 G 个 response,组内归一化代替 critic。省一半显存,稳定性靠 clip + KL。

DAPO (ByteDance 2025)

四件套:Clip-Higher (asymmetric clip 探索↑) + Dynamic Sampling (滤掉 reward 全 0/全 1 的 prompt) + Token-level loss (按 length sum 而非 mean) + Overlong Reward Shaping。AIME 50 分,只用一半 step。

GSPO (Qwen3 2025)

w_i = exp( (1/|y_i|) Σ_t log π/π_old )

把 importance ratio 上升到 sequence level (几何平均/均匀对数平均),对 MoE expert routing variance 友好。

SAPO (Qwen 2025)

f(x) = σ(τ(x−1)) · 4/τ , τ_pos ≠ τ_neg

Hard clip → smooth sigmoid gate, asymmetric temperature 处理正负 advantage。Qwen3-VL 验证。

5.2 一个常被忽略的细节: token-level vs trajectory-level

论文反复 mention 但没明说的: 上面所有 algorithm 仍把 RL "做在一个 response 内部的 token 上"——单 episode、单回合、单 reward。要变成 Agentic, 必须扩展到 跨多回合的 trajectory-level credit assignment(StepPO 这条线)。

Granularity	谁在做	问题
token-level	PPO/GRPO/DAPO	同一 response 内所有 token 共享一个 advantage,粒度过细
sequence-level	GSPO/SAPO	对 MoE 友好,但仍是单 response
step/turn-level	StepPO/HiPER/Agent-Omit	正确粒度,但 algorithm 还在早期
trajectory-level	terminal reward + Monte Carlo	方差极大,长任务难训

6 · 三大挑战 (论文 §3)

6.1 Environment — 训练环境本身要被优化

核心新框架: RLAnything [93] —— 把 environment 当成可被训练的对象而非 fixture。流程:

动态评估 task 难度 (用 strategy deduction 的 accuracy);
用 reward model 的错误分析反哺 language model 修改任务;
quality control 保证修改有效。

这件事的洞察: 静态 benchmark 已经无法支撑长程 agent 的训练,环境必须跟 policy 共同演化。

6.2 Trustworthy — 多 agent + hallucination

G-Safeguard [90] — 用 GNN 检测 multi-agent utterance graph 上的异常 + topological intervention 做 attack remediation;
FSPO [41] — 反事实: RL 反而会增加 hallucination。用 evidence verification 动态调 token-level advantage,激励 factuality。

6.3 Capability Boundaries — RL 是否真能"突破"基模

论文引用 Yue et al. [115] 的关键质疑:RLVR 能不能让 LLM 突破 base model 的 capability boundary, 还是只是在重新分配概率质量? 现有解法两路:

RL-PLUS [15] — hybrid policy: 内部 exploitation + 外部数据 → 用 multiple importance sampling 修正分布,exploration-based advantage 引导高价值路径;
HiPER [67] — hierarchical: high-level planner + low-level executor + Hierarchical Advantage Estimation 解 sparse reward 下 credit assignment 不稳的问题;
Summarization-based [54] — 把 tool history 压缩成 task-relevant summary, 在 compact RL 里同时学 tool-use 和 summarization 策略;
Demystifying RL in agentic reasoning [114] — 关键发现: 真实 end-to-end tool-use trajectory 显著优于"拼接合成数据"做 SFT 初始化; 多样性 数据是 sustained exploration 的关键; 少 tool call 的深思熟虑 比频繁调用更好;
StepPO [87] — step-level optimization 的位置定义。

6.4 System — 把 evaluative + directive 信号都从 next-state 里榨出来

OpenClaw-RL [92] — 任何 agent 交互产生的 next-state 都是 live learning source: 用 PRM judge 抽 evaluative 标量 reward, 用 Hindsight-Guided OPD 蒸馏 directive 监督。统一对话/terminal/SWE 任务在一个 loop 里。
ClawGUI [83] — 把"训练-评测-real-device 部署"合一,GUI agent lifecycle solution。
MetaClaw [103] — continual meta-learning 框架, base policy + 自演化 skill library。

7 · Worked example: 一个数学+工具任务跑通框架

用一个具体任务把 §3 的 Agentic POMDP 框架 instantiate。任务: "3¹⁷ mod 41 等于多少?"

7.1 退化 MDP 视角 (RLHF/GRPO 是怎么看的)

x = "3^17 mod 41 = ?"
y = "<think> 3^2=9, 3^4=81≡81−41=40≡−1, 3^8≡1, 3^16≡1,
       3^17 = 3 · 3^16 ≡ 3 (mod 41) </think> \n
     答案: 3"
r(x, y) = 1   (verifier 判等)

整个轨迹被压成一对 (x, y) → r。GRPO 在这一对上算 token-level advantage:

Â_token = (1 − mean) / std,所有 token 共享

结果: "3^4=81−41=40" 这个关键 step 的 token 跟"\n答案:" 的废话 token 拿一样的 advantage。这是退化视角的根本缺陷。

7.2 Agentic POMDP 视角

同一个题, 把它放进 ReTool/ReAct 框架, 让 LLM 调用 Python 工具:

partial: agent 看到 "3", 不知道 Python 内部用了什么算法 a₂ = memory.write("3^17 mod 41 = 3") r₂ = 0 t=3 o₃ = updated history a₃ = answer("3") r₃ = +1 (verifier 判等) trajectory τ = (o₀,a₀,...,o₃,a₃,r₃), cumulative return G = 1 (γ=1) 优化目标: J = E_τ[Σ r_t] —— 反向传播给每一步的 a_t credit assignment 应能识别: a₁ (调 tool) 是 critical decision, 比 a₀ 重要

同一题在 Agentic POMDP 下的 trajectory 展开。注意三件事: ① observation 是 partial 的(t=2 的 tool 输出只有一个数字,真实 state 含 Python interpreter 内部上下文);② action 是 mixed-modal(thought / tool_call / memory_write / answer 各有自己的子空间);③ reward 是稀疏的,只在 t=3 出现。这正是 RLHF/GRPO 看不到的结构。

7.3 同一条 trajectory, 不同 algorithm 怎么处理

算法	credit 怎么分	问题
RLHF / DPO	把整条压成一对 (x, y),按 preference 训	tool_call 的因果完全丢失
vanilla GRPO	token-level Â = +1 / +1 / +1 / ...	"调 tool" 这个 step 跟"\n" token 同等重要
DAPO + token-level loss	同上但按长度归一	仍未识别 step 边界
StepPO / HiPER	识别 step 边界, 给 a₁ 更高 advantage	正确视角, 但需 step segmentation
Memory-R1 / OpenClaw-RL	从 next-state 里抽 evaluative + directive 双信号	需要 PRM judge / hindsight teacher

反向论证: 如果不把 a₁ (调 tool 决策) 单独 credit,会发生什么? RL 训练后会观察到模型仍在生成"先 thought 再 thought 再 thought ... 然后给答案"这种 纯 CoT 风格 ——因为 tool_call 跟纯 CoT 在 reward 上没区别,而且 tool_call 在数据里占少数 token。这正是为什么单纯 GRPO 训不出 robust tool agent 的根因。

8 · 与同类工作对比

工作	类型	定位差异
Landscape Survey 2509.02547 (Zhang et al.)	survey	覆盖更全面,library-centric, breadth-first; 本文更position-paper, 聚焦概念重定义
INTELLECT-3 (models/notes/08)	具体训练	Agentic RL 的实证落地: 用 RL 训能调工具的 30B 模型, 验证本文 §3 所主张的多步 trajectory 训练; 是"位置文章主张被实践"的例子
NVIDIA NeMo-RL (spec-rl/notes/01)	系统	关心的是 RL rollout 怎么更快, 与本文正交; 但二者结合即:用 spec decoding 加速 Agentic POMDP 的多步 rollout(后者轨迹更长,加速空间更大)
Kimi K2.5 Agent Swarm (models/notes/06)	系统/方法	Multi-agent rollout 实现, 把本文 §4 的 capability taxonomy 推到 multi-agent layer。本文的 single-agent POMDP 是 K2.5 swarm 的 building block
sibling 01 DR-Venus	data/RL	研究 long-horizon retrieval 训练 — §6.3 capability boundary 的具体子问题
sibling 02 LiteResearcher	agent 框架	multi-step research agent, 印证 §3 多步 trajectory 必要性
sibling 03 Agent-World	environment	对应 §6.1 RLAnything 的同一类问题
sibling 04 MemPalace	memory	对应 §4.3 memory capability 的具体方法

读法建议: 本文 + Landscape Survey 2509 一起读最划算。前者给概念框架,后者给方法穷举。再加 INTELLECT-3 / Kimi K2.5 看实证落地。如果只读一份, 本文的 §3 (Agentic POMDP framing) 和 §4 capability taxonomy 是新读者最快"对齐到 Agentic RL 思维方式"的入口。

9 · 局限 / 个人 take / 待验证问题

论文的局限

Position 而非 quantitative.没有 benchmark 数据支持"Agentic POMDP 训出的 agent 比退化 MDP 训的强"——这是 follow-up 工作的事;
POMDP 框架仍偏 abstract.真的怎么 estimate observation function Z(o|s,a)、怎么处理 latent state 都没具体方法论;
对 Trustworthy/Safety 章节笔墨偏少.对 multi-agent collusion / reward hacking 在长程 trajectory 下被放大的现象没深谈;
没区分 inference-time agent 和 training-time agent.很多被引方法 (ReAct, MCTS) 是纯 prompting,不涉及参数更新,严格讲不是"agentic RL"。

我的疑问 (待验证)

POMDP 化框架在credit assignment 实际效果上是否真比 token-level GRPO 强?StepPO/HiPER 在 ALFWorld/SWE-bench 上的对比目前还没大规模复现;
论文的 capability taxonomy (action/plan/memory/tool) 与 Landscape Survey 2509 的分类有没有冲突?如果有,谁更适合做训练实践的指导?
"environment as optimization target" (RLAnything) 实际上和 PBT/AutoML 有多少 overlap?是否新瓶装旧酒?
本文谈 multi-modal action space (token + tool + memory),但没讨论不同 action 维度的 advantage scale 如何归一化——这是工程上必爆的痛点;
把 LLM 当 POMDP policy 时, hidden state 是 KV cache 还是 context tokens?这俩的语义其实不同——前者随 layer 不同,后者是 first-class symbolic;
论文表 1 里 "Designs" 那一列只有自己打勾。从被引文献分布看,Landscape Survey 2509 也覆盖了同三件事。这种 self-positioning 是否过强?

个人 take

这篇 paper 的最大价值不在"提出了什么新方法",而在于给整个 field 提供了一组可以反复引用的 vocabulary:degenerate single-step MDP、Agentic POMDP、four-component taxonomy、step-level credit assignment。这些词在过去半年的论文里已经在自发出现,本文提供了把它们正式拼接起来的位置坐标。读者(尤其是工程读者)拿来给自己的 RL 训练 stack 做"我现在做的是 ① / ② / ③ 哪一档?"的自检很有用。

记忆点

立场 RLHF/DPO/GRPO 都是 single-step degenerate MDP, 不是真 RL;真 RL = Agentic POMDP
公式 J_RLHF 是 J_agentic 在 H=1, full obs, single action 时的极端退化
能力四件套 Action / Planning / Memory / Tools(围绕 LLM policy 中心)
算法谱系 PPO → GRPO → DAPO/GSPO/SAPO,但全在 single response 内打转
真正缺失 step/turn-level credit assignment(StepPO/HiPER 这条线还在早期)
挑战 Environment 要可优化 (RLAnything)、Trustworthy (G-Safeguard/FSPO)、Capability Boundary (RL-PLUS)
阅读组合本文 + Survey 2509 + INTELLECT-3 + Kimi K2.5 ≈ Agentic RL 全栈观

精读笔记 v1 · 2026-05-09 · 配套论文 PDF: /data/szhang967/papers/paper-notes/agents/RethinkingAgenticRL_2604.27859.pdf