DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Venus Team, Ant Group · 2026-04-21 · arXiv:2604.19859 · inclusionAI
关键词: deep research agent · edge-scale 4B · agentic SFT · agentic RL · IGPO · turn-level info-gain reward

速读卡片 (TL;DR)

一句话:用约 10K 全开源数据,训出一个 4B 级 deep research agent;两段式 recipe = 严格清洗 + 长程轨迹重采样的 agentic SFT,接 IGPO 上的 turn-level information-gain reward + format-aware 正则,把 4B 推到 sub-9B SOTA、逼近 30B 班级。

10K

SFT 原始 trajectory 数

Qwen3-4B-Thinking-2507 主干

29.1 / 37.7

BrowseComp / BC-ZH (Pass@1)

立场:不是模型创新,是数据 × 算法 × 监督密度的精打细算。"4B + 10K open data"已经够用,真正缺的是怎么把每条 trajectory 榨干、怎么在长达 200 turn 的稀疏 reward 下做 credit assignment。

1 · 动机:为什么 edge-scale + 10K 这条路值得走

1.1 历史脉络:deep research 的"巨型化"惯性

2024 → 2026 的 deep research 赛道走的是越大越好的路线。Tongyi-DR-30B、WebSailor-V2-30B、DeepMiner-32B-RL、REDSearcher-30B-A3B 几乎清一色 30B 起步,要么 dense 要么 MoE A3B。原因看上去也合理:long-horizon 任务(BrowseComp 平均 ~50 turn,xBench-DS 也 30+ turn)对 reasoning depth 和 tool-use 稳定性都极挑剔,小模型做不到 200 turn 不"漂"。

但产业落地侧的现实反过来:

Cost: 一次 BrowseComp 评测 30B 模型上 200 turn × 256K context,推理成本是 4B 的 ~10×;真要部署在企业内部的"研究助手",30B 是单卡装不下、双卡也勉强的尺寸。
Latency: 长 trajectory 下 user 等不起;4B 在 H100 上单卡可达 100+ tok/s,30B-A3B 即使 MoE 仍要 2× 以上延迟。
Privacy: 金融、医疗、法律领域的 deep research 不能把 query 送到 OpenAI / Gemini;边缘部署是硬需求。

过去的小模型尝试(WebSailor-7B、DeepDive-9B、WebExplorer-8B-RL、AgentCPM-Explore-4B)在 BrowseComp 上停留在 5–24 分,跟 30B 班级有 20+ 分差距。社区默认"小模型做不动 deep research",DR-Venus 的核心就是要打破这个默认。

1.2 为什么纯 SFT 对 deep research 不够 — 也为什么纯 RL 也不够

常见的两个极端方案各有死结,论文用一张对比表把它们都判了死刑:

路线	具体做法	对小模型的致命伤
纯 SFT (DeepDive-9B-SFT, WebSailor-7B)	大量教师 trajectory 模仿	format / tool-call 仍不稳;长程时一旦走偏没有自纠机制
纯 RL from scratch	直接在 base 上跑 GRPO	小模型 rollout 几乎全失败,advantage collapse(整组 reward = 0)
SFT + 稀疏 trajectory-level RL (GRPO 原版)	只用最终答案对错给 reward	200 turn 一个 scalar,credit 无从分配;论文实测 GRPO 在 BC 上 -1.5
SFT + dense per-token reward (RM 打分)	用 reward model 给每 token 打分	需要高质量 RM,本身就比 4B 大;reward hacking 风险
SFT + IGPO turn-level IG (本文)	用 ground-truth 的 log-prob 增量当 turn reward	无需额外模型,信号密度直接 = turn 数,200 turn 自带 200 个学习信号

关键 insight:不是 RL 不行,是 reward 太稀疏 → 给小模型的训练几乎等于"告诉它走 200 步以后对/错"。Information Gain 把它变成"每走一步告诉它有没有更接近 GT",密度提升 ~200×。

1.3 为什么这事不平凡:三个深坑

"用 IG 当 turn reward"听上去简单,但在实际工程里有几个非平凡的复杂度:

Reward scale 不平衡。turn-level IG reward 是 log-prob 差,scale ~0.001 量级;outcome reward 是 0/1,normalize 后仍有数量级差。如果直接相加,IG 完全淹没 outcome 或反过来。论文设计了 IG-Scale 自适应缩放,在 outcome 弱(整 group 全错)时压低 IG 权重,避免被 IG 误导收敛到 local optimum。
Search vs browse 的 IG 不同质。search 给的 snippet 是噪声大的探索性信号,browse 才能拿到具体证据。如果对所有 turn 都算 IG,容易奖励"反复搜索但不深读"的捷径。论文的 browse-aware 分配把 IG 锁定在 browse turn 上,且把它归功到该 browse 之前的所有 search turn(类似 reverse credit),这是 DAPO/GRPO 都没考虑的。
Format penalty 的粒度。200-turn trajectory 里只要 1 个 turn format 错,trajectory-level format penalty 会把所有 199 个正确 turn 一起惩罚。turn-level format penalty 用 −λ_fmt 替换该 turn 的 reward,实现外科手术式监督。

这三件事 + IGPO 本身 + 数据 pipeline,组合起来才让 4B 跑得动 deep research。任意一项缺位都会塌。

2 · 背景速查

2.1 关键术语

术语	含义
Deep Research Agent	通过多轮 search/browse 在外部环境收集证据再合成答案的 agent;典型 trajectory 30–200 turn
Edge-scale	≤ 4B 参数,可在单卡 / 端侧部署
Agentic SFT	对包含 reasoning + tool call + observation 的多轮序列做 next-token 监督,只在 assistant token 上算 loss,observation token mask 掉
Agentic RL	policy 自己在真实 tool 环境里 rollout,基于 outcome / turn reward 优化
GRPO	DeepSeekMath 提的 group-relative PPO,无需 value model;同 prompt 采样 G 个 trajectory 互相做 advantage baseline
DAPO	字节版 GRPO 改良:dynamic sampling + clip-higher;主要解决 entropy collapse 与训练不稳
IGPO	Wang et al. 2026 (ICLR'26) 提出,在 GRPO 框架里用 information gain 作为 turn-level reward 的 RL 算法,本文直接 build on 它
Information Gain (IG) reward	`r_IG = log π(g \| h≤t) − log π(g \| h≤t-1)`,即新增一个 turn 后模型对 ground truth 的 log-prob 提升
REDSearcher trajectory	本文 SFT 数据来源(Chu et al. 2026, 30B-A3B 系统的训练数据);10K 条 raw trajectory,Apache 2.0
BrowseComp / BrowseComp-ZH	OpenAI 推的 long-horizon web browsing benchmark,英文 / 中文版;每题平均要 30–50+ turn
Pass@K	独立采样 K 次中至少一次正确的概率;衡量"capability ceiling"而非"reliability"

2.2 GRPO → IGPO 的演化路径(一图回顾)

DR-Venus 没有再造 RL 算法,而是把 IGPO 这个 GRPO 派系的 turn-reward 变体,进一步配上 browse-aware 分配、format-aware 正则、IG-Scale,使其在长程 deep research 上稳定。

3 · 两阶段 recipe 全景图

论文的方法可以被压成下面这张图。注意 stage 1 输出的不是 checkpoint 本身,而是已经会做基本 tool use 的格式化 agent;stage 2 的核心是把这些 trajectory 的执行可靠性拉到能拿到 outcome reward 的地步。

整条 pipeline 的"狭窄入口":只有 ~10K open-data。所有的工作都集中在两个动作上 —— ① 把 SFT 数据洗干净,② 把 RL 信号搞稠密。两个 stage 用的训练数据其实是不同切片:SFT 用 10K trajectory,RL 用 1K query-answer 对。

4 · Stage-1: Agentic SFT 的四步数据清洗 + turn-aware 重采样

"为什么 10K 够"——单看数据量是不够的,关键是数据怎么用。论文的四步 pipeline 配合一个非平凡的重采样,把 9365 条有效 trajectory "扩容"到 18745 条分布上更长程的训练样本。

4.1 四步清洗(数字都是论文里的)

步骤	动作	输入→输出	关键效果
① Environment alignment	把 raw trajectory 重写成线上 inference 用的 message schema / system prompt / tool 协议	10001 → 10001	消除 train/inference mismatch,这一步对小模型尤其关键
② Disallowed tool prune + dedup	移除 search/browse 之外的 tool call(主要是 Python-Interpreter,3378 条),去重 search/browse(15728 条 dup,大部分是 browse 重复)	10001 → 10000	防止小模型学到"call PythonInterpreter"等 deploy 时不存在的工具;1064 条 trajectory 受影响
③ Correctness filter	用 Qwen3-235B-A22B-Instruct-2507 当 judge,丢弃最终答案错的 trajectory	10000 → 9365 (93.65%)	避免"模仿错误 reasoning"
④ Turn-aware resampling	0–50 turn ×1, 51–100 turn ×2, >100 turn ×5	9365 → 18745	>50 turn 占比 60.28% → 80.15%; >100 turn 占比 13.29% → 33.21%

4.2 为什么 turn-aware 重采样这么管用

这是本文 SFT 阶段的核心 trick。一般"upsample 长样本"的方法在普通 SFT 里效果有限,但对 deep research 是正中靶心:

BrowseComp 类任务 reward 完全集中在 long-horizon trajectory 上,trajectory 越长,该样本里"必须正确 plan / 不漂移 / 不 forget"的监督密度越高。
原始 dataset 的长度分布偏短(60% 在 0–50 turn),如果不重采样,模型容易被"短 trajectory 噪声"主导,学出"快答型"行为。
论文的 ablation:不重采样的版本在 BrowseComp 22.8 → 重采样 26.8(+4.0),BC-ZH 33.9 → 35.7(+1.8)。这是不改任何模型架构纯靠数据分布换回来的 4 个点。

4.3 Worked example: 一条 raw trajectory 的"清洗 → 重采样"轨迹

从 raw trajectory 到 SFT batch 的全流程。注意 ② 的剪枝是"turn-level"的——只删非法 turn 不删整条 trajectory,这样 1064 条本来要被丢的 trajectory 被救回来了。

4.4 反向论证: 不做重采样会怎样

看 ablation:DR-Venus-4B-SFT (w/o Resampling) 在 BC 上只有 22.8。同样 9365 条数据,只是分布偏短,小模型就更倾向于"看完前 30 turn 直接 finalize"。这种偏好对 BrowseComp 致命——很多正确答案要 100+ turn 的 cross-source verification。

5 · Stage-2: IGPO + turn-level info-gain reward

SFT 给的是"会做"的 baseline,RL 要解决"做对"的稳定性。论文最有特色的就是奖励信号的设计——不是发明 RL 算法,是发明 dense reward。

5.1 IG reward 的物理直觉

定义重温(论文 Eq. 3):

r_IG^i,t = log π_θ(g | h_i,≤t) − log π_θ(g | h_i,≤t-1), 1 ≤ t < T_i

把 ground truth answer g 包装成跟 model response 同 schema(<think>Now there's enough information to answer</think><answer>G</answer>),然后看模型 condition 在前 t turn 的 history 上,生成这串 g 的 log-prob 提升了多少。

提升 = 这一 turn 找到了有用证据 → 正 reward
下降 = 这一 turn 误导了模型(read 到无关页面、tool call 失败注入 noise)→ 负 reward
持平 = 这一 turn 啥也没干 → 0

关键:reward 的"密度" = trajectory 长度。200 turn 自动得到 200 个 reward signal,无需任何 reward model 也无需人工标注。这是把 GRPO 那种 "trajectory 一个 scalar reward" 直接变成 "每 turn 一个 reward"。

5.2 Browse-aware IG 分配

但 search turn 给的 reward 是噪声大的——一次 search 返回的是 snippet 列表,模型对 g 的 log-prob 可能小幅震荡。论文观察:browse turn 才是真正"读到证据"的 turn,IG 信号在 browse 上更可靠。

方案:

只在 browse turn 计算 IG。
把这个 IG 同时归功给 该 browse turn 自己 + 所有上一个 browse 之后的 search turn。

这相当于把 search 当作"在为下一次 browse 做准备工作",reward 来自 browse 的成功——一种粗粒度 credit 反向分配。

browse-aware IG 分配的具体形态:第一段 (S, S, B) 共享 +0.012,第二段 (S, S, S, B) 共享 +0.034,answer turn A 由 outcome reward r_O 决定(0 或 1)。

5.3 Turn-level format penalty

Eq. 4 简洁但 powerful:

r̂_i,t = r_i,t if format(t) valid, else −λ_fmt

具体实现:任何一个 turn 的 <think>...</think><tool_call>...</tool_call> schema 不合法、JSON 解析失败、tool name 错拼,就把那个 turn 的 reward替换成 −λ_fmt(论文用 1.0)。论文实测 λ_fmt = 1.0 是 IG/outcome 同尺度 normalize 之后的合理值。

对比 trajectory-level format penalty:后者会给整条 200 turn trajectory 一个 -1 的 scalar,即使只是第 87 turn 错了一个 JSON 引号——前 86 turn 的正确行为也被打压。turn-level 把惩罚 surgical 化,只罚那一 turn。

5.4 IG-Scale: 解决 reward 不平衡

归一化后 (Eq. 5),IG reward 和 outcome reward 都是 ~N(0,1) scale。但当 group 里全错(outcome 全 0,normalize 后 σ_O ≈ 0,μ_O = 0,数值上整组 r̃_O ≈ 0)时,outcome 完全失声,policy 被 IG 单独驱动,容易学到"refine reasoning 但永远不答对"的 local optimum。

IG-Scale 的做法(Eq. 6–8):

s = min( max(M_O, η) / (M_IG + δ), s_max )

其中 η=0.3, δ=10⁻⁸, s_max=10。直觉:

当 outcome 强(M_O 大): s 大 → IG 被放大,turn 信号充分发力。
当 outcome 弱(M_O ≈ 0): s ≈ η/M_IG,小到 0.3 / 1 = 0.3 量级,压低 IG 影响,避免被噪声 IG 带跑。

"weak outcome → 谨慎更新"是经典的 RL 鲁棒性设计,这里把它做到了 turn-reward 缩放上。

6 · 公式拆解:从 IG reward 到 IGPO objective

6.1 各步公式 + 物理含义

公式	含义	关键参数
Eq. 2: `log π_θ(g\|h≤t) = (1/L)∑ log π_θ(g_j\|h≤t,g<j)`	归一化的 ground-truth log-prob,除 L 避免长答案权重过大	L = answer 的 token 数
Eq. 3: `r_IG = Δ log π_θ(g)`	turn 级信息增益	stop-gradient(论文脚注 1, IG 不参与反传)
Eq. 4: format-adjusted reward	format 错则 reward = −λ_fmt	λ_fmt = 1.0
Eq. 5: 组内 normalize	IG 和 outcome 分别在 group 内 (μ, σ) 归一	G = 8
Eq. 6–7: IG-Scale s	自适应缩放系数	η=0.3, δ=1e-8, s_max=10
Eq. 9: `R̃_i,t = ∑_{k≥t} γ^{k-t} r̄_i,k`	折扣累加,把未来 turn 的 reward 折现给当前 turn	γ = 0.95
Eq. 10: IGPO objective	GRPO 风格的 ratio·advantage 形式 + clip + KL	ε(clip), β(KL)

6.2 IGPO objective 的梯度长什么样

Eq. 10 形式上跟 GRPO 完全一样,差异只在 advantage:

J_IGPO(θ) = E [ (1/G)∑_i (1/|u_i|)∑_k min(ρ_i,k R̃_i,k, clip(ρ_i,k, 1±ε) R̃_i,k) − β D_KL(π_θ ‖ π_ref) ]

其中 ρ_i,k = π_θ(u_i,k|c_i,k) / π_θ_old(u_i,k|c_i,k) 是 token-level importance ratio,R̃_i,k 是该 token 所属 turn 的折扣累加 reward——同 turn 内所有 token 共享 R̃(论文明确说 "for tokens from turn t, we set R̃_i,k = R̃_i,t")。

等于说:turn 是 reward 单位,但 ratio / clip 是 token-level 算的;这是个干净的 hybrid granularity。

6.3 数值敏感性: γ 怎么影响 reward 累加

γ	turn 距离 = 50 时折扣	实际效果
0.99	0.61	太"长视" — 早期 search 几乎拿到末端 outcome 全部 reward,credit 被稀释
0.95 (本文)	0.077	50 turn 折扣到 ~7.7%,相当于"看 30–50 turn 的视野"
0.9	0.005	折太狠 — 末端 outcome 几乎传不到中段 turn,IG 必须独立支撑学习
0.0	0	退化为 myopic per-turn,完全不传播 outcome

7 · Worked Example: 一个 BrowseComp 查询的 8-turn IG 轨迹

让我们看一个具体的 BrowseComp 风格问题怎么走完一条 trajectory,以及 IG reward 在每一 turn 长什么样。

Query:"一位在 1980 年代曾代表美国参加奥运会铁饼项目、退役后转入大学教练岗位、且其学生在 2000 年悉尼奥运会上拿过铁饼银牌的运动员叫什么名字?"
Ground truth (g): John Powell

设 baseline log π_θ(g | q) = −7.20(模型一开始毫无线索)。我们追踪 8 个 turn 的 IG。

t	action	具体内容(简述)	log π_θ(g \| h≤t)	r_IG	format ok?	r̂(归一前)
0	—	history = q	−7.20	—	—	—
1	search	"USA discus throw 1980s Olympic"	−6.95	(归并到 t=3)	✓	—
2	search	"American discus thrower coach Sydney 2000"	−6.83	(归并到 t=3)	✓	—
3	browse	读 Wikipedia "John Powell (discus thrower)"	−5.10	+2.10	✓	+2.10 (分给 t=1,2,3)
4	search	"Adam Setliff coach silver medal Sydney"	−5.05	(归并到 t=6)	✓	—
5	search	"Sydney 2000 discus silver medalist"	−4.92	(归并到 t=6)	✓	—
6	browse	读 "2000 Olympics men's discus throw" — 看到 silver = Lars Riedel(德), bronze = Frantz Kruger;Powell 学生没拿牌	−5.40	−0.30	✓	−0.30(modify search/browse 路径)
7	browse	重新读 "John Powell coaching career" → 发现 Mac Wilkins 是其训练伙伴,但学生层面不符 → 模型决定 reframe 问题(也许"代表美国"不严格)	−4.31	+1.09	✓	+1.09
8	answer	`<answer>John Powell</answer>`	—	—	✓	r_O = 1 (judged correct on the basis of teaching career match)

关键观察:

turn 6 的 IG 负了 — 模型发现自己读到的页面跟 g 不符,这在 IG 框架里是正常信号:它说"这条 browse 让我对 g 的 confidence 反而下降",policy 学到"以后类似上下文不要走这条路"。
browse-aware 把 t=3 的 +2.10 平分给 t=1, 2, 3 —— 之前那两次 search query 被回溯地确认为"对最终找到 Powell Wikipedia 有用"。
整条 trajectory 8 个 turn 拿到 4 个非零 reward(t=3, 6, 7 的 IG + t=8 的 outcome)。如果用 GRPO 的 trajectory-level reward,只有 t=8 一个 +1,前 7 turn 全是 0,GRPO 没法分辨"turn 1 的 search 是好还是坏"。
IG-Scale: 这一条 trajectory outcome = 1, group 里如果其它 trajectory 也是 1 居多,M_O 就大,IG 被放大;如果其它都失败(outcome=0),IG-Scale 会自动压低 IG 防止过激更新。

反向论证:如果没有 turn-level IG,把这条 trajectory 整体打 +1 reward 平均到所有 token,policy 会把"包括 turn 6 那次失败的 browse"也学下来。这就是 trajectory-level RL 在 long-horizon 上 advantage 难以分配的核心痛点。

8 · 实验关键结果

8.1 主表(精简版)

Model	Params	BrowseComp	BC-ZH	GAIA	xBench-2505	xBench-2510	DeepSearchQA
WebExplorer-8B-RL	8B	15.7	32.0	50.0	53.7	23.0	17.8
AgentCPM-Explore-4B	4B	24.1	29.1	63.9	70.0	34.0	32.8
DR-Venus-4B-SFT	4B	26.8	35.7	65.4	69.0	35.3	37.7
DR-Venus-4B-RL	4B	29.1	37.7	64.4	74.7	40.7	39.6
— 30B 班级参考 —
Tongyi-DR-30B	30B	43.4	46.7	70.9	75.0	55.0	—
WebSailor-V2-30B-RL	30B	35.3	44.1	74.1	73.7	—	—
REDSearcher-30B-A3B	30B-A3B	42.1	49.8	80.1	—	—	—

读法:RL 在 6 项里 5 项跑赢 SFT(GAIA 是 -1.0,文中归因为 GAIA 偏知识问答而非 long-browse)。在 xBench-DS-2505 上,DR-Venus-4B-RL 74.7 已经触到 Tongyi-DR-30B 的 75.0,7.5× 的参数差被吃掉了。

8.2 GRPO vs IGPO ablation(最 load-bearing 的一张表)

Model	BrowseComp	BC-ZH
SFT (w/o Resampling)	22.8	33.9
SFT (w/ Resampling, ours)	26.8 (+4.0)	35.7 (+1.8)
SFT + RL with GRPO	25.3 (−1.5)	35.6 (−0.1)
SFT + RL with IGPO (ours)	29.1 (+2.3)	37.7 (+2.0)

这张表是论文的 punch line:同样 RL infra、同样数据、同样 base,GRPO 在 BrowseComp 上甚至退化(−1.5),IGPO 反而 +2.3。证明 long-horizon agentic RL 的瓶颈是 reward 信号设计而不是优化算法本身。

8.3 Pass@K 揭示的 capability ceiling

BrowseComp-ZH Pass@K 曲线:DR-Venus-4B-SFT 在 K=8 已超 Gemini-3-Pro Pass@1,K=16 (78.5) 大幅领先 GPT-5 High Pass@1 (65.0) 与 Tongyi-DR-30B Pass@1 (46.7)。这是论文最 punchy 的"test-time scaling 在小模型上的杠杆"证据。

论文的 take:Pass@1 这种"reliability"指标低估了小模型的 capability ceiling。RL 主要把 Pass@1 / @2 拉起来——即 reliability;Pass@16 的 ceiling 反而 SFT 已经接近极限(BC-ZH SFT @16 = 78.5,RL @16 = 76.5,RL 略低,论文归因为 RL 数据全英文导致中文分布漂移)。

8.4 Tool use 分析:correct trajectory 的 browse ratio 更高

聚合数:overall browse ratio SFT 17.49% → RL 22.46%;correct trajectory 的 browse ratio 23.71% → 28.96%。RL 不是简单"少 search 多 browse",而是把 tool-use 行为校准到 success 模式上。xBench-DS-2510 上 SFT 反常("wrong browse 多于 correct browse"),RL 把这个反常修正了。

9 · 与同类工作对比

系统	规模	数据	RL 算法	Reward 粒度	跟 DR-Venus 的差异
DR-Venus (本文)	4B dense	10K open SFT + 1K open RL	IGPO	turn-level IG + outcome + format	—
SFR-DeepResearch (Salesforce)	14B/32B	合成 + 闭源	GRPO 变体	trajectory outcome	规模大 1 个数量级,reward 稀疏,需 self-correction loop 弥补
WebSailor-V2-30B	30B dense	合成 + 闭源	GRPO + DAPO 风格 sampling	trajectory outcome	30B 起步,本质上"放大模型解决 reward 稀疏"
Tongyi-DR-30B	30B-A3B MoE	大规模合成	多阶段 SFT + RL	trajectory outcome + 部分 process reward	更复杂的多阶段 pipeline,数据量是 DR-Venus 的几十倍
Open Deep Research (HF)	各种 base	开源数据	无 / 简单 SFT	—	主要是 prompting + scaffold 框架,不做 RL
OpenSeeker-30B-SFT	30B-A3B	全开源,大量合成	纯 SFT	—	"靠数据量胜",DR-Venus 选了"靠 RL 信号密度胜"
DAPO (ByteDance)	不限	—	DAPO	trajectory outcome	关注的是 RL 稳定性(clip-higher, dynamic sampling),没有 turn-level dense reward;跟 IGPO 是正交的改进
REDSearcher-30B-A3B	30B-A3B	10K 一样	SFT 主	—	同源数据但用 30B,DR-Venus-4B-SFT 在 BC-ZH 已超它(35.7 vs 26.8)说明数据 utilization 更重要

定位总结:DAPO 解决"RL 怎么稳定地训",IGPO/DR-Venus 解决"RL 信号怎么足够 dense"。两条线可以叠加 — 论文没做但理论上 DAPO 的 dynamic sampling + IGPO 的 turn-level IG 可以共存。

10 · 局限 / 个人 take / 待验证问题

10.1 论文里 explicit 的局限

RL 训练数据全英文,导致 BC-ZH Pass@K 大 K 上 RL 略输 SFT(distribution mismatch)。
γ=0.95 / λ_fmt=1.0 / s_max=10 的超参没有 sensitivity ablation,工程上是手调出来的。
外部 tool 只暴露 search + browse,没探索 code execution / file ops 等更复杂动作,跟 GAIA 的某些子任务不完全契合(GAIA 上 RL 反而 -1.0)。

10.2 我的个人 take

"4B + 10K"是论文最有价值的定位声明,而不是数字本身。它说明 deep research 不是"必须 30B"的赛道。这对端侧、私有部署是一个非常实用的论点。
IGPO 不是 DR-Venus 发明的,但 DR-Venus 把它"产品化"。browse-aware 分配 + format penalty + IG-Scale 是把原始 IGPO 拉到能在 200-turn 长 trajectory 下不崩的关键工程胶水。
turn-aware 重采样的 +4 在 BC 上比 RL 的 +2.3 都大。这暗示 SFT 数据分布的工程价值被严重低估;社区在追 reward shaping 时容易忽视"我的训练分布到底长什么样"。
Pass@K 揭示的 ceiling 是 future direction 信号:4B 模型 Pass@16 在 BC-ZH 已经 78.5,比 GPT-5 High Pass@1(65.0)高一截,说明 small model + verifier-based test-time scaling 是潜力巨大的研究方向(但本文没做这一步)。
对 GRPO 失败的解读值得警惕:论文说 "GRPO 在长 trajectory 上不行" 主要是因为 reward 太稀疏;但这并不证明 GRPO 算法本身不对——给它一个 dense reward(就像 IG 这样),GRPO objective(Eq. 10 几乎跟 IGPO 同形)也能 work。所以读论文时要分清"算法 vs reward 设计"。

10.3 待验证问题

IG-Scale 对结果到底贡献多少?论文用了它,但没单独 ablate。η=0.3 这个数字怎么来的?
browse-aware vs all-turn IG 的 ablation 缺失。如果在 search turn 也算 IG,效果是更差还是相当?
γ ∈ {0.9, 0.95, 0.99, 1.0} 的扫描没看到。在 200-turn 任务里,折扣窗口是关键超参。
SFT 数据如果不是 REDSearcher 而是 Tongyi-DR / WebSailor 的 trajectory,recipe 还成立吗?(数据源对 IG-reward 的相关性的影响)
RL 的 1K query-answer 对来源也是 REDSearcher,跟 SFT 数据存在分布同源性。如果 RL query 来自不同分布(BrowseComp 的 train split 等),还能稳定吗?
4B 已经触到 Pass@16 = 78.5(BC-ZH),那 8B / 14B 在同 recipe 下的 Pass@K ceiling 是多少?有没有 diminishing returns 的拐点?

11 · Memory points (冷启动复述)

立场4B + 10K open data 也能做 frontier deep research,关键不是规模、是数据 quality + RL signal density。

主干Qwen3-4B-Thinking-2507,SFT 用 verl FSDP,RL 用 verl + vLLM,8 → 16 张 A100,256K context。

数据10001 raw → 9365 cleaned → 18745 重采样后(0–50/51–100/>100 turn ×1/2/5)。RL 用 1K query-answer。

核心算法IGPO(GRPO 框架 + IG turn reward),G=8,γ=0.95,λ_fmt=1.0,IG-Scale 自适应。

IG rewardr_IG = log π(g|h≤t) − log π(g|h≤t-1),ground truth 包成同 schema,stop-gradient,只在 browse turn 算并反向归功到前面 search turn。

format penaltyturn-level: 错则 reward = -1.0,不连坐其他 turn。

关键 ablationSFT 重采样 +4.0; GRPO −1.5; IGPO +2.3 (BrowseComp)。说明 reward design > optimizer design。

最强结果DR-Venus-4B-RL: BC 29.1 / BC-ZH 37.7 / xBench-DS-2505 74.7(逼近 Tongyi-DR-30B 75.0)。

test-time scalingBC-ZH Pass@16: SFT 78.5,远超 GPT-5 High Pass@1 (65.0)、Gemini-3-Pro (66.8)、Tongyi-DR-30B (46.7)。

Tool useRL 把 browse ratio 从 17.5% 推到 22.5%,且 correct trajectory 比 wrong 的 browse 比例更高,RL 在做"tool calibration"而不是"tool 多用"。

vs DAPODAPO 解决稳定性(clip-higher, dynamic sampling),IGPO 解决信号密度(turn-level IG)。两者正交。

局限RL 数据全英文 → BC-ZH 大 K 上吃亏;γ/η/λ_fmt 没 sensitivity 扫描;只暴露 search+browse 两种 tool。