DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Venus Team, Ant Group · 2026-04-21 · arXiv:2604.19859 · inclusionAI
关键词: deep research agent · edge-scale 4B · agentic SFT · agentic RL · IGPO · turn-level info-gain reward

速读卡片 (TL;DR)

一句话:用约 10K 全开源数据,训出一个 4B 级 deep research agent;两段式 recipe = 严格清洗 + 长程轨迹重采样的 agentic SFT,接 IGPO 上的 turn-level information-gain reward + format-aware 正则,把 4B 推到 sub-9B SOTA、逼近 30B 班级。

10K
SFT 原始 trajectory 数
4B
Qwen3-4B-Thinking-2507 主干
29.1 / 37.7
BrowseComp / BC-ZH (Pass@1)

立场:不是模型创新,是数据 × 算法 × 监督密度的精打细算。"4B + 10K open data"已经够用,真正缺的是怎么把每条 trajectory 榨干、怎么在长达 200 turn 的稀疏 reward 下做 credit assignment。


1 · 动机:为什么 edge-scale + 10K 这条路值得走

1.1 历史脉络:deep research 的"巨型化"惯性

2024 → 2026 的 deep research 赛道走的是越大越好的路线。Tongyi-DR-30B、WebSailor-V2-30B、DeepMiner-32B-RL、REDSearcher-30B-A3B 几乎清一色 30B 起步,要么 dense 要么 MoE A3B。原因看上去也合理:long-horizon 任务(BrowseComp 平均 ~50 turn,xBench-DS 也 30+ turn)对 reasoning depth 和 tool-use 稳定性都极挑剔,小模型做不到 200 turn 不"漂"。

但产业落地侧的现实反过来:

过去的小模型尝试(WebSailor-7B、DeepDive-9B、WebExplorer-8B-RL、AgentCPM-Explore-4B)在 BrowseComp 上停留在 5–24 分,跟 30B 班级有 20+ 分差距。社区默认"小模型做不动 deep research",DR-Venus 的核心就是要打破这个默认。

1.2 为什么纯 SFT 对 deep research 不够 — 也为什么纯 RL 也不够

常见的两个极端方案各有死结,论文用一张对比表把它们都判了死刑:

路线具体做法对小模型的致命伤
纯 SFT (DeepDive-9B-SFT, WebSailor-7B)大量教师 trajectory 模仿format / tool-call 仍不稳;长程时一旦走偏没有自纠机制
纯 RL from scratch直接在 base 上跑 GRPO小模型 rollout 几乎全失败,advantage collapse(整组 reward = 0)
SFT + 稀疏 trajectory-level RL (GRPO 原版)只用最终答案对错给 reward200 turn 一个 scalar,credit 无从分配;论文实测 GRPO 在 BC 上 -1.5
SFT + dense per-token reward (RM 打分)用 reward model 给每 token 打分需要高质量 RM,本身就比 4B 大;reward hacking 风险
SFT + IGPO turn-level IG (本文)用 ground-truth 的 log-prob 增量当 turn reward无需额外模型,信号密度直接 = turn 数,200 turn 自带 200 个学习信号
关键 insight:不是 RL 不行,是 reward 太稀疏 → 给小模型的训练几乎等于"告诉它走 200 步以后对/错"。Information Gain 把它变成"每走一步告诉它有没有更接近 GT",密度提升 ~200×。

1.3 为什么这事不平凡:三个深坑

"用 IG 当 turn reward"听上去简单,但在实际工程里有几个非平凡的复杂度:

  1. Reward scale 不平衡。turn-level IG reward 是 log-prob 差,scale ~0.001 量级;outcome reward 是 0/1,normalize 后仍有数量级差。如果直接相加,IG 完全淹没 outcome 或反过来。论文设计了 IG-Scale 自适应缩放,在 outcome 弱(整 group 全错)时压低 IG 权重,避免被 IG 误导收敛到 local optimum。
  2. Search vs browse 的 IG 不同质。search 给的 snippet 是噪声大的探索性信号,browse 才能拿到具体证据。如果对所有 turn 都算 IG,容易奖励"反复搜索但不深读"的捷径。论文的 browse-aware 分配把 IG 锁定在 browse turn 上,且把它归功到该 browse 之前的所有 search turn(类似 reverse credit),这是 DAPO/GRPO 都没考虑的。
  3. Format penalty 的粒度。200-turn trajectory 里只要 1 个 turn format 错,trajectory-level format penalty 会把所有 199 个正确 turn 一起惩罚。turn-level format penalty 用 −λ_fmt 替换该 turn 的 reward,实现外科手术式监督。

这三件事 + IGPO 本身 + 数据 pipeline,组合起来才让 4B 跑得动 deep research。任意一项缺位都会塌。


2 · 背景速查

2.1 关键术语

术语含义
Deep Research Agent通过多轮 search/browse 在外部环境收集证据再合成答案的 agent;典型 trajectory 30–200 turn
Edge-scale≤ 4B 参数,可在单卡 / 端侧部署
Agentic SFT对包含 reasoning + tool call + observation 的多轮序列做 next-token 监督,只在 assistant token 上算 loss,observation token mask 掉
Agentic RLpolicy 自己在真实 tool 环境里 rollout,基于 outcome / turn reward 优化
GRPODeepSeekMath 提的 group-relative PPO,无需 value model;同 prompt 采样 G 个 trajectory 互相做 advantage baseline
DAPO字节版 GRPO 改良:dynamic sampling + clip-higher;主要解决 entropy collapse 与训练不稳
IGPOWang et al. 2026 (ICLR'26) 提出,在 GRPO 框架里用 information gain 作为 turn-level reward 的 RL 算法,本文直接 build on 它
Information Gain (IG) rewardr_IG = log π(g | h≤t) − log π(g | h≤t-1),即新增一个 turn 后模型对 ground truth 的 log-prob 提升
REDSearcher trajectory本文 SFT 数据来源(Chu et al. 2026, 30B-A3B 系统的训练数据);10K 条 raw trajectory,Apache 2.0
BrowseComp / BrowseComp-ZHOpenAI 推的 long-horizon web browsing benchmark,英文 / 中文版;每题平均要 30–50+ turn
Pass@K独立采样 K 次中至少一次正确的概率;衡量"capability ceiling"而非"reliability"

2.2 GRPO → IGPO 的演化路径(一图回顾)

PPO + value model token-level GAE GRPO group baseline trajectory reward DAPO dynamic sampling clip-higher IGPO (本文 build-on) turn-level IG reward + format penalty + IG-Scale + γ-discount 2017 OpenAI 2024 DeepSeek 2025 ByteDance 2026 (ICLR) 问题轴: reward 越来越 dense, supervision 粒度越来越细
DR-Venus 没有再造 RL 算法,而是把 IGPO 这个 GRPO 派系的 turn-reward 变体,进一步配上 browse-aware 分配、format-aware 正则、IG-Scale,使其在长程 deep research 上稳定。

3 · 两阶段 recipe 全景图

论文的方法可以被压成下面这张图。注意 stage 1 输出的不是 checkpoint 本身,而是已经会做基本 tool use 的格式化 agent;stage 2 的核心是把这些 trajectory 的执行可靠性拉到能拿到 outcome reward 的地步。

REDSearcher 10,001 raw trajectory Stage 1: Agentic SFT ①格式对齐 → 10001 ②非法工具 / 重复剪除 → 10000 ③correctness 过滤 → 9365 ④turn-aware 重采样 9365 → 18745 (1×/2×/5×) SFT loss on assistant tokens only (observation tokens masked) Stage 2: Agentic RL via IGPO 1K query-answer pair → rollout group G=8 Turn-level reward 三件套 IG reward · browse-aware · format penalty 归一化 + IG-Scale (η=0.3, s_max=10) + γ=0.95 折扣累加 IGPO objective (GRPO-style) clip ε, β·D_KL(π_θ ‖ π_ref) DR-Venus-4B-RL 29.1 / 37.7 / 64.4 / 74.7 / 40.7 / 39.6 10K raw 数据 单一来源, Apache 2.0
整条 pipeline 的"狭窄入口":只有 ~10K open-data。所有的工作都集中在两个动作上 —— ① 把 SFT 数据洗干净,② 把 RL 信号搞稠密。两个 stage 用的训练数据其实是不同切片:SFT 用 10K trajectory,RL 用 1K query-answer 对。

4 · Stage-1: Agentic SFT 的四步数据清洗 + turn-aware 重采样

"为什么 10K 够"——单看数据量是不够的,关键是数据怎么用。论文的四步 pipeline 配合一个非平凡的重采样,把 9365 条有效 trajectory "扩容"到 18745 条分布上更长程的训练样本。

4.1 四步清洗(数字都是论文里的)

步骤动作输入→输出关键效果
① Environment alignment把 raw trajectory 重写成线上 inference 用的 message schema / system prompt / tool 协议10001 → 10001消除 train/inference mismatch,这一步对小模型尤其关键
② Disallowed tool prune + dedup移除 search/browse 之外的 tool call(主要是 Python-Interpreter,3378 条),去重 search/browse(15728 条 dup,大部分是 browse 重复)10001 → 10000防止小模型学到"call PythonInterpreter"等 deploy 时不存在的工具;1064 条 trajectory 受影响
③ Correctness filter用 Qwen3-235B-A22B-Instruct-2507 当 judge,丢弃最终答案错的 trajectory10000 → 9365 (93.65%)避免"模仿错误 reasoning"
④ Turn-aware resampling0–50 turn ×1, 51–100 turn ×2, >100 turn ×59365 → 18745>50 turn 占比 60.28% → 80.15%; >100 turn 占比 13.29% → 33.21%

4.2 为什么 turn-aware 重采样这么管用

这是本文 SFT 阶段的核心 trick。一般"upsample 长样本"的方法在普通 SFT 里效果有限,但对 deep research 是正中靶心:

4.3 Worked example: 一条 raw trajectory 的"清洗 → 重采样"轨迹

假设原始 trajectory: 130 turn, 含 2 次 PythonInterpreter, 5 次重复 browse, 答案正确 RAW 130 turn 含非法 tool ①格式对齐 130 turn (不变) schema 改写 ②剪非法+去重 130 → 118 turn 2+5 turn 删掉 ③correctness 通过 (答案对) → 留 118 turn ④×5 重采样 118>100 → ×5 5 份训练样本 结果: 这条 trajectory 在 epoch 内被见 5 次,而短 trajectory 只见 1 次。 SFT loss 自然就被"长程行为"主导了。 SFT objective: −∑ log π_θ(x_i | x_<i) over assistant tokens only (observation 全部 mask)
从 raw trajectory 到 SFT batch 的全流程。注意 ② 的剪枝是"turn-level"的——只删非法 turn 不删整条 trajectory,这样 1064 条本来要被丢的 trajectory 被救回来了。

4.4 反向论证: 不做重采样会怎样

看 ablation:DR-Venus-4B-SFT (w/o Resampling) 在 BC 上只有 22.8。同样 9365 条数据,只是分布偏短,小模型就更倾向于"看完前 30 turn 直接 finalize"。这种偏好对 BrowseComp 致命——很多正确答案要 100+ turn 的 cross-source verification。


5 · Stage-2: IGPO + turn-level info-gain reward

SFT 给的是"会做"的 baseline,RL 要解决"做对"的稳定性。论文最有特色的就是奖励信号的设计——不是发明 RL 算法,是发明 dense reward。

5.1 IG reward 的物理直觉

定义重温(论文 Eq. 3):

rIGi,t = log πθ(g | hi,≤t) − log πθ(g | hi,≤t-1), 1 ≤ t < Ti

把 ground truth answer g 包装成跟 model response 同 schema(<think>Now there's enough information to answer</think><answer>G</answer>),然后看模型 condition 在前 t turn 的 history 上,生成这串 g 的 log-prob 提升了多少。

关键:reward 的"密度" = trajectory 长度。200 turn 自动得到 200 个 reward signal,无需任何 reward model 也无需人工标注。这是把 GRPO 那种 "trajectory 一个 scalar reward" 直接变成 "每 turn 一个 reward"。

5.2 Browse-aware IG 分配

但 search turn 给的 reward 是噪声大的——一次 search 返回的是 snippet 列表,模型对 g 的 log-prob 可能小幅震荡。论文观察:browse turn 才是真正"读到证据"的 turn,IG 信号在 browse 上更可靠。

方案:

  1. 只在 browse turn 计算 IG。
  2. 把这个 IG 同时归功给 该 browse turn 自己 + 所有上一个 browse 之后的 search turn

这相当于把 search 当作"在为下一次 browse 做准备工作",reward 来自 browse 的成功——一种粗粒度 credit 反向分配。

turn 1 turn 8 S S B S S S B A IG = +0.012 IG = +0.034 outcome r_O S=search, B=browse, A=answer; 实线箭头表示该 turn 自己的 IG, 虚线表示从 browse 反向归功到此前的 search turn
browse-aware IG 分配的具体形态:第一段 (S, S, B) 共享 +0.012,第二段 (S, S, S, B) 共享 +0.034,answer turn A 由 outcome reward r_O 决定(0 或 1)。

5.3 Turn-level format penalty

Eq. 4 简洁但 powerful:

i,t = ri,t if format(t) valid, else −λfmt

具体实现:任何一个 turn 的 <think>...</think><tool_call>...</tool_call> schema 不合法、JSON 解析失败、tool name 错拼,就把那个 turn 的 reward替换成 −λ_fmt(论文用 1.0)。论文实测 λ_fmt = 1.0 是 IG/outcome 同尺度 normalize 之后的合理值。

对比 trajectory-level format penalty:后者会给整条 200 turn trajectory 一个 -1 的 scalar,即使只是第 87 turn 错了一个 JSON 引号——前 86 turn 的正确行为也被打压。turn-level 把惩罚 surgical 化,只罚那一 turn。

5.4 IG-Scale: 解决 reward 不平衡

归一化后 (Eq. 5),IG reward 和 outcome reward 都是 ~N(0,1) scale。但当 group 里全错(outcome 全 0,normalize 后 σ_O ≈ 0,μ_O = 0,数值上整组 r̃_O ≈ 0)时,outcome 完全失声,policy 被 IG 单独驱动,容易学到"refine reasoning 但永远不答对"的 local optimum。

IG-Scale 的做法(Eq. 6–8):

s = min( max(MO, η) / (MIG + δ), smax )

其中 η=0.3, δ=10⁻⁸, s_max=10。直觉:

"weak outcome → 谨慎更新"是经典的 RL 鲁棒性设计,这里把它做到了 turn-reward 缩放上。


6 · 公式拆解:从 IG reward 到 IGPO objective

6.1 各步公式 + 物理含义

公式含义关键参数
Eq. 2: log π_θ(g|h≤t) = (1/L)∑ log π_θ(g_j|h≤t,g<j)归一化的 ground-truth log-prob,除 L 避免长答案权重过大L = answer 的 token 数
Eq. 3: r_IG = Δ log π_θ(g)turn 级信息增益stop-gradient(论文脚注 1, IG 不参与反传)
Eq. 4: format-adjusted rewardformat 错则 reward = −λ_fmtλ_fmt = 1.0
Eq. 5: 组内 normalizeIG 和 outcome 分别在 group 内 (μ, σ) 归一G = 8
Eq. 6–7: IG-Scale s自适应缩放系数η=0.3, δ=1e-8, s_max=10
Eq. 9: R̃_i,t = ∑_{k≥t} γ^{k-t} r̄_i,k折扣累加,把未来 turn 的 reward 折现给当前 turnγ = 0.95
Eq. 10: IGPO objectiveGRPO 风格的 ratio·advantage 形式 + clip + KLε(clip), β(KL)

6.2 IGPO objective 的梯度长什么样

Eq. 10 形式上跟 GRPO 完全一样,差异只在 advantage:

JIGPO(θ) = E [ (1/G)∑i (1/|ui|)∑k min(ρi,ki,k, clip(ρi,k, 1±ε) R̃i,k) − β DKLθ ‖ πref) ]

其中 ρ_i,k = π_θ(u_i,k|c_i,k) / π_θ_old(u_i,k|c_i,k) 是 token-level importance ratio,R̃_i,k 是该 token 所属 turn 的折扣累加 reward——同 turn 内所有 token 共享 R̃(论文明确说 "for tokens from turn t, we set R̃_i,k = R̃_i,t")。

等于说:turn 是 reward 单位,但 ratio / clip 是 token-level 算的;这是个干净的 hybrid granularity。

6.3 数值敏感性: γ 怎么影响 reward 累加

γturn 距离 = 50 时折扣实际效果
0.990.61太"长视" — 早期 search 几乎拿到末端 outcome 全部 reward,credit 被稀释
0.95 (本文)0.07750 turn 折扣到 ~7.7%,相当于"看 30–50 turn 的视野"
0.90.005折太狠 — 末端 outcome 几乎传不到中段 turn,IG 必须独立支撑学习
0.00退化为 myopic per-turn,完全不传播 outcome

7 · Worked Example: 一个 BrowseComp 查询的 8-turn IG 轨迹

让我们看一个具体的 BrowseComp 风格问题怎么走完一条 trajectory,以及 IG reward 在每一 turn 长什么样。

Query:"一位在 1980 年代曾代表美国参加奥运会铁饼项目、退役后转入大学教练岗位、且其学生在 2000 年悉尼奥运会上拿过铁饼银牌的运动员叫什么名字?"
Ground truth (g): John Powell

设 baseline log π_θ(g | q) = −7.20(模型一开始毫无线索)。我们追踪 8 个 turn 的 IG。

taction具体内容(简述)log π_θ(g | h≤t)r_IGformat ok?r̂(归一前)
0history = q−7.20
1search"USA discus throw 1980s Olympic"−6.95(归并到 t=3)
2search"American discus thrower coach Sydney 2000"−6.83(归并到 t=3)
3browse读 Wikipedia "John Powell (discus thrower)"−5.10+2.10+2.10 (分给 t=1,2,3)
4search"Adam Setliff coach silver medal Sydney"−5.05(归并到 t=6)
5search"Sydney 2000 discus silver medalist"−4.92(归并到 t=6)
6browse读 "2000 Olympics men's discus throw" — 看到 silver = Lars Riedel(德), bronze = Frantz Kruger;Powell 学生没拿牌−5.40−0.30−0.30(modify search/browse 路径)
7browse重新读 "John Powell coaching career" → 发现 Mac Wilkins 是其训练伙伴,但学生层面不符 → 模型决定 reframe 问题(也许"代表美国"不严格)−4.31+1.09+1.09
8answer<answer>John Powell</answer>r_O = 1 (judged correct on the basis of teaching career match)

关键观察:

  1. turn 6 的 IG 了 — 模型发现自己读到的页面跟 g 不符,这在 IG 框架里是正常信号:它说"这条 browse 让我对 g 的 confidence 反而下降",policy 学到"以后类似上下文不要走这条路"。
  2. browse-aware 把 t=3 的 +2.10 平分给 t=1, 2, 3 —— 之前那两次 search query 被回溯地确认为"对最终找到 Powell Wikipedia 有用"。
  3. 整条 trajectory 8 个 turn 拿到 4 个非零 reward(t=3, 6, 7 的 IG + t=8 的 outcome)。如果用 GRPO 的 trajectory-level reward,只有 t=8 一个 +1,前 7 turn 全是 0,GRPO 没法分辨"turn 1 的 search 是好还是坏"。
  4. IG-Scale: 这一条 trajectory outcome = 1, group 里如果其它 trajectory 也是 1 居多,M_O 就大,IG 被放大;如果其它都失败(outcome=0),IG-Scale 会自动压低 IG 防止过激更新。
反向论证:如果没有 turn-level IG,把这条 trajectory 整体打 +1 reward 平均到所有 token,policy 会把"包括 turn 6 那次失败的 browse"也学下来。这就是 trajectory-level RL 在 long-horizon 上 advantage 难以分配的核心痛点。

8 · 实验关键结果

8.1 主表(精简版)

ModelParamsBrowseCompBC-ZHGAIAxBench-2505xBench-2510DeepSearchQA
WebExplorer-8B-RL8B15.732.050.053.723.017.8
AgentCPM-Explore-4B4B24.129.163.970.034.032.8
DR-Venus-4B-SFT4B26.835.765.469.035.337.7
DR-Venus-4B-RL4B29.137.764.474.740.739.6
— 30B 班级参考 —
Tongyi-DR-30B30B43.446.770.975.055.0
WebSailor-V2-30B-RL30B35.344.174.173.7
REDSearcher-30B-A3B30B-A3B42.149.880.1

读法:RL 在 6 项里 5 项跑赢 SFT(GAIA 是 -1.0,文中归因为 GAIA 偏知识问答而非 long-browse)。在 xBench-DS-2505 上,DR-Venus-4B-RL 74.7 已经触到 Tongyi-DR-30B 的 75.0,7.5× 的参数差被吃掉了。

8.2 GRPO vs IGPO ablation(最 load-bearing 的一张表)

ModelBrowseCompBC-ZH
SFT (w/o Resampling)22.833.9
SFT (w/ Resampling, ours)26.8 (+4.0)35.7 (+1.8)
SFT + RL with GRPO25.3 (−1.5)35.6 (−0.1)
SFT + RL with IGPO (ours)29.1 (+2.3)37.7 (+2.0)

这张表是论文的 punch line:同样 RL infra、同样数据、同样 base,GRPO 在 BrowseComp 上甚至退化(−1.5),IGPO 反而 +2.3。证明 long-horizon agentic RL 的瓶颈是 reward 信号设计而不是优化算法本身。

8.3 Pass@K 揭示的 capability ceiling

K (Pass@K, BrowseComp-ZH) Accuracy % 1 2 4 8 16 30 45 60 75 90 DR-Venus-4B-SFT (78.5 @16!) DR-Venus-4B-RL Tongyi-DR-30B (46.7 @1) Gemini-3-Pro Pass@1 = 66.8 GPT-5 High Pass@1 = 65.0
BrowseComp-ZH Pass@K 曲线:DR-Venus-4B-SFT 在 K=8 已超 Gemini-3-Pro Pass@1,K=16 (78.5) 大幅领先 GPT-5 High Pass@1 (65.0) 与 Tongyi-DR-30B Pass@1 (46.7)。这是论文最 punchy 的"test-time scaling 在小模型上的杠杆"证据。

论文的 take:Pass@1 这种"reliability"指标低估了小模型的 capability ceiling。RL 主要把 Pass@1 / @2 拉起来——即 reliability;Pass@16 的 ceiling 反而 SFT 已经接近极限(BC-ZH SFT @16 = 78.5,RL @16 = 76.5,RL 略低,论文归因为 RL 数据全英文导致中文分布漂移)。

8.4 Tool use 分析:correct trajectory 的 browse ratio 更高

聚合数:overall browse ratio SFT 17.49% → RL 22.46%;correct trajectory 的 browse ratio 23.71% → 28.96%。RL 不是简单"少 search 多 browse",而是把 tool-use 行为校准到 success 模式上。xBench-DS-2510 上 SFT 反常("wrong browse 多于 correct browse"),RL 把这个反常修正了。


9 · 与同类工作对比

系统规模数据RL 算法Reward 粒度跟 DR-Venus 的差异
DR-Venus (本文)4B dense10K open SFT + 1K open RLIGPOturn-level IG + outcome + format
SFR-DeepResearch (Salesforce)14B/32B合成 + 闭源GRPO 变体trajectory outcome规模大 1 个数量级,reward 稀疏,需 self-correction loop 弥补
WebSailor-V2-30B30B dense合成 + 闭源GRPO + DAPO 风格 samplingtrajectory outcome30B 起步,本质上"放大模型解决 reward 稀疏"
Tongyi-DR-30B30B-A3B MoE大规模合成多阶段 SFT + RLtrajectory outcome + 部分 process reward更复杂的多阶段 pipeline,数据量是 DR-Venus 的几十倍
Open Deep Research (HF)各种 base开源数据无 / 简单 SFT主要是 prompting + scaffold 框架,不做 RL
OpenSeeker-30B-SFT30B-A3B全开源,大量合成纯 SFT"靠数据量胜",DR-Venus 选了"靠 RL 信号密度胜"
DAPO (ByteDance)不限DAPOtrajectory outcome关注的是 RL 稳定性(clip-higher, dynamic sampling),没有 turn-level dense reward;跟 IGPO 是正交的改进
REDSearcher-30B-A3B30B-A3B10K 一样SFT 主同源数据但用 30B,DR-Venus-4B-SFT 在 BC-ZH 已超它(35.7 vs 26.8)说明数据 utilization 更重要

定位总结:DAPO 解决"RL 怎么稳定地训",IGPO/DR-Venus 解决"RL 信号怎么足够 dense"。两条线可以叠加 — 论文没做但理论上 DAPO 的 dynamic sampling + IGPO 的 turn-level IG 可以共存。


10 · 局限 / 个人 take / 待验证问题

10.1 论文里 explicit 的局限

10.2 我的个人 take

10.3 待验证问题

  1. IG-Scale 对结果到底贡献多少?论文用了它,但没单独 ablate。η=0.3 这个数字怎么来的?
  2. browse-aware vs all-turn IG 的 ablation 缺失。如果在 search turn 也算 IG,效果是更差还是相当?
  3. γ ∈ {0.9, 0.95, 0.99, 1.0} 的扫描没看到。在 200-turn 任务里,折扣窗口是关键超参。
  4. SFT 数据如果不是 REDSearcher 而是 Tongyi-DR / WebSailor 的 trajectory,recipe 还成立吗?(数据源对 IG-reward 的相关性的影响)
  5. RL 的 1K query-answer 对来源也是 REDSearcher,跟 SFT 数据存在分布同源性。如果 RL query 来自不同分布(BrowseComp 的 train split 等),还能稳定吗?
  6. 4B 已经触到 Pass@16 = 78.5(BC-ZH),那 8B / 14B 在同 recipe 下的 Pass@K ceiling 是多少?有没有 diminishing returns 的拐点?

11 · Memory points (冷启动复述)

立场4B + 10K open data 也能做 frontier deep research,关键不是规模、是数据 quality + RL signal density。
主干Qwen3-4B-Thinking-2507,SFT 用 verl FSDP,RL 用 verl + vLLM,8 → 16 张 A100,256K context。
数据10001 raw → 9365 cleaned → 18745 重采样后(0–50/51–100/>100 turn ×1/2/5)。RL 用 1K query-answer。
核心算法IGPO(GRPO 框架 + IG turn reward),G=8,γ=0.95,λ_fmt=1.0,IG-Scale 自适应。
IG rewardr_IG = log π(g|h≤t) − log π(g|h≤t-1),ground truth 包成同 schema,stop-gradient,只在 browse turn 算并反向归功到前面 search turn。
format penaltyturn-level: 错则 reward = -1.0,不连坐其他 turn。
关键 ablationSFT 重采样 +4.0; GRPO −1.5; IGPO +2.3 (BrowseComp)。说明 reward design > optimizer design。
最强结果DR-Venus-4B-RL: BC 29.1 / BC-ZH 37.7 / xBench-DS-2505 74.7(逼近 Tongyi-DR-30B 75.0)。
test-time scalingBC-ZH Pass@16: SFT 78.5,远超 GPT-5 High Pass@1 (65.0)、Gemini-3-Pro (66.8)、Tongyi-DR-30B (46.7)。
Tool useRL 把 browse ratio 从 17.5% 推到 22.5%,且 correct trajectory 比 wrong 的 browse 比例更高,RL 在做"tool calibration"而不是"tool 多用"。
vs DAPODAPO 解决稳定性(clip-higher, dynamic sampling),IGPO 解决信号密度(turn-level IG)。两者正交。
局限RL 数据全英文 → BC-ZH 大 K 上吃亏;γ/η/λ_fmt 没 sensitivity 扫描;只暴露 search+browse 两种 tool。