PRISM: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models

Jinbin Bai et al. (NUS / Xi'an Jiaotong / GaTech / PKU / Yale / UC Merced) · ICML 2026 · arXiv:2602.01842
关键词: discrete diffusion LM · LLaDA / Dream · test-time scaling · hierarchical trajectory search · self-verified feedback · partial remasking

速读卡片 (TL;DR)

一句话:把 AR 世界的 best-of-N 思路改造给 dLLM:用三段式 Hierarchical Trajectory Search(早期广撒、中期 SVF 剪枝 + 局部 remask 分支、末期精修),再用模型自身的 Yes/No prompt 作为 Self-Verified Feedback 替代外部 reward model,把 O(NT) 的暴力 width-scaling 压到 O(N + KT)。

2.9–6.5×
NFE 节省 (匹配 best-of-N)
+26%
LLaDA-8B 在 GSM8K 相对 N=1
<10%
SVF 调用占总 NFE 比例

立场:这是 dLLM 上第一个把 search 调度和 verifier 都对齐"denoising 动力学"做的工作。关键洞察是 dLLM 的 entropy 曲线有"logic phase transition"——计算应该砸在 W=[0.1, 0.6] 这段中段,而不是均匀分配。


1 · 动机

1.1 历史脉络:dLLM 撞上和 AR 一样的 accuracy 墙

2025 年是 dLLM 从玩具走向 reasoning baseline 的一年——LLaDA-8B、Dream-7B、LLaDA-2.0、Seed Diffusion、Mercury、Gemini Diffusion 都把"masked diffusion + bidirectional 上下文"做到了和同尺寸 AR 模型可比的精度。但 dLLM 一旦真的拿去做数学题、写代码,就会很快撞到 AR 模型熟悉的 accuracy ceiling:N=1 single trajectory 在 GSM8K 上 LLaDA-8B 也就 67.58%,MATH500 上只有 26.40%——继续训也榨不出多少。

AR 世界里这个问题的标准答案是 test-time scaling (TTS):CoT、self-consistency (Wang 2022)、best-of-N (Brown 2024)、o1-style RL + 长 thinking、tree-of-thoughts / MCTS (Yao 2023)。本质都是花推理时算力换正确率。但这些算法的设计前提是 left-to-right、prefix-conditional 的解码——比如 PRM 要给"良构 prefix"打分,MCTS 节点是逐 token 增量的。

dLLM 的 generation 长得完全不一样:

所以"把 best-of-N 直接搬过来"是 trivial 的(跑 N 条独立 trajectory + majority vote 就行),问题是 每条都要 T 步去噪——LLaDA-8B 默认 256 token / 32 steps per 32-token block,N=16 直接 16× 算力。论文 Figure 1 给了硬数据:GSM8K 上 best-of-16 要 4096 NFE 才到 87.50%,PRISM 用 1048 NFE 就能到 85.30%——用 1/4 算力换 -2.2 pp。这就是 PRISM 想解决的"dLLM-flavor 的 TTS"。

1.2 别的方案为什么不够 (对比表)

方案核心机制对 dLLM 的问题
Best-of-N (parallel)跑 N 条独立 trajectory + majority voteNFE = NT,16 条就 16× 算力
HEX (Lee 2025a)不同 semi-AR block schedule 的 ensemble仍然 exhaustive parallel decoding,所有候选要跑完
Length scaling / 更多 denoise steps把 T 调大dLLM 的 T 已经被 sequence length 钉死(每 token 几乎已分到 1 step),没多少 headroom
外部 PRM / ORM verifier另起一个 reward model 打分(1) PRM 训练在 well-formed prefix 上,在 partially-masked 状态上 ill-calibrated;(2) 多 load 一个 8B 模型, 40GB A100 直接 OOM
PG-DLM / SMC (Dang 2025)把 trajectory 视为 particle,做 importance resampling瞄准 reward-tilted 分布而非 reasoning accuracy,resample 每步都做开销大
ReMDM (Wang 2025)在采样时加入 remasking 噪声没有 verifier-guided 剪枝,纯随机 exploration 效率低
MEDAL / MCTS-for-dLLM (Huang 2025)MCTS-style 节点扩展报告 12.3× baseline runtime,代价过高

1.3 为什么这事不平凡

三个 dLLM 独有的复杂性,直接照搬 AR TTS 就会踩坑:

  1. "早期决定全局,晚期决定细节"的非对称性。论文附录 A 测了 Dream-7B 在四个 benchmark 上 token-averaged 预测熵 H(t):熵在 很早期急剧下降,但 mid-trajectory 仍有显著 bumps 和 inter-trajectory variance,直到末期才共同收敛。意味着:整体框架(logic skeleton)在 mid-denoising 已经分化,但局部 token 还没定;在熵已经"分化但未塌缩"的窗口里剪枝最有信息量。
  2. Verifier 必须在 partially-masked 状态上工作。AR PRM 训练数据是 prefix,给 [MASK] 包裹的中间态打分会失准。PRISM 的 trick 是不直接评 partially-masked z_t,而是先 argmax 出 ẑ₀(z₀-prediction head 一直输出全序列),再让同一个 dLLM 用 Yes/No prompt 判断这个 hypothetical 答案——把 verify 问题转成"dLLM 擅长的 text understanding"任务。
  3. 多 trajectory 之间的"branching"语义不像 AR 那样清晰。AR 树里一个节点 = 一个 prefix,分裂就是 sample 下一个 token。dLLM 一条 trajectory 是整条 256-token 的 partially-denoised 序列,怎么"在它附近"产生 diverse children?如果完全重 sample 就退化成 best-of-N;如果完全 share 就没多样性。PRISM 的答案是 partial remasking:保留高置信度的 logic skeleton,只重 mask 低置信度位置——既复用算力又保多样性。

这三条加在一起决定了 PRISM 不是"把 MCTS 抄过来",而是要重新设计 search 拓扑、verifier 形式、扩展操作三件事,都对齐 dLLM 的 denoising 动力学。


2 · 背景速查

符号 / 术语含义
z₀, z_t原始 token 序列 / 第 t 步带 MASK 的序列, t 从 T 走到 0
α_tmasking schedule, monotonic; q(z_t|z₀) = Cat(α_t·e(z₀) + (1-α_t)·e_m)
z₀-prediction headdLLM 在任何 t 都能输出完整序列的预测分布 p̃_θ(z₀|z_t,c,t),取 argmax 得到 ẑ₀
Block diffusion把 L 个 token 切 B 块(典型 L=256, M=32),块内并行去噪 T 步,块间 left-to-right;LLaDA / Dream 默认
NFENumber of Function Evaluations,一次完整 forward = 1 NFE,是 dLLM 推理算力的事实标准
N / S / K初始 trajectory 数 / 每次 prune 后留的 seed 数 / 最终目标宽度
W = [w_min, w_max]pruning window 比例(默认 0.1-0.6),换算到步数 T_r = ⌈w_min·T⌉, T_p = ⌈w_max·T⌉
dgeometric decay 因子(默认 1.8),控制活跃 pool 缩小速度
ipruning interval(默认 3 步),每 i 步才做一次 prune+branch
Φ_SVFSelf-Verified Feedback 分数,定义为 dLLM 在 Yes/No verification prompt 下的 σ(s_Yes - s_No)
容易混淆: 这里 t 是 denoising 步(从 T 倒数到 0),不是 wall-clock time;"early-to-mid window" 在 t-坐标上是 t 大但还没到 T 的那一段。PRISM 的 W=[0.1, 0.6] 是 normalized 后的相对位置——剪枝发生在第 10%–60% 这段,而非头 10% 也非末 40%。

3 · 总览:PRISM 的三个零件

论文起的标题首字母拼出 PRISM = Pruning + Remasking + Integrated Self-verification Method。但实际是三个解耦的机制:

AR best-of-N (基线) N 条平行 trajectory, 每条全程跑完 T 步 ×N cost = O(N·T) PRISM HTS (本文) Stage I 探索 (t>T_p) N=8 Stage II 渐进剪枝 + branching (T_r<t≤T_p) SVF top-S partial remask 分支 Stage III 精修 (t≤T_r) K=4 条到 t=0
左:AR best-of-N 暴力 width scaling,N×T。右:PRISM 用 N=8 起步,在 T_p≈0.6T 之后开始 SVF-guided 剪枝(蓝线收敛),top-S 通过 partial remask 重新展开成 children(红线发散),最终 K=4 条到 t=0 精修。关键 trade-off 是把"广度"集中在熵已分化但未塌缩的窗口。

对应 paper Algorithm 1:


4 · SVF — 让 dLLM 自己当 verifier

外部 reward model 是 AR TTS 的标配,但对 dLLM 有两个硬伤:(1) PRM 训练在 prefix 数据上,partially-masked z_t 不在它见过的分布里;(2) 跑一个独立 7-8B verifier 直接把 8B dLLM 的 deployment memory 翻倍。SVF 的 trick 是:不评中间状态,只评 z₀-prediction head 给出的完整 hypothetical 答案

ẑ₀ ← argmaxk p̃_θ(z₀|z_t, c, t) ;
π(c, ẑ₀) = "Is this answer correct? Yes / No"
Φ_SVF = exp(s_Yes) / (exp(s_Yes) + exp(s_No))

其中 s_Yes / s_No 分别取 dLLM 在 verification prompt 末位置上,Yes 类 token IDs(如 "Yes", "yes", "YES")的 max logit 和 No 类的 max logit。本质是用 dLLM 自身的 instruction-following 能力做二分类 calibration。

trajectory state z_t "Q: ... A: 8×7=56, then [M][M] ..." z₀-pred head · argmax ẑ₀ (full hypothesis) "... = 56, ans = \boxed{56}" verification prompt π(c, ẑ₀) "Question: ... Answer: ... Is this answer correct? Answer Yes or No:" same dLLM C_θ (reused, no extra model) logits at last pos s_Yes=3.2, s_No=1.1 → Φ_SVF = 0.89
SVF flow:partially-masked z_t → z₀-prediction head 一次性吐出完整候选 ẑ₀ → 构造 "Is correct? Yes/No" prompt → 同一个 dLLM 再做一次 forward → 末位置 Yes/No logit 做 binary softmax。整个过程不需要额外模型,Φ_SVF 直接作为 trajectory 排序 key。

Worked example

问题: If Lisa has 7 boxes of 8 chocolates and gives away 2 boxes, how many chocolates does she have left?

假设 t=80 时(T=128, 已经走了 48 步),有两条 trajectory 的 ẑ₀ 都还带几个 [MASK],argmax 给出:

两条最终答案都 40 但中间论证完全不同。SVF prompt 把两个 ẑ₀ 各喂回 dLLM 一次:

之后 HTS top-S=2 选中包含 A 的两条作为 seed,B 被淘汰。

SVF 可靠吗?

Table 5 给了诊断:在 GSM8K / MATH-500 上用 Qwen3-235B-A22B-Instruct 做 proxy oracle,SVF 的 F1 在 0.63–0.73 之间(显著优于随机),而且 ECE 从 first SVF (0.20-0.33) 单调降到 last SVF (0.09-0.29)——denoising 越往后,SVF 越自信也越 calibrated。论文把这归因于"hypothetical 答案语义稳定性提升"。

反向论证

如果不用 SVF 而用 random pruning,ablation (Table 4) 显示 K=2/4/8 各掉 3.5/4.3/3.7 pp——SVF 是主要 search 增益来源。如果用 Qwen3-8B 当外部 verifier,GSM8K 能再涨到 87.35(SVF 85.30),但要多 load 一个 8B 模型,总 params 16B vs 8B,在 40GB A100 上直接 OOM。SVF 用同模型换 -2 pp 是值得的成本。


5 · HTS — 三段式 + geometric decay

HTS 的本质是一个 budget allocation 调度:T 个 denoising 步、总 NFE 预算固定,要决定每步保留多少活跃 trajectory。论文画出的关键直觉是 entropy 曲线(附录 A)的形状:

denoising 进度: t=T(全 mask) → t=0(完成),从左到右 avg H(t) Stage I 探索 w>w_max=0.6 熵高,SVF 不可靠 N=16 全跑 Stage II 渐进剪枝(logic phase transition) W=[0.1, 0.6] · d=1.8, i=3, S=4 熵已分化但未塌缩 → 信号最丰 SVF 排序 → top-S → partial-remask 分支 Stage III 精修 w<w_min=0.1 K=8 独立跑到 t=0 τ=0.95 提前提交 W_t = max(N·d^{-(T_p-t)}, K)
三段式调度对齐 entropy 曲线:Stage I(右起 40% 区段,t>T_p)entropy 在塌缩中,直接广撒;Stage II 是 logic phase transition 区段(熵已分化),把活跃宽度按 geometric decay 收缩到 K,期间用 SVF + partial remask 做精确的"留谁、留几个 children";Stage III 精修阶段 K 条独立 denoise 完。绿色虚线是 W_t 的演化轨迹。

几何衰减的算术

取默认 N=16, K=8, d=1.8, T=32 (LLaDA 每块), W=[0.1, 0.6] → T_p=⌈0.6·32⌉=20, T_r=⌈0.1·32⌉=4。Stage II 跨 16 步,但每 i=3 步才触发剪枝。活跃宽度 W_t = max(16·1.8^{-(20-t)}, 8)。代入:

tW_t 公式W_t事件
2016·1.8⁰16Stage II 开始,首次 SVF+branch
1716·1.8⁻³2.7→max=8已经触底,但仍 i=3 触发一次 branch
14同上8稳定在 K=8
48Stage III 开始

这里 d=1.8 其实把 N→K 的收缩压在了前两次 prune 内。论文实验也确认 d 太小(慢收缩) / 太大(激进)都差,1.8 是 sweet spot。

反向论证: 不做三段式会怎样


6 · Local Branching via Partial Remasking

剪枝以后剩下 S 个 survivor seeds,每个 seed 需要扩出 b_t = ⌈W_{t-1}/S⌉ 个 children 才能填满下一步的 W_{t-1} 池。最朴素的做法是把 seed 整个 mask 掉重 sample——但那就丢掉了 seed 已经形成的 logic skeleton。PRISM 的 partial remasking 是这样的:

û_i = H(p̃_θ(z₀,i | z_t, c, t)) ; 取熵高的 U_t = top-α 位置
I_t ⊆ U_t 随机 subset → z_t' = Remask(z_t; I_t)
survivor z_t (高 SVF 的种子) a M c M e f y z step ① 计算每个非 mask 位的熵 H_i a:0.1 c:0.6 e:0.9 f:0.8 y:0.2 z:0.1 U_t = {c, e, f} (低置信) step ② 从 U_t 随机抽 I_t,例如 {c, f} a M M M e M y z 红色 = 新 remask 的低置信位 同一个 seed 另一 branch (I_t={e}) a M c M M f y z → DenoiseStep, 一条 child
partial remasking: 蓝色 = 高置信"logic skeleton"保留;原 [MASK] 不动;红色 = 从低置信池随机抽出 I_t 重新 mask。同一个 seed 抽不同 I_t 就能造出 b_t 个 diverse children,代价只是一次熵计算 + 1 次 denoise step,而非从 [M]^L 重新跑 T 步。

为什么不直接重 sample

对比三个选项的成本/多样性:

策略每个 child 增量 NFE多样性来源
完全重启 (z_T = [M]^L)T 步独立 sampling 噪声
本步加随机噪声不 remask1 步仅靠 softmax temperature,几乎相同
partial remask (PRISM)1 步显式破坏低置信区域 → 强 diversity / 保留 skeleton

Table 4 ablation: 去掉 partial remask 在 K=2/4/8 各掉 1.13/1.89/1.21 pp——比 SVF 的贡献小,但和 SVF 互补。


7 · 复杂度分析:为什么是 O(N + KT)

C_HTS = N(T - T_p)  +  Σt=T_r+1T_p |P_t|  +  K·T_r

三项分别对应:Stage I 的 warm-up(N 条 × (T-T_p) 步),Stage II 的几何衰减总和,Stage III 的 K 条精修。因为

所以 C_HTS ≈ N·0.4T + K·0.5T + K·0.1T ≈ O(N + KT)(原文化简)。对比 best-of-N 的 O(NT):当 N=16, K=8, T=32 时,best-of-N = 512,HTS ≈ 16 + 256 = 272,理论 ~1.9× speedup,实测 GSM8K 上 4096 → 1048 即 ~3.9×(还吃到 Stage III 的早终止红利)。

Inference Compute (NFE, log-ish) Pass@1 / Acc best-of-N · O(NT) PRISM · O(N+KT) ~2.9× 横向位移 (匹配同精度) N=1 ×4 ×8 ×16
红线 = best-of-N width scaling 曲线,蓝线 = PRISM。两条曲线相同精度对应的 NFE 之比就是 GSM8K 上的 2.9× / MATH500 的 6.5×。横向越早分岔说明 PRISM 在 low-budget regime 优势越明显——这正是 SVF 早期 calibration 不够好时"先广再剪"的设计回报。

8 · Worked Example — 一个 GSM8K 问题端到端

设置:LLaDA-8B, block size M=32, T=32, N=16, S=4, K=8, d=1.8, W=[0.1, 0.6], i=3, τ=0.95。一条 256-token answer 共 8 个 block,这里只追 block 1。

Prompt: Lisa has 7 boxes of 8 chocolates and gives away 2 boxes. How many chocolates left?

t (倒数)Stage活跃 W_t事件NFE cumulative
32→21I 探索1616 条 trajectory 同步去噪,token 大多还是 [M],z₀-pred 给出多种 candidate (有的算 "7×8=56-16=40", 有的瞎扯 "9×8=72")192
20II 首剪16→8对 16 条各算 ẑ₀ + verification prompt → Φ_SVF。前 4 条(top-S=4)拿到 0.95/0.92/0.88/0.85,其余 < 0.4。每条 seed partial-remask 出 b_t=⌈8/4⌉=2 个 children。低置信位主要在 "= [M] [M] [M]" 计算尾巴192 + 16(SVF) + 8(denoise) = 216
19, 18II 间歇8纯 denoise,不动池+16
17II 再剪8→8已经触底 K=8。SVF 重新排序;在 "= 40" 占多数,但有一条得到 "= 56-16 = 40 chocolates"(论证更完整, Φ_SVF=0.96)+ 8 SVF + 8 denoise
14, 11, 8, 5II 间歇 + 再剪两次8稳定在 K=8,每 3 步小幅 branch 维持多样性~ +96
4→1III 精修88 条独立去噪;有 3 条在 t=2 时已经所有位置 max-prob > 0.95,提前 commit;另 1 条在 t=1 检测到 \boxed{40} 提前终止+ ~24
08 个最终答案 majority voting:7 条 = 40, 1 条 = 56 → 输出 \boxed{40}final NFE ≈ 360 (相比 best-of-16 的 4096)

关键观察:(1) Stage I 的 192 NFE 占了一半算力——这是必要 warm-up,SVF 在 t>20 时基本不可靠;(2) Stage II 的 SVF 调用只有约 24 次,远小于 256 NFE 的 denoise 成本;(3) Stage III 早终止让最后 8 条没各跑完 4 步,实际 24 NFE 而非 32。


9 · 实验关键数字

9.1 主表 (LLaDA-8B Instruct)

方法GSM8K AccNFEMATH500 AccNFEHumanEval Pass@1NFE
N=167.5825626.4025654.88512
best-of-469.32102432.00102477.442048
best-of-882.73204836.80204881.714096
best-of-1687.50409638.00409682.328192
PRISM K=274.24283 +2730.16334 +2771.34549 +27
PRISM K=475.30509 +2937.70622 +2976.191133 +29
PRISM K=885.301048 +3342.801304 +3379.272480 +33

读法:

9.2 SVF 可靠性 (Table 5)

Dataset阶段F1 (K=2/4/8)ECE (K=2/4/8)
GSM8KFirst SVF.676/.696/.731.330/.281/.231
GSM8KLast SVF.649/.631/.639.286/.170/.091
MATH-500First SVF.650/.697/.704.306/.267/.204
MATH-500Last SVF.634/.629/.631.258/.158/.097

关键:ECE 在 denoising 推进中单调下降(.330 → .091),意味着 SVF 越往后越 calibrated。这是 PRISM 把 SVF 调用集中在 Stage II 中后段而非全程的理论依据。F1 不算特别高,但 PRISM 是 ranking(只要相对序对就够),不依赖绝对 calibration。

9.3 Ablation (Table 4, GSM8K LLaDA-8B)

变体K=2K=4K=8
Full PRISM74.2475.3085.30
Random pruning (无 SVF)70.6870.9881.59
No remasking73.1173.4184.09
Neither69.0969.3982.12

SVF 是主贡献(-3 到 -4 pp 影响),partial remask 是次贡献(-1 到 -2 pp)。两者互补且都为正。

9.4 vs 外部 verifier (Table 3)

VerifierGSM8K Pass@1Params loaded
SVF (本工作)85.308B
Qwen-7B84.39 ↓15B
Qwen2-7B85.98 ↑15B
Qwen3-8B87.35 ↑16B

用更强的外部 verifier 能再涨 2 pp,代价是 2× deployment memory + 单 A100 (40GB) 装不下。SVF 是"自包含"的工程选择。


10 · 与同类工作对比

工作domain核心机制verifier与 PRISM 的差别
AR best-of-N (Brown 2024)AR LLM独立 N 条 + majority vote无 / external ORMO(NT) 暴力,PRISM 是 O(N+KT) 调度
o1 / R1 (CoT scaling)AR LLM长 thinking,RL 训练 reasoning chainRL rewardlength scaling,且需要 post-training;PRISM 是 training-free
Tree-of-Thoughts / MCTSAR LLMtree node = prefix, 用 PRM 打分PRM (well-formed prefix)PRM 在 dLLM 的 partially-masked 状态上 ill-calibrated
HEX (Lee 2025a)dLLM不同 block schedule 的 ensemble所有 trajectory 都要跑完,exhaustive;PRISM 早剪
PG-DLM / SMC (Dang 2025)dLLMreward-tilted SMC kernel,每步 resample外部 reward瞄准分布而非 accuracy;每步 resample 太频繁
ReMDM (Wang 2025)dLLMsampling 时加 remask 噪声纯随机 exploration 无引导;PRISM 有 SVF
RFG (Chen 2025)dLLMreward-free guidance报告 2× NFE / +9.2 pp,PRISM 同 NFE +10 pp
MEDAL / MCTS-dLLM (Huang 2025)dLLMMCTS-style 节点扩展外部12.3× baseline runtime,代价过高
LongLLaDA (1.5)dLLMNTK/PI 扩长上下文解决长 context,与 TTS 正交
TIDEAR → dLLM 蒸馏跨架构 distillation训练阶段工作,PRISM 是 inference-time
DFlashdLLM as draftdiffusion drafter for spec decodingtarget verify用 dLLM 加速 AR;PRISM 让 dLLM 自身 reasoning 更准
DDTreedLLM draft treedraft tree for spec decodingtarget verify同样是把 dLLM 当 draft;PRISM 是终端模型

简而言之:PRISM 是 dLLM 一侧首个把 "search 拓扑 + verifier 形式" 都对齐 denoising entropy 动力学的工作。它的差异化不在 search 本身(MCTS / SMC 这些都已经存在),而在 把这些 search 工具调度到对的 timestep window(W=[0.1, 0.6])。


11 · 局限 / 个人 take / 待验证

待验证的问题

  1. SVF 的 F1 在 code 上是否系统性低于 math?如果是,是否因为 code 的二元判断更难(语法对但语义错)?
  2. 把 PRISM 应用到 long-context reasoning(参考 LongLLaDA 的扩展)时,256 token answer 之外的场景是否仍工作?
  3. 如果把 Stage I 的 N 调到更大(N=32, 64),性能是否 saturate?Entropy 曲线告诉我们,Stage I 的 N 越大,Stage II 第一次剪枝的 SVF 信号越有信息量,但 NFE 成本也线性增长——sweet spot 在哪?
  4. PRISM 能否和 Fast-dLLM(KV cache + 并行 decoding)叠加?这是 NFE 之外的 wall-clock 优化方向,理论上正交。
  5. partial remask 的"低置信位"是基于 token entropy,如果换成 mutual information / DLM 自己的 noise schedule,效果会不会更好?

12 · Memory points

立场 dLLM-flavored TTS 的第一篇调度论文:不是新 search 算法,是把 search budget 对齐 entropy 动力学。
核心 trick Hierarchical Trajectory Search 三段式 + geometric decay + every-i-step pruning,把 N 条 trajectory 在 logic phase transition (W=[0.1, 0.6]) 内收缩到 K 条。
SVF 用 dLLM 自己 + Yes/No prompt 当 verifier,Φ = σ(s_Yes - s_No)。F1 0.63-0.73, ECE 随 denoising 推进单调下降到 ~0.1。
Partial remask 保留高置信 logic skeleton + 重 mask 低置信位 + 1 步 denoise → 一条 branch。代价 1 NFE/child,vs 完全重启的 T NFE。
复杂度 O(NT) → O(N + KT),实际 GSM8K 1048 vs best-of-16 的 4096 NFE,~3.9× speedup。
最佳场景 数学(MATH500 +4.80 pp 反超 best-of-16),代码场景 SVF 略弱(HumanEval -3 pp)。
超参默认 N=16, S=4, K=8, d=1.8, i=3, W=[0.1, 0.6], τ=0.95。Table 6-10 显示这些都是 sweet spot,偏离两边掉点。
VS 外部 verifier SVF 用同模型换 -2 pp,但省 8B params,40GB A100 装得下;Qwen3-8B 外部 verifier 能多 2 pp 但 OOM。
理论 anchor 附录 A 的 entropy 曲线:early 急剧降,mid 有 bumps & variance,late 共同塌缩。Stage II 的 W=[0.1, 0.6] 就是对准 mid 那段。
和 PG-DLM 区别 SVF 是 heuristic ranking 不是 importance weight;HTS 是 sparse top-S 不是每步 resample;partial remask 是局部 mutation 不是 weighted particle duplication。