PRISM: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models

Jinbin Bai et al. (NUS / Xi'an Jiaotong / GaTech / PKU / Yale / UC Merced) · ICML 2026 · arXiv:2602.01842
关键词: discrete diffusion LM · LLaDA / Dream · test-time scaling · hierarchical trajectory search · self-verified feedback · partial remasking

速读卡片 (TL;DR)

一句话:把 AR 世界的 best-of-N 思路改造给 dLLM:用三段式 Hierarchical Trajectory Search(早期广撒、中期 SVF 剪枝 + 局部 remask 分支、末期精修),再用模型自身的 Yes/No prompt 作为 Self-Verified Feedback 替代外部 reward model,把 O(NT) 的暴力 width-scaling 压到 O(N + KT)。

2.9–6.5×

NFE 节省 (匹配 best-of-N)

+26%

LLaDA-8B 在 GSM8K 相对 N=1

<10%

SVF 调用占总 NFE 比例

立场:这是 dLLM 上第一个把 search 调度和 verifier 都对齐"denoising 动力学"做的工作。关键洞察是 dLLM 的 entropy 曲线有"logic phase transition"——计算应该砸在 W=[0.1, 0.6] 这段中段,而不是均匀分配。

1 · 动机

1.1 历史脉络:dLLM 撞上和 AR 一样的 accuracy 墙

2025 年是 dLLM 从玩具走向 reasoning baseline 的一年——LLaDA-8B、Dream-7B、LLaDA-2.0、Seed Diffusion、Mercury、Gemini Diffusion 都把"masked diffusion + bidirectional 上下文"做到了和同尺寸 AR 模型可比的精度。但 dLLM 一旦真的拿去做数学题、写代码,就会很快撞到 AR 模型熟悉的 accuracy ceiling:N=1 single trajectory 在 GSM8K 上 LLaDA-8B 也就 67.58%,MATH500 上只有 26.40%——继续训也榨不出多少。

AR 世界里这个问题的标准答案是 test-time scaling (TTS):CoT、self-consistency (Wang 2022)、best-of-N (Brown 2024)、o1-style RL + 长 thinking、tree-of-thoughts / MCTS (Yao 2023)。本质都是花推理时算力换正确率。但这些算法的设计前提是 left-to-right、prefix-conditional 的解码——比如 PRM 要给"良构 prefix"打分,MCTS 节点是逐 token 增量的。

dLLM 的 generation 长得完全不一样:

不是 prefix → token,而是 [MASK]ᴸ → 全序列并行去噪 T 步;
中间状态是 partially-masked sequence,不是 well-formed prefix;
每步同时预测所有位置的 logits,具备天然的 z0-prediction head——任何中间步都能 argmax 出一个 candidate full answer。

所以"把 best-of-N 直接搬过来"是 trivial 的(跑 N 条独立 trajectory + majority vote 就行),问题是 每条都要 T 步去噪——LLaDA-8B 默认 256 token / 32 steps per 32-token block,N=16 直接 16× 算力。论文 Figure 1 给了硬数据:GSM8K 上 best-of-16 要 4096 NFE 才到 87.50%,PRISM 用 1048 NFE 就能到 85.30%——用 1/4 算力换 -2.2 pp。这就是 PRISM 想解决的"dLLM-flavor 的 TTS"。

1.2 别的方案为什么不够 (对比表)

方案	核心机制	对 dLLM 的问题
Best-of-N (parallel)	跑 N 条独立 trajectory + majority vote	NFE = NT,16 条就 16× 算力
HEX (Lee 2025a)	不同 semi-AR block schedule 的 ensemble	仍然 exhaustive parallel decoding,所有候选要跑完
Length scaling / 更多 denoise steps	把 T 调大	dLLM 的 T 已经被 sequence length 钉死(每 token 几乎已分到 1 step),没多少 headroom
外部 PRM / ORM verifier	另起一个 reward model 打分	(1) PRM 训练在 well-formed prefix 上,在 partially-masked 状态上 ill-calibrated;(2) 多 load 一个 8B 模型, 40GB A100 直接 OOM
PG-DLM / SMC (Dang 2025)	把 trajectory 视为 particle,做 importance resampling	瞄准 reward-tilted 分布而非 reasoning accuracy,resample 每步都做开销大
ReMDM (Wang 2025)	在采样时加入 remasking 噪声	没有 verifier-guided 剪枝,纯随机 exploration 效率低
MEDAL / MCTS-for-dLLM (Huang 2025)	MCTS-style 节点扩展	报告 12.3× baseline runtime,代价过高

1.3 为什么这事不平凡

三个 dLLM 独有的复杂性,直接照搬 AR TTS 就会踩坑:

"早期决定全局,晚期决定细节"的非对称性。论文附录 A 测了 Dream-7B 在四个 benchmark 上 token-averaged 预测熵 H(t):熵在 很早期急剧下降,但 mid-trajectory 仍有显著 bumps 和 inter-trajectory variance,直到末期才共同收敛。意味着:整体框架(logic skeleton)在 mid-denoising 已经分化,但局部 token 还没定;在熵已经"分化但未塌缩"的窗口里剪枝最有信息量。
Verifier 必须在 partially-masked 状态上工作。AR PRM 训练数据是 prefix,给 [MASK] 包裹的中间态打分会失准。PRISM 的 trick 是不直接评 partially-masked z_t,而是先 argmax 出 ẑ₀(z₀-prediction head 一直输出全序列),再让同一个 dLLM 用 Yes/No prompt 判断这个 hypothetical 答案——把 verify 问题转成"dLLM 擅长的 text understanding"任务。
多 trajectory 之间的"branching"语义不像 AR 那样清晰。AR 树里一个节点 = 一个 prefix,分裂就是 sample 下一个 token。dLLM 一条 trajectory 是整条 256-token 的 partially-denoised 序列,怎么"在它附近"产生 diverse children?如果完全重 sample 就退化成 best-of-N;如果完全 share 就没多样性。PRISM 的答案是 partial remasking:保留高置信度的 logic skeleton,只重 mask 低置信度位置——既复用算力又保多样性。

这三条加在一起决定了 PRISM 不是"把 MCTS 抄过来",而是要重新设计 search 拓扑、verifier 形式、扩展操作三件事,都对齐 dLLM 的 denoising 动力学。

2 · 背景速查

符号 / 术语	含义
z₀, z_t	原始 token 序列 / 第 t 步带 MASK 的序列, t 从 T 走到 0
α_t	masking schedule, monotonic; q(z_t\|z₀) = Cat(α_t·e(z₀) + (1-α_t)·e_m)
z₀-prediction head	dLLM 在任何 t 都能输出完整序列的预测分布 p̃_θ(z₀\|z_t,c,t),取 argmax 得到 ẑ₀
Block diffusion	把 L 个 token 切 B 块(典型 L=256, M=32),块内并行去噪 T 步,块间 left-to-right;LLaDA / Dream 默认
NFE	Number of Function Evaluations,一次完整 forward = 1 NFE,是 dLLM 推理算力的事实标准
N / S / K	初始 trajectory 数 / 每次 prune 后留的 seed 数 / 最终目标宽度
W = [w_min, w_max]	pruning window 比例(默认 0.1-0.6),换算到步数 T_r = ⌈w_min·T⌉, T_p = ⌈w_max·T⌉
d	geometric decay 因子(默认 1.8),控制活跃 pool 缩小速度
i	pruning interval(默认 3 步),每 i 步才做一次 prune+branch
Φ_SVF	Self-Verified Feedback 分数,定义为 dLLM 在 Yes/No verification prompt 下的 σ(s_Yes - s_No)

容易混淆: 这里 t 是 denoising 步(从 T 倒数到 0),不是 wall-clock time;"early-to-mid window" 在 t-坐标上是 t 大但还没到 T 的那一段。PRISM 的 W=[0.1, 0.6] 是 normalized 后的相对位置——剪枝发生在第 10%–60% 这段,而非头 10% 也非末 40%。

3 · 总览:PRISM 的三个零件

论文起的标题首字母拼出 PRISM = Pruning + Remasking + Integrated Self-verification Method。但实际是三个解耦的机制:

左:AR best-of-N 暴力 width scaling,N×T。右:PRISM 用 N=8 起步,在 T_p≈0.6T 之后开始 SVF-guided 剪枝(蓝线收敛),top-S 通过 partial remask 重新展开成 children(红线发散),最终 K=4 条到 t=0 精修。关键 trade-off 是把"广度"集中在熵已分化但未塌缩的窗口。

对应 paper Algorithm 1:

Stage I (Stochastic Exploration, T_p < t ≤ T):N 条 trajectory 同步 denoise,不剪枝。此时熵高、SVF 不可靠,先广撒。
Stage II (Progressive Thinning, T_r < t ≤ T_p):活跃宽度按 W_t = max(N·d^{-(T_p-t)}, K) 几何衰减,每 i 步触发一次 (SVF 评分 → 取 top-S → 各自 partial-remask 出 b_t 个 children) 操作。
Stage III (Final Refinement, 1 ≤ t ≤ T_r):剩 K 条独立 denoise 到末端,加 confidence threshold τ=0.95 早提交 + \boxed{} marker 早终止,最后 majority voting 出答案。

4 · SVF — 让 dLLM 自己当 verifier

外部 reward model 是 AR TTS 的标配,但对 dLLM 有两个硬伤:(1) PRM 训练在 prefix 数据上,partially-masked z_t 不在它见过的分布里;(2) 跑一个独立 7-8B verifier 直接把 8B dLLM 的 deployment memory 翻倍。SVF 的 trick 是:不评中间状态,只评 z₀-prediction head 给出的完整 hypothetical 答案。

ẑ₀ ← argmax_k p̃_θ(z₀|z_t, c, t) ;
π(c, ẑ₀) = "Is this answer correct? Yes / No"
Φ_SVF = exp(s_Yes) / (exp(s_Yes) + exp(s_No))

其中 s_Yes / s_No 分别取 dLLM 在 verification prompt 末位置上,Yes 类 token IDs(如 "Yes", "yes", "YES")的 max logit 和 No 类的 max logit。本质是用 dLLM 自身的 instruction-following 能力做二分类 calibration。

SVF flow:partially-masked z_t → z₀-prediction head 一次性吐出完整候选 ẑ₀ → 构造 "Is correct? Yes/No" prompt → 同一个 dLLM 再做一次 forward → 末位置 Yes/No logit 做 binary softmax。整个过程不需要额外模型,Φ_SVF 直接作为 trajectory 排序 key。

Worked example

问题: If Lisa has 7 boxes of 8 chocolates and gives away 2 boxes, how many chocolates does she have left?

假设 t=80 时(T=128, 已经走了 48 步),有两条 trajectory 的 ẑ₀ 都还带几个 [MASK],argmax 给出:

traj A 的 ẑ₀ = "7×8=56, give away 2×8=16, left = 56-16 = \boxed{40}"
traj B 的 ẑ₀ = "7-2=5 boxes left, 5×[M]=\boxed{40}"

两条最终答案都 40 但中间论证完全不同。SVF prompt 把两个 ẑ₀ 各喂回 dLLM 一次:

traj A: s_Yes=4.1, s_No=0.8 → Φ_SVF = e^4.1/(e^4.1+e^0.8) ≈ 0.964
traj B: s_Yes=1.9, s_No=2.3 → Φ_SVF = e^1.9/(e^1.9+e^2.3) ≈ 0.401 (B 的论证里 5×[M] 是 garbage,模型自己也判 No)

之后 HTS top-S=2 选中包含 A 的两条作为 seed,B 被淘汰。

SVF 可靠吗?

Table 5 给了诊断:在 GSM8K / MATH-500 上用 Qwen3-235B-A22B-Instruct 做 proxy oracle,SVF 的 F1 在 0.63–0.73 之间(显著优于随机),而且 ECE 从 first SVF (0.20-0.33) 单调降到 last SVF (0.09-0.29)——denoising 越往后,SVF 越自信也越 calibrated。论文把这归因于"hypothetical 答案语义稳定性提升"。

反向论证

如果不用 SVF 而用 random pruning,ablation (Table 4) 显示 K=2/4/8 各掉 3.5/4.3/3.7 pp——SVF 是主要 search 增益来源。如果用 Qwen3-8B 当外部 verifier,GSM8K 能再涨到 87.35(SVF 85.30),但要多 load 一个 8B 模型,总 params 16B vs 8B,在 40GB A100 上直接 OOM。SVF 用同模型换 -2 pp 是值得的成本。

5 · HTS — 三段式 + geometric decay

HTS 的本质是一个 budget allocation 调度:T 个 denoising 步、总 NFE 预算固定,要决定每步保留多少活跃 trajectory。论文画出的关键直觉是 entropy 曲线(附录 A)的形状:

三段式调度对齐 entropy 曲线:Stage I(右起 40% 区段,t>T_p)entropy 在塌缩中,直接广撒;Stage II 是 logic phase transition 区段(熵已分化),把活跃宽度按 geometric decay 收缩到 K,期间用 SVF + partial remask 做精确的"留谁、留几个 children";Stage III 精修阶段 K 条独立 denoise 完。绿色虚线是 W_t 的演化轨迹。

几何衰减的算术

取默认 N=16, K=8, d=1.8, T=32 (LLaDA 每块), W=[0.1, 0.6] → T_p=⌈0.6·32⌉=20, T_r=⌈0.1·32⌉=4。Stage II 跨 16 步,但每 i=3 步才触发剪枝。活跃宽度 W_t = max(16·1.8^{-(20-t)}, 8)。代入:

t	W_t 公式	W_t	事件
20	16·1.8⁰	16	Stage II 开始,首次 SVF+branch
17	16·1.8⁻³	2.7→max=8	已经触底,但仍 i=3 触发一次 branch
14	同上	8	稳定在 K=8
4	—	8	Stage III 开始

这里 d=1.8 其实把 N→K 的收缩压在了前两次 prune 内。论文实验也确认 d 太小(慢收缩) / 太大(激进)都差,1.8 是 sweet spot。

反向论证: 不做三段式会怎样

不做 Stage I 直接剪枝 → 在 t≈T 时熵未分化,SVF 给出几乎随机的 Yes 分数,等同 random prune(论文 ablation 显示掉 3+ pp)。
不做 Stage III 直接在 Stage II 末选答案 → 部分位置还是 [MASK],z₀-pred 的尾部 token 不稳定。
整段 uniform 剪枝(无 window)→ 算力浪费在已经塌缩的末端,论文 Tab.6 显示 W=[0.0, 0.6] 或 W=[0.3, 0.6] 都比 [0.1, 0.6] 差。

6 · Local Branching via Partial Remasking

剪枝以后剩下 S 个 survivor seeds,每个 seed 需要扩出 b_t = ⌈W_{t-1}/S⌉ 个 children 才能填满下一步的 W_{t-1} 池。最朴素的做法是把 seed 整个 mask 掉重 sample——但那就丢掉了 seed 已经形成的 logic skeleton。PRISM 的 partial remasking 是这样的:

û_i = H(p̃_θ(z₀,i | z_t, c, t)) ; 取熵高的 U_t = top-α 位置
I_t ⊆ U_t 随机 subset → z_t' = Remask(z_t; I_t)

partial remasking: 蓝色 = 高置信"logic skeleton"保留;原 [MASK] 不动;红色 = 从低置信池随机抽出 I_t 重新 mask。同一个 seed 抽不同 I_t 就能造出 b_t 个 diverse children,代价只是一次熵计算 + 1 次 denoise step,而非从 [M]^L 重新跑 T 步。

为什么不直接重 sample

对比三个选项的成本/多样性:

策略	每个 child 增量 NFE	多样性来源
完全重启 (z_T = [M]^L)	T 步	独立 sampling 噪声
本步加随机噪声不 remask	1 步	仅靠 softmax temperature,几乎相同
partial remask (PRISM)	1 步	显式破坏低置信区域 → 强 diversity / 保留 skeleton

Table 4 ablation: 去掉 partial remask 在 K=2/4/8 各掉 1.13/1.89/1.21 pp——比 SVF 的贡献小,但和 SVF 互补。

7 · 复杂度分析:为什么是 O(N + KT)

C_HTS = N(T - T_p) + Σ_{t=T_r+1}^T_p |P_t| + K·T_r

三项分别对应:Stage I 的 warm-up(N 条 × (T-T_p) 步),Stage II 的几何衰减总和,Stage III 的 K 条精修。因为

warm-up 短:T - T_p ≈ (1 - w_max)·T = 0.4·T,而且 Σ|P_t| 在几何衰减下被 K·(几步) 主导;
Stage II 总和 ≈ K · (T_p - T_r) 当 d 够大;

所以 C_HTS ≈ N·0.4T + K·0.5T + K·0.1T ≈ O(N + KT)(原文化简)。对比 best-of-N 的 O(NT):当 N=16, K=8, T=32 时,best-of-N = 512,HTS ≈ 16 + 256 = 272,理论 ~1.9× speedup,实测 GSM8K 上 4096 → 1048 即 ~3.9×(还吃到 Stage III 的早终止红利)。

红线 = best-of-N width scaling 曲线,蓝线 = PRISM。两条曲线相同精度对应的 NFE 之比就是 GSM8K 上的 2.9× / MATH500 的 6.5×。横向越早分岔说明 PRISM 在 low-budget regime 优势越明显——这正是 SVF 早期 calibration 不够好时"先广再剪"的设计回报。

8 · Worked Example — 一个 GSM8K 问题端到端

设置:LLaDA-8B, block size M=32, T=32, N=16, S=4, K=8, d=1.8, W=[0.1, 0.6], i=3, τ=0.95。一条 256-token answer 共 8 个 block,这里只追 block 1。

Prompt: Lisa has 7 boxes of 8 chocolates and gives away 2 boxes. How many chocolates left?

t (倒数)	Stage	活跃 W_t	事件	NFE cumulative
32→21	I 探索	16	16 条 trajectory 同步去噪,token 大多还是 [M],z₀-pred 给出多种 candidate (有的算 "7×8=56-16=40", 有的瞎扯 "9×8=72")	192
20	II 首剪	16→8	对 16 条各算 ẑ₀ + verification prompt → Φ_SVF。前 4 条(top-S=4)拿到 0.95/0.92/0.88/0.85,其余 < 0.4。每条 seed partial-remask 出 b_t=⌈8/4⌉=2 个 children。低置信位主要在 "= [M] [M] [M]" 计算尾巴	192 + 16(SVF) + 8(denoise) = 216
19, 18	II 间歇	8	纯 denoise,不动池	+16
17	II 再剪	8→8	已经触底 K=8。SVF 重新排序;在 "= 40" 占多数,但有一条得到 "= 56-16 = 40 chocolates"(论证更完整, Φ_SVF=0.96)	+ 8 SVF + 8 denoise
14, 11, 8, 5	II 间歇 + 再剪两次	8	稳定在 K=8,每 3 步小幅 branch 维持多样性	~ +96
4→1	III 精修	8	8 条独立去噪;有 3 条在 t=2 时已经所有位置 max-prob > 0.95,提前 commit;另 1 条在 t=1 检测到 `\boxed{40}` 提前终止	+ ~24
0	—	—	8 个最终答案 majority voting:7 条 = 40, 1 条 = 56 → 输出 `\boxed{40}`	final NFE ≈ 360 (相比 best-of-16 的 4096)

关键观察:(1) Stage I 的 192 NFE 占了一半算力——这是必要 warm-up,SVF 在 t>20 时基本不可靠;(2) Stage II 的 SVF 调用只有约 24 次,远小于 256 NFE 的 denoise 成本;(3) Stage III 早终止让最后 8 条没各跑完 4 步,实际 24 NFE 而非 32。

9 · 实验关键数字

9.1 主表 (LLaDA-8B Instruct)

方法	GSM8K Acc	NFE	MATH500 Acc	NFE	HumanEval Pass@1	NFE
N=1	67.58	256	26.40	256	54.88	512
best-of-4	69.32	1024	32.00	1024	77.44	2048
best-of-8	82.73	2048	36.80	2048	81.71	4096
best-of-16	87.50	4096	38.00	4096	82.32	8192
PRISM K=2	74.24	283 +27	30.16	334 +27	71.34	549 +27
PRISM K=4	75.30	509 +29	37.70	622 +29	76.19	1133 +29
PRISM K=8	85.30	1048 +33	42.80	1304 +33	79.27	2480 +33

读法:

GSM8K K=8 用 1048 NFE 达到 85.30,vs best-of-16 的 4096 NFE 87.50——1/4 算力换 -2.2 pp。
MATH500 K=8 用 1304 NFE 拿到 42.80,反超 best-of-16 的 38.00,4.80 pp 提升 + 3.1× 算力节省。
HumanEval 是 PRISM 最弱的场景:K=8 (2480 NFE) 79.27 vs best-of-16 (8192) 82.32,相差 3.05 pp 但 3.3× 加速。代码生成的 inter-trajectory variance 更大(附录 entropy 图也证实),SVF 在 code 上 calibration 略差。

9.2 SVF 可靠性 (Table 5)

Dataset	阶段	F1 (K=2/4/8)	ECE (K=2/4/8)
GSM8K	First SVF	.676/.696/.731	.330/.281/.231
GSM8K	Last SVF	.649/.631/.639	.286/.170/.091
MATH-500	First SVF	.650/.697/.704	.306/.267/.204
MATH-500	Last SVF	.634/.629/.631	.258/.158/.097

关键:ECE 在 denoising 推进中单调下降(.330 → .091),意味着 SVF 越往后越 calibrated。这是 PRISM 把 SVF 调用集中在 Stage II 中后段而非全程的理论依据。F1 不算特别高,但 PRISM 是 ranking(只要相对序对就够),不依赖绝对 calibration。

9.3 Ablation (Table 4, GSM8K LLaDA-8B)

变体	K=2	K=4	K=8
Full PRISM	74.24	75.30	85.30
Random pruning (无 SVF)	70.68	70.98	81.59
No remasking	73.11	73.41	84.09
Neither	69.09	69.39	82.12

SVF 是主贡献(-3 到 -4 pp 影响),partial remask 是次贡献(-1 到 -2 pp)。两者互补且都为正。

9.4 vs 外部 verifier (Table 3)

Verifier	GSM8K Pass@1	Params loaded
SVF (本工作)	85.30	8B
Qwen-7B	84.39 ↓	15B
Qwen2-7B	85.98 ↑	15B
Qwen3-8B	87.35 ↑	16B

用更强的外部 verifier 能再涨 2 pp,代价是 2× deployment memory + 单 A100 (40GB) 装不下。SVF 是"自包含"的工程选择。

10 · 与同类工作对比

工作	domain	核心机制	verifier	与 PRISM 的差别
AR best-of-N (Brown 2024)	AR LLM	独立 N 条 + majority vote	无 / external ORM	O(NT) 暴力,PRISM 是 O(N+KT) 调度
o1 / R1 (CoT scaling)	AR LLM	长 thinking,RL 训练 reasoning chain	RL reward	length scaling,且需要 post-training;PRISM 是 training-free
Tree-of-Thoughts / MCTS	AR LLM	tree node = prefix, 用 PRM 打分	PRM (well-formed prefix)	PRM 在 dLLM 的 partially-masked 状态上 ill-calibrated
HEX (Lee 2025a)	dLLM	不同 block schedule 的 ensemble	无	所有 trajectory 都要跑完,exhaustive;PRISM 早剪
PG-DLM / SMC (Dang 2025)	dLLM	reward-tilted SMC kernel,每步 resample	外部 reward	瞄准分布而非 accuracy;每步 resample 太频繁
ReMDM (Wang 2025)	dLLM	sampling 时加 remask 噪声	无	纯随机 exploration 无引导;PRISM 有 SVF
RFG (Chen 2025)	dLLM	reward-free guidance	无	报告 2× NFE / +9.2 pp,PRISM 同 NFE +10 pp
MEDAL / MCTS-dLLM (Huang 2025)	dLLM	MCTS-style 节点扩展	外部	12.3× baseline runtime,代价过高
LongLLaDA (1.5)	dLLM	NTK/PI 扩长上下文	—	解决长 context,与 TTS 正交
TIDE	AR → dLLM 蒸馏	跨架构 distillation	—	训练阶段工作,PRISM 是 inference-time
DFlash	dLLM as draft	diffusion drafter for spec decoding	target verify	用 dLLM 加速 AR;PRISM 让 dLLM 自身 reasoning 更准
DDTree	dLLM draft tree	draft tree for spec decoding	target verify	同样是把 dLLM 当 draft;PRISM 是终端模型

简而言之:PRISM 是 dLLM 一侧首个把 "search 拓扑 + verifier 形式" 都对齐 denoising entropy 动力学的工作。它的差异化不在 search 本身(MCTS / SMC 这些都已经存在),而在 把这些 search 工具调度到对的 timestep window(W=[0.1, 0.6])。

11 · 局限 / 个人 take / 待验证

SVF 在 code 上的可靠性。HumanEval 上 K=8 也只追到 best-of-16 的 -3.05 pp(其他 benchmark 反超或追平)。Dream-7B / LLaDA-2.0 在代码上 entropy 曲线"高 plateau + 大 variance",SVF 的 Yes/No prompt 在代码任务上可能没那么 calibrated。Table 5 没给 HumanEval / MBPP 的 F1。
没有探究 SVF prompt 的 sensitivity。论文只给"Is this answer correct? Yes/No",但 prompt 设计对 small LLM 的二分类影响极大,不同 dLLM 可能需要不同 prompt。Reproducibility 略担忧。
超参 W=[0.1, 0.6] 是 LLaDA-8B 上调出来的。不同 dLLM 的 entropy 曲线形态不同(论文附录就显示 GSM8K 和 MATH500 在 Dream 上 shape 不同),W 是否能用 entropy curve 自动选?
SVF + partial remask 都需要 dLLM 有较好的 instruction-following 和 z₀-prediction 稳定性。对于较弱的 dLLM(比如 base 模型 + lightweight 微调)是否仍有效未验证。
与 RL 训练的关系不清。论文是 pure training-free 视角,但 SVF score 自然可以做 RL reward(像 self-rewarding LM),可以想象 PRISM + RL on dLLM 的组合。
Majority voting 的 boundary。K=8 时如果 8 个答案都不一致,fallback 行为论文未说明。对于 open-ended 任务这是个空白。

待验证的问题

SVF 的 F1 在 code 上是否系统性低于 math?如果是,是否因为 code 的二元判断更难(语法对但语义错)?
把 PRISM 应用到 long-context reasoning(参考 LongLLaDA 的扩展)时,256 token answer 之外的场景是否仍工作?
如果把 Stage I 的 N 调到更大(N=32, 64),性能是否 saturate?Entropy 曲线告诉我们,Stage I 的 N 越大,Stage II 第一次剪枝的 SVF 信号越有信息量,但 NFE 成本也线性增长——sweet spot 在哪?
PRISM 能否和 Fast-dLLM(KV cache + 并行 decoding)叠加?这是 NFE 之外的 wall-clock 优化方向,理论上正交。
partial remask 的"低置信位"是基于 token entropy,如果换成 mutual information / DLM 自己的 noise schedule,效果会不会更好?

12 · Memory points

立场 dLLM-flavored TTS 的第一篇调度论文:不是新 search 算法,是把 search budget 对齐 entropy 动力学。

核心 trick Hierarchical Trajectory Search 三段式 + geometric decay + every-i-step pruning,把 N 条 trajectory 在 logic phase transition (W=[0.1, 0.6]) 内收缩到 K 条。

SVF 用 dLLM 自己 + Yes/No prompt 当 verifier,Φ = σ(s_Yes - s_No)。F1 0.63-0.73, ECE 随 denoising 推进单调下降到 ~0.1。

Partial remask 保留高置信 logic skeleton + 重 mask 低置信位 + 1 步 denoise → 一条 branch。代价 1 NFE/child,vs 完全重启的 T NFE。

复杂度 O(NT) → O(N + KT),实际 GSM8K 1048 vs best-of-16 的 4096 NFE,~3.9× speedup。

最佳场景数学(MATH500 +4.80 pp 反超 best-of-16),代码场景 SVF 略弱(HumanEval -3 pp)。

超参默认 N=16, S=4, K=8, d=1.8, i=3, W=[0.1, 0.6], τ=0.95。Table 6-10 显示这些都是 sweet spot,偏离两边掉点。

VS 外部 verifier SVF 用同模型换 -2 pp,但省 8B params,40GB A100 装得下;Qwen3-8B 外部 verifier 能多 2 pp 但 OOM。

理论 anchor 附录 A 的 entropy 曲线:early 急剧降,mid 有 bumps & variance,late 共同塌缩。Stage II 的 W=[0.1, 0.6] 就是对准 mid 那段。

和 PG-DLM 区别 SVF 是 heuristic ranking 不是 importance weight;HTS 是 sparse top-S 不是每步 resample;partial remask 是局部 mutation 不是 weighted particle duplication。