When Hidden States Drift: Can KV Caches Rescue Long-Range Speculative Decoding?

Alibaba Qwen Applications · Tianyu Liu et al. · 2026-04-29 · arXiv:2604.26412
关键词: speculative decoding · long-range decay · hidden state · KV cache · context preservation · KVShot · TTT · EAGLE-3 · Qwen3-8B

速读卡片 (TL;DR)

一句话:EAGLE-3/MTP 这类 hidden-state-reuse drafter 的 long-range decay,本质并不只是 train-infer mismatch,而是 context information preservation 问题——hidden state 是按当前 query 做的"有偏压缩",而 KV cache 保留 token-level 全息信息;作者用 KVShot 框架统一比较 hidden-only / KV-only / 门控混合三种 reuse,发现 KV reuse 在长 horizon 衰减更慢,但端到端加速被 autoregressive TTT 的训练管线本身卡住。

+0.17 MAT
step-wise hybrid vs EAGLE-3 (70k)
+0.03 HF MAT
端到端 (280k) — 缩到几乎为零
α₆ 0.514 vs 0.469
长程接受率显著提升

立场:这是一篇诊断性论文,不是新 SOTA。它把"为什么 hidden-state drafter 长程衰减"这个问题从"训练目标不对"改写成"reuse 哪种表征对",并用受控实验暴露了 autoregressive TTT 管线的三个结构性瓶颈,指向 block-wise training 才是下一代 drafter 的方向。


1 · 动机:long-range decay 的第二种解释

1.1 历史脉络:从 hidden-state reuse 的胜利到长程墙

2024 年开始,hidden-state reuse 已经是 speculative decoding 的事实标准:EAGLE / EAGLE-2 / EAGLE-3 把 target 模型的 top-layer hidden state 作为 drafter 的输入,Medusa / MTP / DeepSeek-V3 内部的 multi-token prediction head 也走同一条路。这条路赢在两点:① drafter 只要 1 层就足够预测,因为最重的 prefix 编码已经在 target 那里做完了;② 训练目标可以直接用 hidden state 的 L2 + cross-entropy,信号丰富。

但所有这些 drafter 都共享同一个失败模式 —— long-range decay:接受率 αk 随推测步 k 单调下降。论文 Figure 1 给出的 Qwen3.5-4B 数字非常具体:

speculative step k α_k .858 .740 .698 .741 .594 0 1 2 3 4 5 6 EAGLE-3 (Δ=−19.8%) MTP (Δ=−16.0%)
αk 随 k 单调下降:EAGLE-3 从 0.858 跌到 0.698,MTP 从 0.741 跌到 0.594。这种衰减直接限制 draft tree 的可用深度,从而封顶端到端 speedup。

这个曲线决定 draft tree 能伸多深。如果 α 在 k=6 已经低于 0.6,你再多猜也几乎全被 reject。所以"修长程"是 speculative decoding 的核心瓶颈。

1.2 别的方案为什么不够

领域里对 long-range decay 的标准解释只有一个: train-inference mismatch。训练时 drafter 看到的是 target 的真实 hidden state,推理时它必须 condition 在自己递归生成的 hidden state 上,这两者会逐步 drift。 HASS / EAGLE-3 引入 autoregressive TTT(test-time training)把训练时也喂 drafter 自己的 drift trajectory,确实把 α 抬高一截。

但作者点了一刀:就算用了 TTT,decay 依然存在(Figure 1 那两条曲线都是 TTT-trained 的)。这意味着 drift 只解释了一部分,还有一个独立的损失源没人讨论。下表把所有候选解释摆出来:

candidate explanation修了哪一块为什么仍不够
train-infer mismatch (HASS / EAGLE-3 TTT) Edrift(k):drafter recursive 生成 vs ground-truth hidden state 的 gap 把 drafter 暴露给自己的轨迹只是局部修复,不能把 target 已经 throw away 的信息找回来
multi-layer fusion (EAGLE-3 把多层 hidden state 拼起来) 不同层 attend 不同子空间,部分弥补单层 compression 仍是固定维度的聚合,跨层都被 weak-attend 的 token 信息仍丢失
更大 / 更深 drafter 表达力 drafter 越大,推测开销越大,得不偿失;且 hidden state 已经把信息压扁,加深 drafter 也复原不了
加更长 horizon 的 loss 训练目标 仍然 condition 在 ℎ𝑡L 这个 query-biased summary 上,瓶颈还在 input 侧
本文:换 reuse 的表征(KV cache) 把 Ecomp 这块独立干掉 引入新瓶颈 Eq(query estimation),还要看训练管线能否给到信号

1.3 为什么这事不平凡:context preservation 是另一种透镜

核心 insight 用一句话讲透:target 的 ℎ𝑡L 是一个 query-biased compression,它对 t+1 优化,所以对 t+k 而言,被它压扁掉的那些 token 信息可能正好是关键。

这是一个 information-theoretic 视角而不是 distributional 视角。前人都在解决"训练分布和推理分布不一样"这个 distributional gap;作者改去问"reuse 哪种 representation 才能保留足够 prefix 信息"。一旦把问题这么 reformulate,KV cache 就成了一个非常自然的 candidate:它是 attention 之前的 raw token-wise 表征,没有被 qt 加权聚合过,等价于把"recovery 问题"换成"function approximation 问题"——drafter 不必"挖出"被压扁的信息,而只需要估计未来位置的 q′ 然后重新对 KV 做 attention。

这个角度的非平凡之处在于 reframe 而不是新方法本身。GLIDE+CAPE / LongSpec 早就用过 cross-attention 接 target KV,但都把它当作"减少 drafter 计算"或"长 context 内存效率"的工程手段;没人把它当作长程衰减的解释来做受控对照。本文的贡献是先建一个统一对照框架(KVShot)把 hidden-only / KV-only / 混合放在同一 TTT pipeline 下比 ,然后把"是不是 representation 问题"这个 hypothesis 实证出来。

反直觉点:如果你只看 MAT,KV-only 4 层 (2.34) 还输给 EAGLE-3 1 层 (2.37);看起来 KV reuse 没赢。但分步看 α6:KV-only 4 层 0.495 反超 EAGLE-3 0.469。短程吃亏(无 hidden 的语义先验)、长程占优(无 compression),两者抵消导致 aggregate 看不出来。这正是为什么作者强调要看 retention ratio α60 而不是只看 MAT。

2 · 背景速查

术语含义
αk第 k 步推测的 draft token 接受率(0 步 = drafter 第一个预测)
MATmean accepted tokens, 1 + Σ ∏ αj;step-wise 期望接受长度
HF MATHuggingFace speculative decoding pipeline 在 (depth=8, top-k=10, total≤60) tree 下测得的 MAT;近似端到端 speedup 代理
retentionα60;长程衰减的归一化指标(越高 = 衰减越慢)
TTTautoregressive test-time training;HASS/EAGLE-3 用法,训练时让 drafter condition 在自己的 drift trajectory 上
Ecompcompression loss:target attention 把弱 attend 的 token 信息丢掉造成的损失,k=1 时已存在
Edrift(k)recursive drift:drafter 用自己生成 hidden state 反复 condition 累积的偏差
Eqquery estimation error:KV reuse 下 drafter 估计未来 q′ 的难度
Ls从 target 抽几层 KV 来 inject 到 drafter;本文默认 3,等同 EAGLE-3 fuse 的层数

关键公式回顾

𝑡 = Σ𝑖=1..𝑡 α𝑖 · 𝑣𝑖,    α𝑖 = softmax(𝑞𝑡 · 𝑘𝑖)

这是 self-attention 的标准式。论文的整个观点都建在这一个公式上:α𝑖 由 𝑞𝑡 决定,而 𝑞𝑡 是为了预测 𝑡+1 优化的;只要你信这一句,后面的 KV-Reuse Hypothesis 就是它的逻辑后果。

EHS(𝑘) ≈ Ecomp + Edrift(𝑘)   ||   EKV ≈ Eq

HS 误差有两块:压缩损失(k 无关、靠 target 自己产生)+ drift(k 越大越严重);KV 误差则把第一块清零,只剩下 query 估计这一块。TTT 只能压第二块,所以 hidden-only 即便 TTT 训得再好,也压不掉 Ecomp


3 · Hidden state 是有偏压缩 (concrete walk-through)

这一节把 §1.3 的论证落到一个具体例子。设想一段 prefix:

「The patient was prescribed aspirin for chest pain.
 He visited the clinic on Monday.
 Today he reports nausea and tells the doctor: ___」

target 在最后一个位置 𝑡 计算 𝑞𝑡 是为了预测下一个 token(可能是 "I", "the", "my")。它的 attention 大概率会重权 "doctor"、"reports"、"nausea"(都是局部句法 / 语义相关),而 "aspirin"、"Monday" 拿到 α≈0.01。所以 ℎ𝑡 这个 4096 维向量里关于 aspirin 的信息已经几乎被擦掉了。

现在 drafter 想猜未来若干步。假设第 k=4 步真实下一个 token 是 "But aspirin upset my stomach"——这一步未来的 q𝑡+4 会强烈 attend 到 "aspirin"(α=0.65)。drafter 只拿到压扁后的 ℎ𝑡,它必须在 ℝ4096 里"挖出"那个被弱权值压下的信息。这是ill-conditioned 的反问题。

(a) Hidden-State Reuse k₁v₁α=.01 k₂v₂α=.01 k₃v₃α=.20 k₄v₄α=.79 attention 聚合 𝑡 (lossy) drafter 想用 q′₄ (实际偏 v₂) v₂ 信息已丢失 → 反 ill-conditioned (b) KV-Cache Reuse k₁v₁ k₂v₂ k₃v₃ k₄v₄ KV 完整传给 drafter drafter 用 q′ 重做 attention α′₂=.65 → v₂ 完整可达 问题退化为 q′ 的 function approx
同一段 prefix 下两种 reuse 的信息流。左:target 用当前 q𝑡 把 prefix 压成单一 ℎ;v₂ 在 α=0.01 处被丢掉,drafter 需要预测的未来 step 反而需要 v₂(理想 α=0.65),信息已经不可逆地丢失。右:KV 整套传过去,drafter 自己产生 q′ 重做 attention,所有位置仍可访问;残余误差全部归到"q′ 估得准不准"这个函数逼近问题上。

反向论证:为什么"光做多层 fusion (EAGLE-3 那样)"还不够? 不同层的 q 不一样,某一层 α=0.01 的 token,在另一层可能 α=0.3,所以 multi-layer fuse 能把部分信息找回来。但只要存在跨所有 fused layer 都被弱 attend 的 token,它在 fused hidden state 里仍然是被压扁的。而 KV reuse 是不做聚合地把所有 token 都暴露出来,理论上更彻底。

但是 KV 难道不就是 hidden state 经过线性投影来的吗?为什么说不等价?

论文 §2.3 专门回应这个反对。三条:

  1. Last-layer gap: drafter reuse 的是 ℎ𝑡L(top layer),而 layer L 的 KV 已经被 layer L 的 attention 消耗掉了产出 ℎL;不存在一个"layer L+1 的 KV"对应到 ℎL。EAGLE 系工作都说 top layer 信号最强,所以正好是这一层的 KV 信息被锁死。
  2. Projection gap: 即使是中间层,从 ℎ 反推 (kℓ+1, vℓ+1) 需要 𝑊𝐾, 𝑊𝑉 这两个非平凡投影。GQA 模型里 hidden dim 通常是 per-head KV dim 的 4–8 倍,1 层 drafter 隐式学这个映射很吃力。
  3. Capacity competition: hidden-state reuse 让 drafter 同时干"估 q′"和"恢复 KV 投影"两件事,KV-only reuse 把后一件直接给掉,drafter 全部容量集中在估 q′ 上。Appendix D 的对照实验表明,直接给 target KV 显著好过让 drafter 从 hidden 学投影。

4 · KV-Reuse Hypothesis 与三个 prediction

把 §3 的论证形式化,作者抛出 KV-Reuse Hypothesis 并拆出三条可证伪的预测,后面 §5–6 的所有实验都是在 verify / falsify 这三条。

Prediction主张对应实验结论
P1 长程优势 k 越大,KV reuse 越占优(因为 𝑞𝑡+𝑘 离 𝑞𝑡 越远,hidden compression 越偏) Tab.2 retention ratio 支持 KV-only 4层 retention 80.6% > EAGLE-3 73.5%;α₆ 反超
P2 query-est 瓶颈 1 层 drafter 估不出 q′,需要更深 drafter Tab.2 depth scaling 1→2→3→4 层 支持 1→2 层 ΔMAT=+0.39(最大跳),后续递减
P3 短程劣势 k=0,1 时 hidden 仍占优(语义信息丰富) Tab.2 α₀:0.494 vs 0.638 支持 KV-only 短程持续输给 EAGLE-3

三条加起来直接暗示了正确的设计形态:不是替换,而是混合——hidden-state path 锚定短程,KV path 做长程的 correction。这就是 §5 的 hybrid drafter 的来源。

speculative step k α_k .665 .638 .614 .514 .469 .495 Hybrid (gated) EAGLE-3 (hidden) KV-only (4 层) 0 3 6
三种 reuse 的 α 曲线对照(70k ShareGPT 的真实数字)。Hybrid 在所有 k 上压住其它两条,验证了"短程靠 hidden,长程靠 KV correction"的直觉;KV-only 与 EAGLE-3 在 k≈4–5 处交叉:左侧 hidden 强,右侧 KV 强。

5 · KVShot 框架: 三种 reuse 的受控对比

KVShot 不是一个模型,是一套诊断性测试床。所有变体都在同一条 EAGLE-3 TTT pipeline 下训练,target 都是 Qwen3-8B,这样比较的是 representation 选择而不是别的 confound。

5.1 KV-Only Reuse:把 hidden 完全踢掉

架构: drafter input 只剩 input embedding,然后做 cross-attention 到 target 的 KV。多层 KV 怎么注入需要选:

策略做法α₀ / α₆ / MAT
① head concat把 Ls=3 层 KV 直接拼,扩 drafter 的 KV head.489 / .305 / 1.78
② linear projection用 𝑊𝐾proj ∈ ℝd×Ls·d 把多层 KV 投回 1 层维度.488 / .354 / 1.83
③ proj + RoPE re-apply投影后重新打 RoPE(投影破坏了位置编码).494 / .353 / 1.84
baseline EAGLE-3 1层hidden-only.638 / .469 / 2.37

读法:linear projection 比 head concat 好(单 query attend 一个 unified KV 比 attend 多个 disjoint KV 容易);RoPE 修复几乎没区别(说明位置不是主瓶颈)。但都比 EAGLE-3 差很多:α₀ 永远过不了 0.50。这就是 P3 的实验证据——短程 hidden 提供的语义先验是 input embedding 给不出的。

具体 trace:一个 1 层 drafter 在 KV-only 下做了什么?

drafter 收到 input_emb ∈ ℝ4096 → 1 个 transformer block → 出 q′ ∈ ℝ128(per head)。这个 q′ 是 input_emb 的 线性(再加 LayerNorm)投影,本质上没法 capture "我现在要预测的是 t+3 位置的 query"这种复杂依赖。所以"加深"是必需的。

5.2 Depth scaling:验证 P2

层数α₀α₃α₆retentionMAT
1.494.381.35371.5%1.84
2.594.497.46377.9%2.23
3.609.518.48780.0%2.31
4.614.527.49580.6%2.34
EAGLE-3 (1层).638.511.46973.5%2.37

读法非常微妙:

  1. 1→2 层 ΔMAT=+0.39 是最大跳跃 → 第二层让 q′ 变成 context-aware 而不是简单的 input embedding 线性变换。这正面回答了 P2。
  2. 2→3, 3→4 几乎平了(+0.08, +0.03),递减很快。
  3. 4 层 KV-only(MAT 2.34)稍输 1 层 EAGLE-3(2.37),代价还更高。
  4. 但 retention 80.6% 已经显著超过 EAGLE-3 73.5%,α₆ 0.495 反超 0.469。这就是 P1 落地

5.3 Hybrid Reuse:门控 delta correction

架构: 在 EAGLE-3 self-attention 旁挂一条平行的 cross-attention 分支接 target KV。两路输出用 gated delta rule 融合:

𝑛𝑖 = SelfAttn(𝑥𝑖)  |  𝑜𝑖 = CrossAttn(𝑥𝑖, M𝑖)  |  Δ𝑖 = 𝑜𝑖 − 𝑛𝑖
𝑔𝑖 = σ(𝑊𝑔[𝑛𝑖; 𝑜𝑖; Δ𝑖] + 𝑏𝑔)  |  ℎ𝑖 = 𝑛𝑖 + 𝑔𝑖 ⊙ 𝑊Δ Δ𝑖

核心设计点:

𝑥𝑖 (input) SelfAttn → 𝑛𝑖 (warm-start) CrossAttn(𝑥𝑖, M𝑖=target KV) → 𝑜𝑖 Δ𝑖 = 𝑜𝑖 − 𝑛𝑖 𝑔𝑖 = σ(𝑊𝑔[𝑛;𝑜;Δ]) 𝑖 = 𝑛𝑖 + 𝑔𝑖 ⊙ 𝑊Δ Δ𝑖
Hybrid drafter 的 gated delta rule。Self-attention 路径(蓝)是 EAGLE-3 的精确复刻并 warm-start;cross-attention 路径(绿)读 target KV;两者的差作为 correction Δ,门控 𝑔 决定要不要、用多少。当 𝑔→0 时退化为纯 EAGLE-3,所以这个设计是strictly dominant(理论上不会比 EAGLE-3 差)。

5.4 Hybrid 结果:第一次正向

methodinitα₀α₆retentionMAT
EAGLE-3.638.46973.5%2.37
Hybridrandom.650.49075.4%2.44
HybridEAGLE-3 ckpt.665.51477.3%2.54
Cross-onlyrandom.634.45071.0%2.34
Cross-onlyEAGLE-3 ckpt.637.44269.4%2.35

三条 takeaway:


6 · 实验关键结果与读数

端到端的"小坑":+0.17 → +0.03

Step-wise 看一切都对——直到把训练数据从 70k(ShareGPT)放大到 280k(ShareGPT + UltraChat regenerated)再用 HF tree decoding (8,10,60) 测 MAT:

settingHF MATvs EAGLE-3 (ckpt 重训)
EAGLE-3 existing ckpt(原始)4.43
EAGLE-3 train from scratch (280k)4.76
EAGLE-3 train from ckpt (280k)5.01baseline
Hybrid train from ckpt (280k)5.04+0.03 (+0.6%)

+0.03 加上 cross-attention 多带来的 5–10% drafting latency,基本 wash。这是这篇论文最诚实的一段:他们把负面结果放在正文,然后专门写了 §7 拆为什么。

为什么从 +0.17 缩到 +0.03? 三条合力:

  1. 更大数据让 EAGLE-3 自己也强了:baseline MAT 4.43→5.01,那个 +0.17 里有相当一部分本来就是 hidden-state 也能从更好数据中拿到。
  2. Tree verification 把分步差异压扁: (8,10,60) 已经探索很多候选路径,即使每步 α 略低也可以 fall back 到 sibling 候选。
  3. Cross-attn 的 latency 直接吃掉收益
读这张表的方式:不要把"+0.03"读成"KV reuse 没用",而要读成"在 autoregressive TTT 这条管线下,KV reuse 的可学信号被严重低估了"。Step-wise 实验已经证明 representation 是有用的;管线才是瓶颈。这个区分是这篇论文的灵魂。

7 · 三个结构性 bottleneck

§7 是一篇潜在 followup 的 roadmap,作者把 autoregressive TTT 不适合 KV reuse 的原因拆成三个独立 issue。

7.1 Query estimation 实际比预想更难

理论上 Eq 是函数逼近问题,听起来"更简单"。实际:target 的 qt+k 是 L 层非线性变换 over full prefix 的产物。1 层 drafter 的 q′ 只是 input embedding 的线性变换,根本没有组合性。Tab.2 已经显示从 1→2 层是大跳,但 4 层也碰不到 1 层 EAGLE-3——hidden-state reuse 实质上"借走"了 target 那 L 层算 q 的工作。这是 KV reuse 短程一直输的根源。

7.2 Draft-side KV projection 训练信号稀疏

这是最微妙的一条,值得展开。Hybrid 的 cross-attention 分支里有两个新参数 𝑊cross𝐾, 𝑊cross𝑉。它们的工作是给"draft 自己生成的"那部分 token 算 K/V(prefix 部分的 K/V 直接 copy 自 target,免费)。

问题:autoregressive TTT 一个 batch 一般只有 K=7 个 draft token,而 prefix 长度可能几百上千。所以这两个 projection 矩阵每步只有 7 个 token 的梯度,而 𝑊𝑄 每个位置都更新。

𝑊𝑄 (dense gradient) prefix + draft 全部位置 → 梯度 𝑊cross𝐾, 𝑊cross𝑉 (sparse gradient) prefix 部分:KV 直接从 target copy,不反传 draft 7 → 𝑊cross𝐾,𝑉 仅由 draft 端的 ~7 个 token 更新,且这些 token 的模式高度同质化,导致训练信号稀疏 + 多样性低。作者尝试 50× scale gradient:MAT 2.21 vs 2.18,几乎无效——所以问题不是 gradient magnitude,是 diversity。
𝑊𝑄 每个位置贡献梯度,𝑊𝐾,𝑉cross 只有 draft 端少数位置贡献。Autoregressive TTT 把 draft 限制在 K≤7,因此 KV proj 永远是欠训练的。

7.3 Gate-induced gradient starvation

Hybrid (ckpt init) 时 self-attention 是预训练好的,cross-attention 完全随机。早期 cross 输出近乎噪声,SGD 最快的 loss 下降方向就是"把 gate 𝑔 推到 0",让模型退化为 EAGLE-3。

training step (×10⁴) mean ḡ ḡ≈0.5 ḡ≈0.02 ḡ≈0.10 init
gate ḡ 的训练轨迹:从 0.5 在前几千步暴跌到 0.02,然后用整整 6 万步才慢慢爬回 0.10。一旦 gate 关上,流回 cross-branch 的梯度也被 𝑔 缩放,所以 cross 学不动 → gate 不开 → 自我 reinforcing。

有趣的细节:小 ḡ 不等于 cross 被忽略,因为 ḡ 是 element-wise 平均,某些 dim 的 gate 可能非常大。即便 ḡ≈0.1,Hybrid 仍能拿到 +0.17 MAT,说明这个机制的"上限"远超目前的训练状态。

7.4 共同根因:autoregressive 本身

三条 bottleneck 都源于"一次生成一个 token"这个序列结构:

作者直接指向 block-wise training(具体引用 DFlash, arXiv:2602.06036,见07_DFlash):一次并行生成一整块 draft token,既允许 drafter 加深(mask-token parallel 摊薄成本),又给 KV proj 提供 dense diverse 梯度,还能 warm-start 时同时让两路获得有意义信号。这是这篇 paper 留给社区的"下一步该这么做"。


8 · 与同类工作对比

方法reuse 的对象架构训练目标聚焦问题本文差异
EAGLE-3 multi-layer hidden state 1-layer drafter, self-attn autoregressive TTT drafting 速度 本文把它当 hidden-only 极端的 baseline,共享 TTT 训管线
MTP / Medusa top-layer hidden state parallel heads teacher-forced CE 多 token 预测 同样受限于 hidden-state compression(Fig.1)
GLIDE+CAPE top-layer KV(上一 verification block) shallow drafter w/ cross-attn teacher-forced CE 低开销 drafting 没有把 KV reuse 与 hidden reuse 在同一 pipeline 受控对比;没用 TTT
LongSpec target KV + anchor offset RoPE cross-attn drafter flash noisy training 长 context 内存 动机是 memory bound,不是 long-range decay;固定选 KV reuse
HASS hidden state(同 EAGLE) drafter + harmonized obj train-decode aligned train-infer mismatch 修 Edrift,未触及 Ecomp
DFlash (arXiv 2602.06036) hidden state(目前) 5 层 block diffusion adapter block-wise (parallel) autoregressive 瓶颈 本文的"建议方向":pipeline 改了,KV reuse 才有机会发力(详见 07_DFlash)
vanilla rejection —(不 reuse target 表征) 独立 small LM standard LM training 原始 spec decoding 对照基线,无 long-range decay 但接受率低
本文 KVShot hidden / KV / hybrid 统一 1-layer (depth ablation 1–4) 同一 EAGLE-3 TTT long-range decay 来源诊断 诊断框架,不是新 SOTA

关于 EAGLE-3 evolution 整条线和 DFlash 怎么用 block diffusion,可以参看姊妹笔记 02_EAGLE_evolution_DFlash07_DFlash


9 · 局限 / 个人 take / 待验证问题

局限

个人 take

待验证问题

  1. 把 Hybrid 移植到 DFlash 的 block diffusion pipeline,KV gain 会不会从 +0.03 涨到显著?
  2. 是否存在 KV-only + 大 drafter(8 层)+ block training 这条 path,能彻底超过 EAGLE-3? §5 depth scaling 已经接近,管线一改也许就过线。
  3. Gate starvation 的诊断:gate 只是延迟开了,如果训练 3× 更长,Hybrid 端到端 gain 会不会回来?
  4. KV proj 稀疏问题:能否在训练时人为注入更多 draft 位置(比如插入 noise tokens 模拟 draft prefix),让 W_K,Vcross 拿到更多多样性梯度,而不动 inference?
  5. 更大 target model(Qwen3-72B)上,Ecomp 是更严重还是更轻?直觉上 hidden 越宽信息密度越高,可能 compression loss 反而摊薄,但 layer 越多 q𝑡+𝑘 离 q𝑡 越远,趋势相反。需要实验。
  6. Retention 这个 metric 是不是合适的"长程决策"指标?如果 α₀ 本身已经低,retention 高没意义(论文也承认 "No target info" retention 99.6% 但 MAT 1.31)。需要一个组合指标。

10 · Memory Points

立场Long-range decay ≠ 单纯 train-infer mismatch。即使 TTT 训过,decay 仍在;还要看 reuse 哪种 representation。
关键观察Hidden state 是 query-biased compression:由当前 q𝑡 决定哪些 v𝑖 被 keep,对未来 q𝑡+𝑘 必有偏。
假设KV cache 保留 token-level prefix info,把信息恢复问题退化为函数逼近问题 (EHS=Ecomp+Edrift → EKV≈Eq)。
三条预测P1 长程 KV 占优 / P2 query 估计是瓶颈 (深 drafter 需要) / P3 短程 hidden 占优 (语义先验)。 三条全验证。
框架KVShot = 同一 EAGLE-3 TTT pipeline 下做 hidden-only / KV-only / gated hybrid 受控对比。
最佳设计Gated delta hybrid (𝑔⊙𝑊Δ(𝑜−𝑛)) + EAGLE-3 ckpt warm-start = 短程靠 hidden、长程靠 KV correction。
step-wise 数字EAGLE-3 → Hybrid: MAT 2.37 → 2.54 (+0.17), α₆ 0.469 → 0.514 (+9.6%), retention 73.5%→77.3%。
端到端坑HF MAT 5.01 → 5.04 (+0.03),加上 5–10% drafting latency,几乎 wash。 +0.17 vs +0.03 的差异由数据放大、tree verify、latency 共同造成。
三个 bottleneck① shallow drafter 估不出 q′ ② draft-side WK,Vcross 训练信号稀疏 (K≤7) ③ gate 早期被压到 0,陷入 gradient starvation。
下一步三条 bottleneck 共因:autoregressive 序列训练。Block-wise training (DFlash 风格) 是被推荐的破局方向。
读法Retention ratio αk0 比 MAT 更能反映长程衰减;但要和 α0 一起看(否则 "No target info" 的 99.6% 也好看,但 MAT 1.31 没用)。
概念输出"What information is available" vs "Whether the pipeline can learn to use it" — KVShot 的诊断价值就在拆开这两件事。