译文语言

推测性预定位：有状态推理会话的路径外解码

本文提出推测性预定位（Speculative Pre-positioning）技术，通过在推理会话中引入路径外解码（off-path decode）来优化有状态推理的性能。该方法允许模型在主要推理路径之外预先计算和缓存中间状态，从而在保持推理准确性的同时，显著降低端到端延迟。实验结果表明，该技术能有效减少状态型推理应用中的重复计算开销。

背景速读

- 大型语言模型（LLM）推理的一个痛点是"自回归解码"：模型必须逐个生成 token，无法并行。这会拖慢响应速度，尤其在长上下文（如多轮对话或代码编辑）中更明显。 - 这篇论文提出"投机性预定位"（Speculative Pre-Positioning，简称 SPP），思路是在用户请求的"空闲"时间里，提前预判并计算可能用到的后续 token，等请求真正到来时直接输出，减少等待时间。 - 核心改进点在于：传统投机解码通常在主推理路径上做文章，而 SPP 试图在"路径之外"（off-path）做预计算，配合有状态的推理会话（stateful inference sessions），让缓存机制更高效。 - 作者来自学术界/工业界（具体机构需看论文详情），问题直接关联到 LLM 部署的成本与延迟——对应用实时聊天、编程助手等场景有实际意义。

推测性预定位：有状态推理会话的路径外解码

背景速读

相关报道

This Week on The Analog Antiquarian

推测性预定位：有状态推理会话的路径外解码

背景速读

相关报道

This Week on The Analog Antiquarian