推测性预定位:有状态推理会话的路径外解码
本文提出推测性预定位(Speculative Pre-positioning)技术,通过在推理会话中引入路径外解码(off-path decode)来优化有状态推理的性能。该方法允许模型在主要推理路径之外预先计算和缓存中间状态,从而在保持推理准确性的同时,显著降低端到端延迟。实验结果表明,该技术能有效减少状态型推理应用中的重复计算开销。
背景速读
- 大型语言模型(LLM)推理的一个痛点是"自回归解码":模型必须逐个生成 token,无法并行。这会拖慢响应速度,尤其在长上下文(如多轮对话或代码编辑)中更明显。
- 这篇论文提出"投机性预定位"(Speculative Pre-Positioning,简称 SPP),思路是在用户请求的"空闲"时间里,提前预判并计算可能用到的后续 token,等请求真正到来时直接输出,减少等待时间。
- 核心改进点在于:传统投机解码通常在主推理路径上做文章,而 SPP 试图在"路径之外"(off-path)做预计算,配合有状态的推理会话(stateful inference sessions),让缓存机制更高效。
- 作者来自学术界/工业界(具体机构需看论文详情),问题直接关联到 LLM 部署的成本与延迟——对应用实时聊天、编程助手等场景有实际意义。