运行时费舍尔频谱敏感性用于早期幻觉检测

本文提出一种名为运行时费舍尔频谱敏感性（Runtime Fisher Spectral Sensitivity）的新方法，用于在大语言模型生成文本时早期检测幻觉。该方法通过分析模型内部表示的频谱特性，利用费舍尔信息度量来识别可能产生幻觉的状态，从而实现更早、更准确的幻觉预警。

背景速读

- 这篇论文提出一种新方法，在大型语言模型（LLM）生成文本的过程中实时检测"幻觉"（即模型编造事实或胡言乱语）。检测越早，就能越及时干预。 - 传统方法多在生成完成后才判断"这段文本有问题"，或者计算成本太高无法在生成过程中使用。作者利用"Fisher光谱灵敏度"——一种来自统计学的指标——在模型逐词生成时就判断模型当前输出的"确定性"是否异常低。 - 核心思路：当模型很"确定"时，它的参数（权重）对当前输出"敏感度"高；当模型开始胡编时，这种统计信号会发生可检测的变化。作者证明该方法计算开销小，适合实时部署。 - 该工作发表在机器学习领域的主流会议（如ICLR/NeurIPS等）相关轨道上，针对的是LLM在实际应用中（客服、代码生成、医疗问答等）可信度不足的迫切问题。