译文语言

自然语言自编码器生成大语言模型激活的解释

本文提出了一种新型自编码器架构——自然语言自编码器（Natural Language Autoencoders），它能将大语言模型的内部激活（activations）映射为可读的自然语言解释。该方法通过将高维神经元活动转化为人类可理解的语义描述，为理解LLM的内部表征提供了更具可解释性的窗口。实验表明，这些自编码器不仅能准确重建激活模式，还能揭示模型在推理过程中所依赖的潜在概念与决策逻辑。

自然语言自编码器生成大语言模型激活的解释

相关报道

I have a simple test I would like everyone to run. Go to your favorite LLM and ask “how do I get my tax rate lower? Be accurate and specific.” Then ...

自然语言自编码器生成大语言模型激活的解释

相关报道

I have a simple test I would like everyone to run. Go to your favorite LLM and ask “how do I get my tax rate lower? Be accurate and specific.” Then ...