从零开始编写LLM,第32d部分——干预措施:添加注意力偏置
本文探讨了在基于Sebastian Raschka书籍构建的GPT-2小型基础模型中,为注意力权重矩阵添加偏置项的实验。结果显示,尽管现代LLM通常不使用QKV偏置,但在这个特定规模的模型上,添加偏置使测试损失降低了0.023,训练稳定性也有所改善。
本文探讨了在基于Sebastian Raschka书籍构建的GPT-2小型基础模型中,为注意力权重矩阵添加偏置项的实验。结果显示,尽管现代LLM通常不使用QKV偏置,但在这个特定规模的模型上,添加偏置使测试损失降低了0.023,训练稳定性也有所改善。