Writing an LLM from scratch, part 32f -- Interventions: weight decay
本文探讨了在从头训练GPT-2小模型时权重衰减的作用,解释了权重衰减作为正则化技术如何通过惩罚模型权重的大小来防止过拟合,并分析了AdamW优化器中weight_decay参数的最佳设置。
本文探讨了在从头训练GPT-2小模型时权重衰减的作用,解释了权重衰减作为正则化技术如何通过惩罚模型权重的大小来防止过拟合,并分析了AdamW优化器中weight_decay参数的最佳设置。