Writing an LLM from scratch, part 32e -- Interventions: the learning rate
この記事では、スクラッチから構築したGPT-2小型モデルの学習損失を改善する過程で、学習率の設定について探求しています。固定学習率の限界、学習率スケジューリング(ステップ減衰、指数減衰、コサイン減衰)、ウォームアップ戦略を解説し、Chinchilla論文で言及されたコサインサイクルについても考察します。適切な学習率の初期値を見つける難しさにも触れています。