Writing an LLM from scratch, part 32i -- Interventions: what is in the noise?
著者は、ゼロからトレーニングした163MパラメータGPT-2スタイルモデルの性能向上を目指し、勾配クリッピング、ドロップアウト削除、アテンション重みバイアス追加、学習率スケジューリング、重み減衰調整、重み共有、float32フル精度トレーニングなど、さまざまな介入を試した。結果、学習率スケジューリングが最も効果的だったが、改善幅は小さく、ランダムシードの違いによる初期重みの変動が結果に大きな影響を与える可能性があることが分かった。